Сканирование на безопасность веб ресурса. Информационная безопасность, защита и безопасное администрирование веб-ресурсов. Предполагаемая научная новизна

Веб-сканеры сайтов – это специальные программы, которые выявляют уязвимости и дефекты веб-приложений.

Они позволяют взглянуть на сайт глазами робота, и понять, как его видят поисковые программы, которые анализируют состояние ресурсов и исправляют возможные ошибки.

Функционирование веб-сканеров сайтов можно сравнить с аппаратами диагностики организма человека, которые могут своевременно выявлять различные болезни и патологии, чтобы успешно бороться с ними, особенно, если они находятся на ранних стадиях развития.

Какие данные можно получить, используя веб-сканер сайтов

При использовании веб-сканеров можно выявить следующие :

Нарушения в процессе кодировки – ошибки, связанные с неправильной обработкой входящих и исходящих данных (SQL-инъекции, XSS).
Нарушения в ходе использования и конфигурирования web-приложений – ошибочная конфигурация его окружения (серверы приложений, SSL/TLS и различные сторонние компоненты).
Нарушения в процессе эксплуатации ресурса – применение неактуального ПО, легких паролей, сохранность архивных данных, служебных модулей в прямом доступе на сервере.
Неправильная настройка фильтра IP, что приводит к отказу в обслуживании. В том числе атаки на сервер с помощью направления большого количества автоматических запросов, которые он не способен быстро обработать, вследствие чего «зависает», переставая обрабатывать запросы реальных пользователей.
Слабое обеспечение защиты ОС на сервере. При ее наличии у мошенников формируется возможность создать произвольный код.

Принципы функционирования веб-сканеров сайтов

Сбор сведений об анализируемом ресурсе.
Проверка ПО ресурса на уязвимость с помощью специальных .
Определение слабых секторов в системе.
Составление рекомендаций по удалению ошибок.

Разновидности сканеров защищенности веб-сайтов

Исходя из назначения, данные программы делятся на несколько групп:

Сетевые сканеры. Открывают всевозможные сетевые сервисы, определяют ОС и т.д.
Сканеры определения ошибок в скриптах. Распознают уязвимости, такие как XSS, SQL inj, LFI/RFI и т. д., или дефекты, оставшиеся после использования непостоянных компонентов, индексации директорий и др.
Средства подбора эксплойтов. Выполняют поиск эксплойтов в ПО и скриптах.
Программы автоматизации инъекций. Сюда входят утилиты, занимающиеся выявлением и использованием инъекцией.
Дебаггеры. Программы устранения дефектов и правки кода в ресурсах.

Дополнительно работают и общие сканеры уязвимостей веб-сайта, которые совмещают в себе одновременно несколько категорий таких программ.

Бесплатные сервисы

Сетевые сервисы:

Nmap – программа с открытым начальным кодом. Используется для исследования сетей вне зависимости от числа объектов и определения их состояния.
IP Tools – сервис анализа протоколов, обеспечивающий нормы фильтрации, адаптер отбора, декорирования протоколов и т.д.

Сканеры выявления ошибок в скриптах:

Nikto – обеспечивает всестороннее исследование серверов на ошибки, делает проверку большого числа потенциально нежелательных файлов и приложений.
Skipfish – обеспечивает рекурсивную проверку приложений и последующий анализ на базе специальных словарей.

Программы распознавания эксплойтов:

Metasploit – программа работает на базе Perl и обеспечивает всестороннюю проверку разнообразных платформ и приложений.
Nessus – в процессе анализа использует как стандартные методы тестирования, так и обособленные, имитирующие поведение мошенников в процессе внедрения в систему.

Программы автоматизации инъекций:

SQLMap – сервис с доступным ключевым кодом, используемый для анализа SQL-уязвимостей.
bsqlbf-v2 – программа для поиска слепых SQL-инъекций.

Дебаггеры:

Burp Suite – комплекс автономных сервисов, разработанных на основе Java.

Назначение сканера вирусов сайта

Владельцы или администраторы ресурсов часто сталкиваются с нарушением безопасности, вследствие чего сайт попадает под запреты поисковых систем или блокируется антивирусной программой. С хостинга приходят письма о фиксации , пользователи жалуются о различных сторонних рекламных окнах или редиректах на другие ресурсы.

Возникает необходимость выявления причин возникновения указанных проблем. Это специальная процедура, выполняемая сканерами вирусов сайта. Она включает в себя 2 основных этапа:

Анализ компонентов и баз данных на хостинге на предмет обнаружения вредных скриптов и инжектов.
Проверка ресурса на сканером страниц сайта. Выявление скрытых редиректов и прочих проблем, которые нельзя найти с помощью программ поиска уязвимости.

Сканеры вирусов сайта производят статистическое и динамическое исследование на предмет существования вредоносных элементов. Статистический анализ – это выявление вредных компонентов, ссылок, спама и прочих статистических узлов на анализируемых страницах. Обнаружение подобных элементов происходит с участием базы сигнатур или постоянно обновляемого списка данных. Если вредоносный элемент расположен в коде страницы, и он известен сканеру с помощью базы, то программа зафиксирует его.

В отличие от статистического, динамический анализ – это исследование web-документов сайта путем имитации действий пользователя. Формируются результаты - что происходит в итоге, как сайт реагирует на запросы.

К наиболее востребованным сканерам вирусов сайта относятся Nod, Dr.Web, Kaspersky и т.д. Все они достаточно эффективные, если использовать версии с последними обновлениями. Работают в режиме онлайн.

Введение

В современном бизнесе веб-технологии приобрели огромную популярность. Большинство сайтов крупных компаний представляют собой набор приложений, обладающих интерактивностью, средствами персонализации, средствами взаимодействия с клиентами (интернет-магазины, дистанционное банковское обслуживание), а нередко - и средствами интеграции с внутренними корпоративными приложениями компании.

Однако как только веб-сайт становится доступным в интернете, он превращается в мишень для кибератак. Наиболее простым способом атак на веб-сайт сегодня является использование уязвимостей его компонентов. И основная проблема заключается в том, что уязвимости стали вполне обычным явлением для современных сайтов.

Уязвимости представляют собой неизбежную и растущую угрозу. Они, по большей части, являются результатами дефектов безопасности в коде веб-приложения и неправильной конфигурации компонентов веб-сайта.

Приведем немного статистики. По данным из отчета о киберугрозах за первое полугодие 2016 года High-Tech Bridge releases web security trends of the first half of 2016 , подготовленного компанией High-Tech Bridge:

свыше 60% веб-сервисов или API для мобильных приложений содержат по крайней мере одну опасную уязвимость, позволяющую скомпрометировать базу данных;
35% уязвимых к XSS-атакам сайтов также уязвимы к SQL-инъекциям и XXE-атакам;
23% сайтов содержат уязвимость POODLE, и только 0,43% - Heartbleed;
в 5 раз участились случаи эксплуатации опасных уязвимостей (например, позволяющих осуществить SQL-инъекцию) в ходе атак RansomWeb;
79,9% веб-серверов имеют неправильно сконфигурированные или небезопасные заголовки http;
актуальные на сегодняшний день необходимые обновления и исправления установлены только на 27,8% веб-серверов.

Для защиты веб-ресурсов специалисты по информационной безопасности используют различный набор средств. Например, для шифрования трафика применяют SSL-сертификаты, а на периметре веб-серверов устанавливают Web Application Firewall (WAF), которые требуют серьезной настройки и долгого самообучения. Не менее эффективным средством обеспечения безопасности веб-сайтов является и периодическая проверка состояния защищенности (поиск уязвимостей), а инструментами для проведения таких проверок служат сканеры защищенности веб-сайтов, о которых и пойдет речь в этом обзоре.

На нашем сайте уже был обзор, посвященный сканерам защищенности веб-приложений - « », в котором рассматривались продукты лидеров рынка. В настоящем обзоре мы уже не будем затрагивать эти темы, а сфокусируем внимание на обзоре бесплатных сканеров защищенности веб-сайтов.

Тема бесплатного программного обеспечения сегодня особенно актуальна. Из-за нестабильной экономической ситуации в России сейчас во многих организациях (как и в коммерческих, так и в госсекторе) идет оптимизация ИТ-бюджета, и средств на покупку дорогих коммерческих продуктов для анализа защищенности систем зачастую не хватает. При этом существует множество бесплатных (free, open source) утилит для поиска уязвимостей, о которых люди просто не знают. Причем некоторые из них не уступают по функциональным возможностям своим платным конкурентам. Поэтому в этой статьей расскажем о наиболее интересных бесплатных сканерах защищенности веб-сайтов.

Что такое сканеры защищенности веб-сайтов

Сканеры защищенности веб-сайтов - это программные (программно-аппаратные) средства, осуществляющие поиск дефектов веб-приложений (уязвимостей), которые приводят к нарушению целостности системных или пользовательских данных, их краже или получению контроля над системой в целом.

С помощью сканеров защищенности веб-сайтов можно обнаружить уязвимости следующих категорий:

уязвимости этапа кодирования;
уязвимости этапа внедрения и конфигурирования веб-приложения;
уязвимости этапа эксплуатации веб-сайта.

К уязвимостям этапа кодирования относятся уязвимости, связанные с некорректной обработкой входных и выходных данных (SQL-инъекции, XSS).

К уязвимостям этапа внедрения веб-сайта относятся уязвимости, связанные с некорректными настройками окружения веб-приложения (веб-сервера, сервера приложений, SSL/TLS, фреймворк, сторонние компоненты, наличие DEBUG-режима и т. п.).

К уязвимостям этапа эксплуатации веб-сайта относятся уязвимости, связанные с использованием устаревшего ПО, простых паролей, хранением архивных копий на веб-сервере в общем доступе, наличием в общем доступе служебных модулей (phpinfo) и т.п.

Принцип работы сканеров защищенности веб-сайтов

В общем случае принцип работы сканера защищенности веб-сайтов заключается в следующем:

Сбор информации об исследуемом объекте.
Аудит программного обеспечения веб-сайта на предмет уязвимостей по базам уязвимостей.
Выявление слабых мест системы.
Формирование рекомендаций по их устранению.

Категории сканеров защищенности веб-сайтов

Сканеры защищенности веб-сайтов, в зависимости от их предназначения, можно разделить на следующие категории (типы):

Сетевые сканеры - данный тип сканеров раскрывает доступные сетевые сервисы, устанавливает их версии, определяет ОС и т. д.
Сканеры поиска уязвимостей в веб-скриптах - данный тип сканеров осуществляет поиск уязвимостей, таких как SQL inj, XSS, LFI/RFI и т. д., или ошибок (не удаленные временные файлы, индексация директорий и т. п.).
Средства поиска эксплойтов - данный тип сканеров предназначен для автоматизированного поиска эксплойтов в программном обеспечении и скриптах.
Средства автоматизации инъекций - утилиты, которые конкретно занимаются поиском и эксплуатацией инъекций.
Дебаггеры - средства для исправления ошибок и оптимизации кода в веб-приложении.

Существуют также и универсальные утилиты, которые включают в себя возможности сразу нескольких категорий сканеров.

Далее будет приведен краткий обзор бесплатных сканеров защищенности веб-сайтов. Поскольку бесплатных утилит очень много, в обзор включены только самые популярные бесплатные инструменты для анализа защищенности веб-технологий. При включении в обзор той или иной утилиты анализировались специализированные ресурсы по тематике безопасности веб-технологий:

Краткий обзор бесплатных сканеров защищенности веб-сайтов

Сетевые сканеры

Nmap

Тип сканера: сетевой сканер.

Nmap (Network Mapper) - это бесплатная утилита с открытым исходным кодом. Она предназначена для сканирования сетей с любым количеством объектов, определения состояния объектов сканируемой сети, а также портов и соответствующих им служб. Для этого Nmap использует много различных методов сканирования, таких как UDP, TCP connect, TCP SYN (полуоткрытое), FTP proxy (прорыв через ftp), Reverse-ident, ICMP (ping), FIN, ACK, Xmas tree, SYN и NULL-сканирование.

Nmap также поддерживает большой набор дополнительных возможностей, а именно: определение операционной системы удаленного хоста с использованием отпечатков стека TCP/IP, «невидимое» сканирование, динамическое вычисление времени задержки и повтор передачи пакетов, параллельное сканирование, определение неактивных хостов методом параллельного ping-опроса, сканирование с использованием ложных хостов, определение наличия пакетных фильтров, прямое (без использования portmapper) RPC-сканирование, сканирование с использованием IP-фрагментации, а также произвольное указание IP-адресов и номеров портов сканируемых сетей.

Nmap получил статус Security Product of the Year от таких журналов и сообществ, как Linux Journal, Info World, LinuxQuestions.Org и Codetalker Digest.

Платформа: утилита кросс-платформенна.

Подробнее со сканером Nmap можно ознакомиться .

IP Tools

Тип сканера: сетевой сканер.

IP Tools - это анализатор протоколов, поддерживающий правила фильтрации, адаптер отбора, декодирование пакетов, описание протокола и многое другое. Подробная информацию о каждом пакете содержится в дереве стиля, меню по щелчку правой кнопкой мыши позволяет сканировать выбранный IP-адрес.

В дополнение к пакетному снифферу, IP Tools предлагает полный набор сетевых инструментов, включая адаптер статистики, мониторинг IP-трафика и многое другое.

Подробнее со сканером IP-Tools можно ознакомиться .

Skipfish

Кросс-платформенный сканер веб-уязвимостей Skipfish от программиста Michal Zalewski выполняет рекурсивный анализ веб-приложения и его проверку на базе словаря, после чего составляет карту сайта, снабженную комментариями об обнаруженных уязвимостях.

Разработка инструмента ведется внутри компании Google.

Сканер осуществляет детальный анализ web-приложения. Также существует возможность создания словаря для последующего тестирования этого же приложения. Подробный отчет Skipfish содержит информацию об обнаруженных уязвимостях, URL ресурса, содержащего уязвимость, а также переданный запрос. В отчете полученные данные отсортированы по уровню опасности и по типу уязвимости. Отчет формируется в html-формате.

Стоит отметить, что сканер веб-уязвимостей Skipfish генерирует очень большой объем трафика, а сканирование происходит очень долго.

Платформы: MacOS, Linux, Windows.

Подробнее со сканером Skipfish можно ознакомиться .

Wapiti

Тип сканера: сканер поиска уязвимостей в веб-скриптах.

Wapiti - это консольная утилита для аудита веб-приложений. Работает по принципу «черного ящика» (blackbox).

Wapiti функционирует следующим образом: сначала WASS-сканер анализирует структуру сайта, ищет доступные сценарии, анализирует параметры. После Wapiti включает фаззер и продолжает сканирование до тех пор, пока все уязвимые скрипты не будут найдены.

WASS-сканер Wapiti работает со следующими типами уязвимостей:

File disclosure (Local and remote include/require, fopen, readfile).
Database Injection (PHP/JSP/ASP SQL Injections and XPath Injections).
XSS (Cross Site Scripting) injection (reflected and permanent).
Command Execution detection (eval(), system(), passtru()…).
CRLF Injection (HTTP Response Splitting, session fixation…).
XXE (XmleXternal Entity) injection.
Use of know potentially dangerous files.
Weak .htaccess configurations that can be bypassed.
Presence of backup files giving sensitive information (source code disclosure).

Wapiti входит в состав утилит дистрибутива Kali Linux. Можно скачать исходники с SourceForge и использовать на любом дистрибутиве, основанном на ядре Linux. Wapiti поддерживает GET и POST HTTP методы запросов.

Платформы: Windows, Unix, MacOS.

Подробнее со сканером Wapiti можно ознакомиться .

Nessus

Сканер Nessus является мощным и надежным средством, которое относится к семейству сетевых сканеров, позволяющих осуществлять поиск уязвимостей в сетевых сервисах, предлагаемых операционными системами, межсетевыми экранами, фильтрующими маршрутизаторами и другими сетевыми компонентами. Для поиска уязвимостей используются как стандартные средства тестирования и сбора информации о конфигурации и функционировании сети, так и специальные средства, эмулирующие действия злоумышленника по проникновению в системы, подключенные к сети.

Подробнее со сканером Nessus можно ознакомиться .

bsqlbf-v2

Тип сканера: средство автоматизации инъекций.

bsqlbf-v2 - скрипт, написанный на языке Perl. Брутфорсер «слепых» SQL-инъекций. Сканер работает как с integer-значениями в url, так и со строковыми (string).

Платформы: MS-SQL, MySQL, PostgreSQL, Oracle.

Подробнее со сканером bsqlbf-v2 можно ознакомиться .

Дебаггеры

Burp Suite

Тип сканера: дебаггер.

Burp Suite - это набор относительно независимых кросс-платформенных приложений, написанных на Java.

Ядром комплекса является модуль Burp Proxy, выполняющий функции локального прокси-сервера; остальные компоненты набора - это Spider, Intruder, Repeater, Sequencer, Decoder и Comparer. Все составляющие связаны между собой в единое целое таким образом, что данные могут быть отправлены в любую часть приложения, например, из Proxy в Intruder для проведения различных проверок над веб-приложением, из Intruder в Repeater - для более тщательного ручного анализа HTTP-заголовков.

Платформы: кросс-платформенное программное обеспечение.

Подробнее со сканером Burp Suite можно ознакомиться .

Fiddler

Тип сканера: дебаггер.

Fiddler - это отладочный прокси, логирующий весь HTTP(S)-трафик. Инструмент позволяет исследовать этот трафик, устанавливать breakpoint и «играться» с входящими или исходящими данными.

Функциональные особенности Fiddler:

Возможность контроля всех запросов, файлов cookie, передаваемых параметров интернет-браузерами.
Функция изменения ответов сервера «на лету».
Возможность манипулировать заголовками и запросами.
Функция изменения ширины канала.

Платформы: кросс-платформенное программное обеспечение.

Подробнее со сканером Fiddler можно ознакомиться .

N-Stalker Web Application Security Scanner X Free Edition

Тип сканера: сканер поиска уязвимостей в веб-скриптах, средство поиска эксплойтов.

Эффективный инструмент для веб-служб - N-Stealth Security Scanner компании N-Stalker. Компания продает более полнофункциональную версию N-Stealth, но бесплатная пробная версия вполне пригодна для простой оценки. Платный продукт располагает более чем 30 тыс. тестов системы безопасности веб-серверов, но и бесплатная версия обнаруживает более 16 тыс. конкретных пробелов, в том числе уязвимые места в таких широко распространенных веб-серверах, как Microsoft IIS и Apache. Например, N-Stealth отыскивает уязвимые сценарии Common Gateway Interface (CGI) и Hypertext Preprocessor (PHP), использует атаки с проникновением в SQL Server, типовые кросс-сайтовые сценарии и другие пробелы в популярных веб-серверах.

N-Stealth поддерживает как HTTP, так и HTTP Secure (HTTPS - с использованием SSL), сопоставляет уязвимые места со словарем Common Vulnerabilities and Exposures (CVE) и базой данных Bugtraq, а также генерирует неплохие отчеты. N-Stealth используется для поиска наиболее распространенных уязвимых мест в веб-серверах и помогает определять самые вероятные направления атак.

Конечно, для более достоверной оценки безопасности веб-узла или приложений рекомендуется приобрести платную версию.

Подробнее со сканером N-Stealth можно ознакомиться .

Выводы

Тестирование веб-сайтов на предмет выявления уязвимых мест - это хорошая превентивная мера. В настоящее время существует множество как коммерческих, так и свободно распространяемых сканеров защищенности веб-сайтов. При этом сканеры могут быть как универсальные (комплексные решения), так и специализированные, предназначенные только для выявления определенных типов уязвимостей.

Некоторые бесплатные сканеры являются довольно мощными инструментами и показывают большую глубину и хорошее качество проверки веб-сайтов. Но перед тем как использовать бесплатные утилиты для анализа защищенности веб-сайтов, необходимо удостовериться в их качестве. Сегодня для этого уже есть множество методик (например, Web Application Security Scanner Evaluation Criteria , OWASP Web Application Scanner Specification Project).

Наиболее полную картину о защищенности той или иной инфраструктуры позволяют получить только комплексные решения. В некоторых случаях лучше применять несколько сканеров защищенности.

Рубрика: .

Автор: Максадхан Якубов, Богдан Шкляревский.

В данной статье рассматриваются проблемы администрирования веб-ресурсов, а также методы, способы и рекомендации по безопасному администрированию и защите от взломов и кибератак.

Первый этап проектирования, создания или использования безопасного веб-сайта - это обеспечение максимального уровня безопасности сервера, на котором он размещается.

Основным компонентом любого веб-сервера является операционная система. Обеспечить ее безопасность сравнительно просто: достаточно вовремя устанавливать последние обновления системы безопасности.

Следует помнить, что хакеры также склонны автоматизировать свои атаки, используя вредоносное ПО, перебирающее один сервер за другим в поисках сервера, где обновление устарело или не было установлено. В связи с этим рекомендуется следить за тем, чтобы обновления устанавливались своевременно и правильно; любой сервер, на котором установлены устаревшие версии обновлений, может подвергнуться атаке.

Также следует вовремя обновлять все программное обеспечение, работающее на веб-сервере. Любое ПО, не относящееся к необходимым компонентам (например, DNS-сервер либо средства удаленного администрирования наподобие VNC или служб удаленных рабочих столов), следует отключить или удалить. Если средства удаленного администрирования все же необходимы, следите за тем, чтобы не использовались пароли по умолчанию или пароли, которые можно легко угадать. Это замечание относится не только к средствам удаленного администрирования, но и к учетным записям пользователей, маршрутизаторам и коммутаторам.

Следующий важный момент - это антивирусное программное обеспечение. Его использование является обязательным требованием для любого веб-ресурса вне зависимости от того, используется в качестве платформы Windows или Unix. В сочетании с гибким межсетевым экраном антивирусное программное обеспечение становится одним из самых эффективных способов защиты от кибератак. Когда веб-сервер становится целью атаки, злоумышленник без промедления старается загрузить инструменты для взлома или вредоносное программное обеспечение, чтобы успеть использовать уязвимость систем безопасности. При отсутствии качественного антивирусного обеспечения уязвимость системы безопасности может долгое время оставаться незамеченной и привести к нежелательным последствиям.

Самым оптимальным вариантом при защите информационных ресурсов является многоуровневый подход. На переднем фланге - межсетевой экран и операционная система; стоящий за ними антивирус готов заполнить любые возникающие бреши.

Исходя из параметров операционной системы и функционала веб-сервера, можно привести следующие общие приемы защиты от кибератак:

Не устанавливайте ненужные компоненты. Любой компонент несет с собой отдельную угрозу; чем их больше, тем выше суммарный риск.
Своевременно устанавливайте обновления системы безопасности для операционной системы и приложений.
Используйте антивирус, включите автоматическую установку обновлений и регулярно проверяйте правильность их установки.

Некоторые из этих задач могут казаться затруднительными, но следует помнить о том, что для атаки достаточно единственной бреши в системе безопасности. Потенциальные риски при этом - кража данных и трафика, занесение IP-адреса сервера в «черные» списки, ущерб репутации организации и нестабильность веб-сайта.

По степени критичности уязвимости, как правило, выделяют 5 уровней, которые определяют, в каком состоянии на данный момент находится веб-ресурс (таблица 1). Обычно злоумышленники, исходя из своих целей и квалификации, стараются закрепиться на взломанном ресурсе и замаскировать свое присутствие.

Взлом сайта не всегда можно распознать по внешним признакам (мобильный редирект, спам-ссылки на страницах, чужие баннеры, дефейс и пр.). При компрометации сайта этих внешних признаков может и не быть. Ресурс может работать в штатном режиме, без перебоев, ошибок и попадания в «черные» списки антивирусов. Но это отнюдь не означает, что сайт в безопасности. Проблема в том, что заметить факт взлома и загрузки хакерских скриптов без проведения аудита безопасности - сложно, а сами веб-шеллы, бэкдоры и другие инструменты хакера могут достаточно долго находиться на хостинге и не использоваться по назначению. Но однажды наступает момент, и они начинают сурово эксплуатироваться злоумышленником, в результате чего у владельца сайта возникают проблемы. За спам, размещение фишинговых страниц сайт блокируют на хостинге (или отключают часть функционала), а появление редиректов или вирусов на страницах чревато баном со стороны антивирусов и санкциями со стороны поисковых систем. В подобном случае необходимо в срочном порядке «лечить» сайт, а затем ставить защиту от взлома, чтобы сюжет не повторялся. Зачастую штатные антивирусы не опознают некоторые виды троянов и веб-шеллов, причиной тому может быть несвоевременное обновление либо устаревшее программное обеспечение. При проверке веб-ресурса на вирусы и скрипты следует пользоваться антивирусными программами различной специализации, в этом случае не найденный одной антивирусной программой троян может быть обнаружен другой. На рисунке 1 приведен пример отчета проверки антивирусного программного обеспечения, здесь важно отметить тот факт, что другие антивирусные программы не смогли обнаружить вредоносное программное обеспечение.

Такие троянские программы, как «PHP/Phishing.Agent.B», «Linux/Roopre.E.Gen», «PHP/Kryptik.AE», используются злоумышленниками для удаленного управления компьютером. Такие программы часто проникают на веб-сайт через электронную почту, бесплатное программное обеспечение, другие веб-сайты или чат-комнату. Большую часть времени такая программа выступает в качестве полезного файла. Тем не менее, это вредоносная троянская программа, которая собирает личную информацию пользователей и передает ее злоумышленникам. Кроме того, она может автоматически подключаться к определенным веб-сайтам и загружать другие виды вредоносного ПО в систему. Чтобы избежать обнаружения и удаления, «Linux/Roopre.E.Gen» может отключать средства безопасности. Данная троянская программа разработана с применением технологии руткит, которая позволяет ей скрываться внутри системы.

«PHP/WebShell.NCL» является троянской программой, которая может выполнять различные функции, например, удаление системных файлов, загрузку вредоносных программ, скрывать существующие компоненты или загруженную личную информацию и другие данные. Эта программа может обойти общую антивирусную проверку и проникнуть в систему без ведома пользователя. Данная программа способна установить бэкдор для удаленных пользователей, чтобы взять контроль над зараженным веб-сайтом. С помощью этой программы злоумышленник может шпионить за пользователем, управлять файлами, устанавливать дополнительное программное обеспечение, а также контролировать всю систему.
«JS/TrojanDownloader.FakejQuery. A» - троянская программа, основными целями атак которой являются сайты, разработанные с использованием CMS «WordPress» и «Joomla». Когда злоумышленник взламывает веб-сайт, он запускает скрипт, который имитирует инсталляцию плагинов «WordPress» или «Joomla», а затем внедряет вредоносный JavaScript-код в файл «header.php».
«PHP/small.NBK» - является вредоносным приложением, которое позволяет хакерам получить удаленный доступ к компьютерной системе, позволяя им изменять файлы, красть личную информацию и устанавливать более вредоносное программное обеспечение. Эти виды угроз, которые называются Троянский конь, обычно загружаются злоумышленником или же загрузка осуществляется другой программой. Они могут также появляться в связи с установкой зараженных приложений или онлайн-игр, а также при переходе на зараженные сайты.

К сожалению, хакерские скрипты по внешним признакам или внешними сканерами не обнаруживаются. Поэтому ни антивирусы поисковых систем, ни антивирусное программное обеспечение, установленное у веб-мастера на компьютере, не сообщит о проблемах безопасности сайта. Если скрипты размещены где-нибудь в системных каталогах сайта (не в корневом и не в images) или инжектированы в существующие скрипты, случайно заметить их также не удастся.

Рисунок 1. Пример отчета проверки антивирусного ПО

Поэтому необходимыми мерами для защиты веб-ресурсов могут быть следующие рекомендации:

Регулярное резервное копирование всего содержимого файловой системы, баз данных и журналов событий (лог-файлов).
Регулярное обновление системы управления контентом до последней стабильной версии CMS (системы управления контентом).
Использование сложных паролей. Требования к паролю: пароль должен содержать не менее восьми символов, при создании пароля должны быть использованы символы верхнего и нижнего регистра, а также специальные символы.
Обязательное использование дополнений или плагинов безопасности для предотвращения атак типа XSS-атака или SQL-инъекции.
Использование и установка дополнений (плагинов, шаблонов или расширений) должны осуществляться только с проверенных источников или официальных веб-сайтов разработчиков.
Сканирование файловой системы не менее 1 раза в неделю антивирусными программами и с использованием актуальных сигнатур баз данных.
Предусмотреть использование механизма «CAPTCHA» для защиты веб-сайта от взлома методом перебора паролей при авторизации и ввода данных в любую форму запросов (форма обратной связи, поиск и др.).
Ограничить возможность входа в административную панель управления веб-сайта после определенного количества неудачных попыток.
Корректно настроить политику безопасности веб-сайта через файл конфигурации веб-сервера с учетом таких параметров, как:

ограничить количество IP-адресов, используемых администратором для доступа в административную панель управления веб-сайтом в целях предотвращения доступа к ней с посторонних IP-адресов;
запретить передачу любых тегов любыми способами, кроме оформления текста (например, p b i u) для предотвращения XSS-атак.

Перемещение файлов, содержащих информацию о доступе к базе данных, FTP-доступу и т.д., из директорий по умолчанию в другие с последующим переименованием данных файлов.

Даже не совсем опытному хакеру взломать сайт на «Joomla» достаточно просто, если вы не предусмотрели защиты. Но, к сожалению, часто веб-мастера откладывают защиту от взлома сайта на потом, считая это делом не первой необходимости. На восстановление доступа к своему сайту уйдет значительно больше времени и усилий, чем на принятие мер по его защите. Безопасность веб-ресурса - задача не только разработчика и хостера, который обязан обеспечить максимальную защищенность серверов, но и администратора сайта.

Вариантов атак на веб-ресурс, как и последствий этих атак, великое множество. А целей как всегда только две - слава с банальной радостью от показа собственных возможностей, и вездесущая выгода, проявляющаяся в виде прямой или косвенной материальной наживы, проще говоря денег. Итак, что же грозит? Вот пример наиболее распространенных атак на веб-сайты:

Подмена главной страницы сайта - одна из самых частых форм взлома. Заместо привычного содержимого на обложке сайта будет красоваться все что угодно - от имени злостного хакера до банальных оскорблений.
Удаление файловой системы - вся информация попросту пропадает, что становится провальным в случае отсутствия сохраненной копии ресурса. Стоит отметить, что пропасть может и база клиентских паролей, а также прочие данные, имеющие критичную ценность.
Подмена информации - злоумышленники могут подменить телефон или другие данные организации. В этом случае ваши клиенты автоматически становятся клиентами злоумышленников.
Размещение троянских программ - в этом случае скорее всего вы не заметите визит хакера, по крайней мере все будет на это нацелено. Вредоносные программы могут выполнять разнообразные функции - осуществлять переадресацию на сайт злоумышленников, воровать персональные данные клиентов, заражать посетителей вирусами и так далее.
Рассылка спама - ваш сайт могут использовать для рассылки спама, в этом случае ваша «настоящая» корреспонденция не будет доходить до адресата, так как домен вашей организации практически сразу будет внесен в централизованную базу данных спамеров.
Создание высокой нагрузки - отправление в адрес веб-сервера заведомо некорректных запросов или иные действия извне, результатом которых будет затруднение доступа к сайту или падение операционной системы сервера. Такой вид атаки очень широко распространен в интернете.

Следствием всех перечисленных разновидностей атак является не только временное прекращение работоспособности ресурса, но и потеря доверия к веб-сайту в глазах клиентов. Пользователь, заразившийся вредоносным кодом на вашем ресурсе, или перенаправленный с вашего сайта на сайт сомнительного содержания, вряд ли когда-либо снова отважится набрать ваш адрес в строке браузера.

Что делать?

Вопросом безопасности веб-сайта можно задаться уже на этапе разработки. Существует множество CMS-систем (Content Management System - система управления содержимым), представляющих собой некий шаблон, упрощающий управление и разработку сайта. Весь спектр CSM систем можно подразделить на открытые (бесплатные) и проприетарные. Среди открытых можно выделить Drupal, Mambo, Joomla и Typo3, среди платных - 1С-Битрикс, NetCat, Amiro.CMS. Все они являются в той или иной мере безопасными, обладают рядом преимуществ и недостатков. Так какую CMS стоит выбрать? Безусловно этот вопрос остается на рассмотрении в каждом конкретном случае, однако статистика говорит о том, что в России подавляющее большинство веб-студий, использующих сторонние разработки для создания сайтов, пользуются продуктом 1С-Битрикс. За это говорит ряд факторов:

Объединившись с фирмой 1C, Битрикс внегласно превратился в национальный стандарт веб-разработки на основе CMS.
1С-Битрикс имеет сертификат безопасности от компании Positive Technologies (речь о которой пойдет далее), подтверждающий неуязвимость системы ко всем видам известных атак на веб-приложения.
1С-Битрикс на данный момен является самой перспективной на российском рынке CMS-системой, показывая наилучший темп роста.
Функционала продукта вполне достаточно для создания сложных корпоративных сайтов, информационных и справочных порталов, интернет-магазинов, сайтов СМИ, а также для создания практически любых других видов веб-ресурсов.

Создание сайтов на основе 1С-Битрикс, а также перевод уже имеющихся ресурсов на движок продукта - один из вариантов решения целого ряда проблем безопасности, в первую очередь вопросов уязвимости, речь о которых и пойдет далее.

Сайт уже создан - уязвим ли он?

Проверка имеющегося веб-ресурса на наличие уязвимости - дело весьма трудоемкое. Процесс не ограничивается непосредственным сканированием - сайт еще надо переработать, дыры заткнуть, а ряд вопросов и вовсе придется решать на стороне провайдера. Итак, сканеры уязвимостей.

Сканеры уязвимостей - это специальные программы, предназначенные для анализа защищённости сети путём сканирования и зондирования сетевых ресурсов и выявления их уязвимостей. Проще говоря, сканер ищет типичные дыры и бреши безопасности, облегчая тем самым жизнь не только владельцев веб-сайтов, но и хакеров. Все сканеры уязвимостей можно классифицировать в зависимости от методики работы на 3 группы:

Локальные - устанавливаются непосредственно на проверяемом узле и обеспесивают высокую достоверность. Работают от имени учетной записи с максимальными привелегиями и используют только один метод поиска уязвимостей - сравнение атрибутов файлов.
Пассивные - в качестве источника данных используют сетевой трафик, однако, в отличие от сетевых, позволяют минимизировать влияние сканера на уязвимости. В настоящее время слабо распространены, но выглядят весьма перспективно.
Сетевые - самые популярные на сегодняшний день. Выполняют проверки дистанционно, подключаясь через сетевые сервисы.

Производителей сканеров уязвимостей много, существует масса обзоров и тестирований, выделяющих продукт той или иной фирмы. Перечислим несколько наиболее распространенных сканеров: Nessus, XSpider, IBM Internet Scanner, Retina, Shadow Security Scanner, Acunetix, N-Stealth.

XSpider (на смену которого приходит MaxPatrol) - сканер от российского производителя Positive Technologies. Он обладает поистине обширным списком возможностей - эвристический анализ и определение типа серверов, полное сканирование портов и отображение сервисов, проверка на стандартные пароли, анализ на SQL инъекции, XSS атаки, и практически ежедневный апдейт уязвимостей. В сравнении с конкурентами, сканер демонстрирует более качественную идентификацию сервисов и приложений, обеспечивая как следствие большее и более точное определение уязвимостей при минимальном проценте ложных оповещений. Продукт является одним из лучших решений не только на российской, но и на мировой сцене, поэтому мы решили выделить именно его.

Что нужно менять?

Обеспечение безопасности веб-ресурса - это процесс, сочетающий в себе определенный набор действий. Сложившаяся система сперва исследуется на предмет безопасности, затем определяется ряд мер и работ, проделываемых для достижения этой безопасности. Это могут быть и услуги программистов, разрабатывающих или оптимизирующих сайт, и услуги инженеров, решающих технические вопросы, и, безусловно, некий набор организационных мер. Все зависит только от желания и возможностей заказчика.

1. Цель и задачи

Целью работы является разработка алгоритмов повышения безопасности доступа к внешним информационным ресурсам из корпоративных образовательных сетей с учетом характерных для них угроз безопасности, а также особенностей контингента пользователей, политик безопасности, архитектурных решений, ресурсного обеспечения.

Исходя из поставленной цели, в работе решаются следующие задачи:

1. Выполнить анализ основных угроз информационной безопасности в образовательных сетях.

2. Разработать метод ограничения доступа к нежелательным информационным ресурсам в образовательных сетях.

3. Разработать алгоритмы, позволяющие осуществлять сканирование веб-страниц, поиск прямых соединений и загрузку файлов для дальнейшего анализа потенциально вредоносного кода на сайтах.

4. Разработать алгоритм идентификации нежелательных информационных ресурсов на сайтах.

2. Актуальность темы

Современные интеллектуальные обучающие системы являются Web-ориентированными и предусматривают для своих пользователей возможность работы с различными видами локальных и удаленных образовательных ресурсов. Проблема безопасного использования информационных ресурсов (ИР), размещенных в сети Интернет, постоянно приобретает все большую актуальность . Одним из методов, используемых при решении данной проблемы, является ограничение доступа к нежелательным информационным ресурсам.

Операторы, предоставляющие доступ в Интернет образовательным учреждениям, обязаны обеспечить ограничение доступа к нежелательным ИР. Ограничение осуществляется путем фильтрации операторами по спискам, регулярно обновляемым в установленном порядке. Однако, учитывая назначение и пользовательскую аудиторию образовательных сетей, целесообразно использовать более гибкую, самообучающуюся систему, которая позволит динамически распознавать нежелательные ресурсы и ограждать от них пользователей.

В целом доступ к нежелательным ресурсам несет следующие угрозы: пропаганду противоправных и асоциальных действий, таких как: политический экстремизм, терроризм, наркомания, распространение порнографии и других материалов; отвлечение учащихся от использования компьютерных сетей в образовательных целях; затруднение доступа в Интернет из-за перегрузки внешних каналов, имеющих ограниченную пропускную способность. Перечисленные выше ресурсы часто используются для внедрения вредоносных программ с сопутствующими им угрозами .

Существующие системы ограничения доступа к сетевым ресурсам имеют возможность проверять на соответствие заданным ограничениям не только отдельные пакеты, но и их содержимое - контент, передаваемый через сеть. В настоящее время в системах контентной фильтрации применяются следующие методы фильтрации web-контента: по имени DNS или конкретному IP-адресу, по ключевым словам внутри web-контента и по типу файла. Чтобы блокировать доступ к определенному web-узлу или группе узлов, необходимо задать множество URL, контент которых является нежелательным. URL-фильтрация обеспечивает тщательный контроль безопасности сети. Однако нельзя предугадать заранее все возможные неприемлемые URL-адреса. Кроме того, некоторые web-узлы с сомнительным информационным наполнением работают не с URL, а исключительно с IP-адресами.

Один из путей решения задачи состоит в фильтрации контента, получаемого по протоколу HTTP. Недостатком существующих систем контентной фильтрации является использование списков разграничения доступа, формируемых статически. Для их наполнения разработчики коммерческих систем контентной фильтрации нанимают сотрудников, которые делят контент на категории и составляют рейтинг записей в базе данных .

Для устранения недостатков существующих систем фильтрации контента для образовательных сетей актуальна разработка систем фильтрации web-трафика с динамическим определением категории web-ресурса по содержимому его страниц.

3. Предполагаемая научная новизна

Алгоритм ограничения доступа пользователей интеллектуальных обучающих систем к нежелательным ресурсам Интернет-сайтов, основанный на динамическом формировании списков доступа к информационным ресурсам путем их отложенной классификации.

4. Планируемые практические результаты

Разработанные алгоритмы могут использоваться в системах ограничения доступа к нежелетельным ресурсам в интеллектуальных системах компьютерного обучения.

5. Обзор исследований и разработок

5.1 Обзор исследований и разработок по теме на глобальном уровне

Проблемам обеспечения информационной безопасности посвящены работы таких известных ученых как: H.H. Безруков, П.Д. Зегжда, A.M. Ивашко, А.И. Костогрызов, В.И. Курбатов К. Лендвер, Д. Маклин, A.A. Молдовян, H.A. Молдовян, А.А.Малюк, Е.А.Дербин, Р. Сандху, Дж. М. Кэррол, и других. Вместе с тем, несмотря на подавляющий объем текстовых источников в корпоративных и открытых сетях, в области разработки методов и систем защиты информации в настоящее время недостаточно представлены исследования, направленные на анализ угроз безопасности и исследование ограничения доступа к нежелательным ресурсам при компьютерном обучении с возможностями доступа к Web.

В Украине ведущим исследователем в данной сфере является Домарев В.В. . Его диссертационные исследования посвящены проблемам создания комплексных систем защиты информации. Автор книг: «Безопасность информационных технологий. Методология создания систем защиты», «Безопасность информационных технологий. Системный подход» и др., автор более 40 научных статей и публикаций.

5.2 Обзор исследований и разработок по теме на национальном уровне

В Донецком национальном техническом университете разработкой моделей и методов для создания системы информационной безопасности корпоративной сети предприятия с учетом различных критериев занималась Химка С.С. . Защитой информации в обучающих системах Заняла Ю.С. .

6. Проблемы ограничения доступа к веб-ресурсам в образовательных системах

Развитие информационных технологий в настоящее время позволяет говорить о двух аспектах описания ресурсов Интернет-контент и инфраструктура доступа. Под инфраструктурой доступа принято понимать множество аппаратных и программных средств, обеспечивающих передачу данных в формате IP-пакетов, а контент определяется как совокупность формы представления (например, в виде последовательности символов в определенной кодировке) и контента (семантики) информации. Среди характерных свойств такого описания следует выделить следующие:

1. независимость контента от инфраструктуры доступа;

2. непрерывное качественное и количественное изменение контента;

3. появление новых интерактивных информационных ресурсов («живые журналы», социальные сети, свободные энциклопедии и др.), в которых пользователи непосредственно участвуют в создании сетевого контента.

При решении задач управления доступом к информационным ресурсам большое значение имеют вопросы выработки политики безопасности, которые решаются по отношению к характеристикам инфраструктуры и сетевого контента. Чем выше уровень описания модели информационной безопасности, тем в большей степени управление доступом ориентировано на семантику сетевых ресурсов. Очевидно, что MAC и IP-адреса (канальный и сетевой уровень взаимодействия) интерфейсов сетевых устройств невозможно привязать к какой-либо категории данных, так как один и тот же адрес может представлять различные сервисы. Номера портов (транспортный уровень), как правило, дают представление о типе сервиса, но качественно никак не характеризуют информацию, предоставляемую этим сервисом. Например, невозможно отнести определенный Web-сайт к одной из семантических категорий (СМИ, бизнес, развлечения и т.д.) только на основании информации транспортного уровня. Обеспечение информационной защиты на прикладном уровне вплотную приближается к понятию контентной фильтрации, т.е. управления доступом с учетом семантики сетевых ресурсов. Следовательно, чем более ориентирована на контент система управления доступом, тем более дифференцированный подход по отношению к различным категориям пользователей и информационных ресурсов можно реализовать с ее помощью. В частности, семантически ориентированная система управления способна эффективно ограничить доступ учащихся образовательных учреждений к ресурсам, не совместимым с процессом обучения.

Возможные варианты процесса получения веб-ресурса представлены на рис.1

Рисунок 1 - Процесс получения веб-ресурса по протоколу HTTP

Чтобы обеспечить гибкий контроль использования Интернет-ресурсов, необходимо ввести в компании-операторе соответствующую политику использования ресурсов образовательной организацией. Эта политика может реализовываться как «вручную», так и автоматически. «Ручная» реализация означает, что в компании имеется специальный штат сотрудников, которые в режиме реального времени или по журналам маршрутизаторов, прокси-серверов или межсетевых экранов ведут мониторинг активности пользователей образовательного учреждения. Такой мониторинг является проблематичным, поскольку требует больших трудозатрат. Чтобы обеспечить гибкий контроль использования Интернет ресурсов, компания должна дать администратору инструмент для реализации политики использования ресурсов организацией. Этой цели служит контентная фильтрация. Ее суть заключается в декомпозиции объектов информационного обмена на компоненты, анализе содержимого этих компонентов, определении соответствия их параметров принятой политике использования Интернет-ресурсов и осуществлении определенных действий по результатам такого анализа. В случае фильтрации веб трафика под объектами информационного обмена подразумеваются веб-запросы, содержимое веб страниц, передаваемые по запросу пользователя файлы.

Пользователи учебной организации получают доступ к сети Интернет исключительно через proxy-сервер. При каждой попытке получения доступа к тому либо иному ресурсу proxy-сервер проверяет - не внесен ли ресурс в специальную базу. В случае если такой ресурс размещен в базе запрещенных - доступ к нему блокируется, а пользователю выдается на экран соответствующее сообщение.

В случае, если запрошенный ресурс отсутствует в базе запрещённых ресурсов то доступ к нему предоставляется, однако запись о посещении данного ресурса фиксируется в специальном служебном журнале. Один раз в день (или с другим периодом) proxy-сервер формирует перечень наиболее посещаемых ресурсов (в виде списка URL) и отправляет его экспертам. Эксперты (администраторы системы) с использованием соответствующей методики проверяют полученный перечень ресурсов и определяет их характер. В случае, если ресурс имеет нецелевой характер, эксперт осуществляет его классификацию (порноресурс, игровой ресурс) и вносит изменение в базу данных. После внесения всех необходимых изменений обновлённая редакция базы данных автоматически пересылается всем proxy-серверам, подключённым к системе. Схема фильтрации нецелевых ресурсов на proxy-серверах приведена на рис. 2.

Рисунок 2 - Базовые принципы фильтрации нецелевых ресурсов на proxy-серверах

Проблемы фильтрации нецелевых ресурсов на proxy-серверах следующие. При централизованной фильтрации необходима высокая производительность оборудования центрального узла, большая пропускная способность каналов связи на центральном узле, выход из строя центрального узла ведет к полному выходу из строя всей системы фильтрации.

При децентрализованной фильтрации «на местах» непосредственно на рабочих станциях или серверах организации большая стоимость разворачивания и поддержки.

При фильтрации по адресу на этапе отправки запроса отсутствует превентивная реакция на наличие нежелательного контента, сложности при фильтрации «маскирующихся» веб-сайтов.

При фильтрации по контенту необходима обработка больших объёмов информации при получении каждого ресурса, сложность обработки ресурсов подготовленных с использованием таких средств как Java, Flash.

7. Информационная безопасность веб-ресурсов для пользователей интеллектуальных обучающих систем

Рассмотрим возможность управления доступом к ИР при помощи распространенного решения, основанного на иерархическом принципе комплексирования средств управления доступом к ресурсам Интернет (рис.3). Ограничение доступа к нежелательным ИР из ИОС может быть обеспечено путем сочетания таких технологий как межсетевое экранирование, использование прокси-серверов, анализ аномальной деятельности с целью обнаружение вторжений, ограничение полосы пропускания, фильтрация на основе анализа содержания (контента), фильтрация на основании списков доступа. При этом одной из ключевых задач является формирование и использование актуальных списков ограничения доступа.

Фильтрация нежелательных ресурсов проводится в соответствии с действующими нормативными документами на основании публикуемых в установленном порядке списков. Ограничение доступа к иным информационным ресурсам производится на основании специальных критериев, разрабатываемых оператором образовательной сети.

Доступ пользователей с частотой, ниже заданной даже к потенциально нежелательному ресурсу, является допустимым. Анализу и классификации подлежат только востребованные ресурсы, то есть те, для которых число запросов пользователей превысило заданное пороговое значение. Сканирование и анализ осуществляются спустя некоторое время после превышения числа запросов порогового значения (в период минимальной загрузки внешних каналов).

Сканируются не единичные веб-страницы, а все связанные с ними ресурсы (путем анализа имеющихся на странице ссылок). В результате данный подход позволяет в процессе сканирования ресурса определять наличие ссылок на вредоносные программы.

Рисунок 3 -Иерархия средств управления доступом к ресурсам Интернет

(анимация, 24 кадра, 25 Кб)

Автоматизированная классификация ресурсов производится на корпоративном сервере клиента - владельца системы. Время классификации определяется используемым методом, в основе которого лежит понятие отложенной классификации ресурса. При этом предполагается, что доступ пользователей с частотой ниже заданной даже к потенциально нежелательному ресурсу является допустимым. Это позволяет избежать дорогостоящей классификации «на лету». Анализу и автоматизированной классификации подлежат только востребованные ресурсы, то есть ресурсы, частота запросов пользователей к которым превысила заданное пороговое значение. Сканирование и анализ осуществляются спустя некоторое время после превышения числа запросов порогового значения (в период минимальной загрузки внешних каналов). Метод реализует схему динамического построения трех списков: «черного»(ЧСП), «белого»(БСП) и «серого»(ССП). Ресурсы, находящиеся в «черном» списке запрещены для доступа. «Белый» список содержит проверенные разрешенные ресурсы. «Серый» список содержит ресурсы, которые хотя бы один раз были востребованы пользователями, но не прошли классификацию. Первоначальное формирование и дальнейшая «ручная» корректировка «черного» списка производится на основании официальной информации об адресах запрещенных ресурсов, предоставляемых уполномоченным государственным органом. Первоначальное содержание «белого» списка составляют рекомендованные для использования ресурсы. Любой запрос ресурса, не относящегося к «черному» списку, удовлетворяется. В том случае, если этот ресурс не находится в «белом» списке, он помещается в «серый» список, где фиксируется количество запросов к этому ресурсу. Если частота запросов превышает некоторое пороговое значение, проводится автоматизированная классификация ресурса, на основании чего он попадает в «черный» или «белый» список.

8. Алгоритмы определения информационной безопасности веб-ресурсов для пользователей интеллектуальных обучающих систем

Алгоритм ограничения доступа. Ограничения доступа к нежелательным ресурсам Интернет-сайтов основывается на следующем определении понятия риска доступа к нежелательному ИР в ИОС. Риском доступа к нежелательному i-му ИР, отнесенному к к-му классу ИР, будем называть величину, пропорциональную экспертной оценке ущерба, наносимого нежелательным ИР данного вида ИОС или личности пользователя и числу обращений к данному ресурсу за заданный отрезок времени:

По аналогии с классическим определением риска как произведения вероятности реализации угрозы на стоимость наносимого ущерба, данное определение трактует риск как математическое ожидание величины возможного ущерба от доступа к нежелательному ИР. При этом величина ожидаемого ущерба определяется степенью воздействия ИР на личности пользователей, которая в свою очередь прямо пропорциональна числу пользователей, испытавших это воздействие.

В процессе анализа любого веб-ресурса, с точки зрения желательности или нежелательности доступа к нему, необходимо рассматривать следующие основные компоненты каждой его страницы: контент, то есть текстовую и иную (графическую, фото, видео) информацию, размещенную на этой странице; контент, размещенный на других страницах этого же веб-сайта (получить внутренние ссылки из содержимого загруженных страниц можно по регулярным выражениям); соединения с другими сайтами (как с точки зрения возможной загрузки вирусов и троянских программ), так и с точки зрения наличия нежелательного контента. Алгоритм ограничения доступа к нежелательным ресурсам с использованием списков приведен на рис. 4.

Рисунок 4 -Алгоритм ограничения доступа к нежелательным ресурсам

Алгоритм определения нежелательных Web-страниц. Для классификации контента - текстов веб-страниц - необходимо решить следующие задачи: задание категорий классификации; извлечение из исходных текстов информации, поддающейся автоматическому анализу; создание коллекций проклассифицированных текстов; построение и обучение классификатора, работающего с полученными наборами данных.

Обучающее множество проклассифицированных текстов подвергают анализу, выделяя термы - наиболее часто употребляемые словоформы в целом и по каждой категории классификации в отдельности. Каждый исходный текст представляют в виде вектора, компонентами которого являются характеристики встречаемости данного терма в тексте. Для того чтобы избежать разреженности векторов и уменьшить их размерность, словоформы целесообразно привести к начальной форме методами морфологического анализа. После этого вектор следует нормализовать, что позволяет добиться более корректного результата классификации. Для одной веб-страницы можно сформировать два вектора: для информации, отображаемой для пользователя, и для текста, предоставляемого поисковым машинам.

Известны различные подходы к построению классификаторов веб-страниц. Наиболее часто используемыми являются : байесовский классификатор; нейронные сети; линейные классификаторы; метод опорных векторов (SVM). Все вышеназванные методы требуют обучения на обучающей коллекции и проверки на тестирующей коллекции. Для бинарной классификации можно выбрать наивное байесовское решение, предполагающее независимость друг от друга характеристик в векторном пространстве. Будем считать, что все ресурсы необходимо классифицировать как желательные и нежелательные. Тогда вся коллекция образцов текстов веб-страниц разделяется на два класса: C={C1, C2} причем априорная вероятность каждого класса P(Ci), i=1,2. При достаточно большой коллекции образцов можно считать, что P(Ci) равняется отношению количества образцов класса Ci к общему количеству образцов. Для некоторого подлежащего классификации образца D из условной вероятности P(D/Ci), согласно теореме Байеса, может быть получена величина P(Ci /D):

с учетом постоянства P(D) получаем:

Предполагая независимость друг от друга термов в векторном пространстве, можно получить следующее соотношение:

Для того чтобы более точно классифицировать тексты, характеристики которых близки (например, различать порнографию и художественную литературу, в которой описываются эротические сцены), следует ввести весовые коэффициенты:

Если kn=k; если kn меньше k, kn.=1/|k|. Здесь M - частота всех термов в базе данных образцов, L - количество всех образцов.

9. Направления совершенствования алгоритмов

В дальнейшем предполагается разработать алгоритм анализа ссылок с целью выявления внедрения вредоносного кода в код web-страницы и сравнить байесовский классификатор с методом опорных векторов.

10. Выводы

Выполнен анализ проблемы ограничения доступа к веб-ресурсам в образовательных системах. Выбраны базовые принципы фильтрации нецелевых ресурсов на proxy-серверах на основе формирования и использование актуальных списков ограничения доступа. Разработан алгоритм ограничения доступа к нежелательным ресурсам с использованием списков, позволяющий динамически формировать и обновлять списки доступа к ИР на основе анализа их контента с учетом частоты посещений и контингента пользователей. Для выявления нежелательного контента разработан алгоритм на основе наивного байесовского классификатора.

Список источников

Зима В. М. Безопасность глобальных сетевых технологий / В. Зима, А. Молдовян, Н. Молдовян. - 2-е изд. - СПб.: БХВ-Петербург, 2003. - 362 c.
Воротницкий Ю. И. Защита от доступа к нежелательным внешним информационным ресурсам в научно-образовательных компьютерных сетях / Ю. И. Воротницкий, Се Цзиньбао // Мат. XIV Межд. конф. «Комплексная защита информации». - Могилев, 2009. - С. 70-71.