Статья 'Методы обнаружения автоматизированного сбора информации с веб-ресурсов' - журнал 'Кибернетика и программирование' - NotaBene.ru
по
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакция и редакционный совет > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию
Кибернетика и программирование
Правильная ссылка на статью:

Методы обнаружения автоматизированного сбора информации с веб-ресурсов

Менщиков Александр Алексеевич

аспирант, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

197101, Россия, г. Санкт-Петербург, Кронверкский проспект, 49

Menshchikov Alexander Alexeevich

graduate student, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, g. Saint Petersburg, Kronverkskii Prospekt, 49

menshikov@corp.ifmo.ru
Другие публикации этого автора
 

 
Гатчин Юрий Арменакович

доктор технических наук

профессор, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

197101, Россия, г. Санкт-Петербург, Кронверкский проспект, 49

Gatchin Yury

Doctor of Technical Science

Professor, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, Kronverkskii Prospekt, 49

gatchin@mail.ifmo.ru
Другие публикации этого автора
 

 

DOI:

10.7256/2306-4196.2015.5.16589

Дата направления статьи в редакцию:

07-10-2015


Дата публикации:

27-11-2015


Аннотация: В данной статье рассматриваются методы обнаружения автоматизированного сбора информации с веб-ресурсов. Приводится классификация данных методов, учитывающая современные подходы. Производится анализ существующих методов обнаружения и противодействия веб-роботам, возможностей их комбинирования и ограничения использования. На сегодняшний день не существует открытой системы обнаружения веб-роботов, пригодной для использования в реальных условиях. Поэтому разработка комплексной системы, включающей в себя различные методы, методики и подходы, является актуальной задачей. Для решения данной задачи был разработан программный продукт - прототип системы обнаружения и проведено его тестирование на реальных данных. Теоретическая значимость данного исследования состоит в развитии актуального направления в отечественном сегменте, разработке системы обнаружения веб-роботов на основе новейших методов и усовершенствование лучших мировых практик. Прикладная значимость заключается в создании базы для разработки рабочего инструмента, который является актуальным продуктом и обладает спросом и перспективой дальнейшего использования.


Ключевые слова:

веб-роботы, сбор информации, парсинг, обнаружение веб-роботов, безопасность веб, информационная безопасность, защита информации, обнаружение вторжений, противодействие вторжениям, анализ веб-логов

УДК:

004.056

Abstract: The article deals with the problem of automated data collection from web-resources. The authors present a classification of detection methods taking into account modern approaches. The article shows an analysis of existing methods for detection and countering web robots. The authors study the possibilities and limitations of combining methods. To date, there is no open system of web robots detection that would be suitable for use in real conditions. Therefore the development of an integrated system, that would include a variety of methods, techniques and approaches, is an urgent task. To solve this problem the authors developed a software product – prototype of such detection system. The system was tested on real data. The theoretical significance of this study is in the development of the current trend in the domestic segment, making a system of web robots detection based on the latest methods and the improvement of global best practices. Applied significance is in creation of a database for the development of demanded and promising software.


Keywords:

web-robots, information gathering, parsing, web robot detection, web security, information security, information protection, intrusion detection, intrusion prevention, weblogs analysis

Введение

На сегодняшний день наблюдается тенденция переносить важные ресурсы и услуги в интернет. Это касается банковской сферы, сферы образования, государственных услуг и т. д. Критическая информация, имеющая высокую ценность, персональные данные, все это теперь содержится в сети. Такие изменения помимо удобства и эффективности работы несут и угрозы. Веб-ресурсы становятся целью разного рода атак, а содержащаяся там информация коммерческого или конфиденциального характера нуждается в дополнительной защите [1-3]. Несанкционированный сбор такой информации ведется автоматизированными средствами. Веб-роботы – это специальные программы, осуществляющие автоматическое сканирование веб-ресурсов, сбор, обработку и анализ содержащейся там информации [4]. Веб-роботы используются как для законных целей, помогая анализировать контент и собирать индексную базу для поисковых систем, так и злоумышленниками, которые могут осуществлять сбор информации с целью последующей рассылки спама, фишинга, таргетированных атак. Веб-роботы зачастую используются для сбора информации, представляющей коммерческую ценность, содержащей персональные данные и иную информацию, которая может быть использована в конкурентной борьбе или для дальнейшей реализации. Данная информация расположена на ресурсах общего доступа, рассмотрение систем ограниченного доступа к информации или содержащих стеганографические методы [5, 21, 22] выходит за рамки данной статьи. Такие роботы не соблюдают правила поведения и пожелания администраторов ресурсов [6]. В погоне за актуальностью информации они увеличивают частоту запросов и агрессивность парсинга страниц веб-ресурса, что приводит к повышению нагрузок на сервера и проблемам доступности у обычных пользователей [7].

Актуальность

Угроза несанкционированного сбора информации с веб-ресурсов в настоящее время является актуальной. C каждым годом количество трафика, классифицированного как веб-парсинг, согласно исследованиям, значительно увеличивается [1]. Более 22% всех посещений классифицируются как автоматизированные, они генерируют в среднем 27% трафика [1, 3]. Причем, рост активности веб-роботов наблюдается уже пять лет подряд. Улучшаются методы и механизмы защиты веб-роботов от обнаружения, для этого используются ботнеты и взломанные компьютеры пользователей. Также, влияние оказывает широкое распостранение легких в использовании плагинов автоматизации сбора информации для браузеров. Наиболее популярными целями являются сайты продажи билетов, электронной коммерции, каталоги объявлений в сфере путешествий и недвижимости, а также социальные сети.

Обзор существующих решений

За последние несколько лет данная тематика активно разрабатывалась различными научными коллективами. Большинство исследователей изучают особенности поведения известных веб-роботов и приводят схемы обнаружения на основе анализа логов веб-серверов и отличия шаблонов поведения роботов от пользовательских [8]. Данная тематика включает в себя широкую совокупность различных вопросов, связанных с обнаружением и противодействием веб-парсерам. Рассматриваются вопросы создания классификаций веб-роботов [10-12], оптимизации их математических моделей [23], получения статистических данных поведения роботов , [4, 13, 14] и обычных пользователей [15] в зависимости от целей и задач, а также тематики веб-ресурса, который они посещают. Разрабатываются наборы метрик и шаблонов [16-18], которые позволяют выявлять роботов на основе анализа логов веб-сервера [19], а также трафика, проходящего через целевой узел [20]. Решаются вопросы классификации методов противодействия веб-парсингу [4, 14]. Также с тематикой связаны вопросы разработки самих веб-роботов [20], их оптимизации, увеличения эффективности сбора информации с целевого ресурса [14].

Классификация веб-роботов

Используемые злоумышленниками средства можно классифицировать по уровню сложности реализации [1]:

1. Любительский.

Средства автоматизации не обладают достаточными механизмами противодействия обнаружению. Используется ограниченное количество IP адресов, не происходит распределения ресурсов, а сбор информации, как правило, осуществляется прямым перебором страниц.

2. Профессиональный.

Средства автоматизации содержат механизмы противодействия обнаружению. Они периодически меняют IP адреса, модели поведения и имитируют действия пользователей. Данный тип роботов является наиболее распостраненным (75%) [1].

3. Передовой.

Данные средства автоматизации содержат самые передовые методы противодействия обнаружению. Они настраиваются под каждый веб-ресурс целевым образом и используют практически неограниченные ресурсы. Поведение таких роботов неотличимо от обычных пользователей.

Выбор того или иного метода обуславливается соотношением ценности информации, стоимости использования средств автоматизированного сбора данных, а также стойкостью механизмов защиты веб-ресурса к парсингу.

Классификация методов обнаружения

Методы обнаружения веб-парсеров можно разделить на четыре основных категории согласно используемым подходам:

1. Синтаксический анализ логов

Данный метод представляет из себя простейшую обработку логов веб-сервера. Она включает в себя такие метрики как: выявление нестандартных HTTP заголовков (например User-Agent: Googlebot) или фильтрацию по IP адресам, которые принадлежат другим странам или определенным организациям. Главным преимуществом данного метода является простота реализации и скорость обработки данных. Недостаток – выявление только известных роботов. Данный метод применим только для обнаружения любительских парсеров.

2. Сигнатурный анализ трафика

Данный метод основывается на поиске определенных характеристик присущих роботизированным системам в отличие от пользователя-человека. Например, использование массового перебора страниц однотипной вложенности, слишком высокая скорость запросов, загрузка только html страницы без подгрузки скриптов и CSS файлов. Данный метод использует отклонение в значениях метрик, основываясь на типовом поведении пользователей, в отличии от предыдущего метода, который ищет конкретные шаблоны в логах. Преимуществом такого метода является большее покрытие, минусом – необходимость настройки чувствительности по каждой метрике.

3. Анализ трафика на основе машинного обучения.

Данный метод основывается на статистическом анализе трафика с целью обнаружения парсеров. Обычно используются метрики подобные тем, которые характерны для сигнатурного анализа. Преимуществом данного метода является обнаружение даже ранее неизвестных парсеров, минусом – необходимость обучения данной системы для достижения требуемой точности обнаружения и исключения ложных срабатываний, что может быть весьма затруднительно в ручном режиме. Существуют также более продвинутые вариации поведенческого анализа, базирующиеся на анализе дерева путей по сайту, связей сессий посещения и некоторых других.

4. Ловушки

К данным методам относятся чисто технические способы отличить пользователя-человека от робота. Такие как использование тестов Тьюринга, специальных обфусцированных JavaScript функций, невидимых ссылок, являющихся детекторами роботов, Flash аплетов и некоторых других [11].

Методы противодействия средствам автоматизированного сбора информации на веб-ресурсах также можно подразделить на активные и отложенные. К активным относятся различные ловушки и усеченные варианты анализаторов логов. Данные методы выполняются быстро и могут использоваться для моментального блокирования роботизированного трафика. Более сложные методы обычно выполняются в офлайн режиме, анализируя логи постфактум и вырабатывая на их основе правила, по которым впоследствии можно будет блокировать роботов (например, выделяя их IP адреса).

Результаты

Предлагаемая система обнаружения и противодействия веб-парсерам основана на синтезе различных методов. В активном режиме работают правила и фильтры на базе синтаксического анализа логов и сигнатурного анализа трафика. Данные правила формируются на основе результатов отложенного анализа трафика с использованием машинного обучения и анализа деревьев путей по сайту, однако, стоит отметить, что для этого необходимы использовать тренировочный набор из трафика реального веб-ресурса. На основе анализа методов был сформирован следующий набор метрик для сигнатурного анализа: Определенные версии браузеров, IP адреса, нестандартные рефереры, частота запросов, соотношение типов запрашиваемых данных, число ошибок.

Прототип системы тестировался на пробном наборе логов веб-сервера, содержащих 200000 записей запросов, в наборе присутствовали 39635 источников трафика.

В наборах были зафиксированы 5347 различных версий веб-браузеров. Для каждой версии были подсчитаны ее частота встречаемости в логах и среди IP адресов. По данной метрике 385 веб-браузеров были помечены как «подозрительные». Например, «AOLserver-Tcl/3.3.1+ad13», который встречается в логах 1862 раз с одного IP адреса или «PHP/4.2.1», который означает, что запрос пришел от программы, написанной на языке PHP, а не с веб-браузера.

Была сформирована таблица частот запросов от разных IP адресов. Она позволила пометить 20 IP адресов как роботов, у которых частоты запросов резко отличались от средних.

Для каждого IP адреса была сгенерирована таблица частот использования разных форматов файлов, что позволило отделить 10 IP адресов как роботизированные т.к. они загружали только сами страницы, игнорируя мультимедиа контент.

Была сформирована таблица всех рефереров, но пока она не позволила сделать никаких фактических заключений о принадлежности трафика к автоматизированному, кроме фильтрации одного IP адреса с реферером на сайт веб-краулинга.

Была сформирована таблица частот ошибок для каждого источника, что позволило пометить еще 5 адресов как веб-парсеры т.к. они запрашивали страницы, ссылок на которые не существует т. е. осуществляли перебор.

Была построена таблица частот запросов для каждого источника, запросы были разделены на сеансы, и для каждого сеанса посчитано среднеквадратическое отклонение периодов между посещениями. Затем были выделены резко отклоняющиеся значения. Это позволило выделить 41 подозрительный источник, которые включают в себя большую часть, обнаруженных предыдущими методами.

Выводы

В результате можно сделать вывод, что данные метрики способны выделить автоматизированный трафик из логов веб-сервера. Было найдено несколько десятков источников веб-парсеров, которые, впрочем, принадлежали в основном SEO-системам и поисковикам. На данный момент разработана классификация и проведена систематизация основных методов обнаружения веб-парсеров. Создан прототип архитектуры системы автоматизированного обнаружения и противодействия несанкционированному сбору информации с веб-ресурса с использованием выбранных метрик анализа поведения веб-роботов на основе синтеза изучаемых методов. Прототип протестирован на тестовом наборе логов веб-серверов и показал приемлимые результаты обнаружения веб-парсеров, что позволяет использовать его в дальнейшем для формирования тренировочных наборов с целью обучения сканеров и формирования статистики. В дальнейшем планируется создание полноценной системы обнаружения веб-роботов с использованием машинного обучения. Остро стоит проблема создания репрезентативных тренировочных наборов, созданию которых поспособствовала данная работа.

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
Ссылка на эту статью

Просто выделите и скопируйте ссылку на эту статью в буфер обмена. Вы можете также попробовать найти похожие статьи


Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.