Рус Eng Cn Перевести страницу на:  
Менщиков А.А., Гатчин Ю.А. - Методы обнаружения автоматизированного сбора информации с веб-ресурсов

(Опубликовано в журнале «Кибернетика и программирование» №5, 2015)

27/11/2015

Введение

На сегодняшний день наблюдается тенденция переносить важные ресурсы и услуги в интернет. Это касается банковской сферы, сферы образования, государственных услуг и т. д. Критическая информация, имеющая высокую ценность, персональные данные, все это теперь содержится в сети. Такие изменения помимо удобства и эффективности работы несут и угрозы. Веб-ресурсы становятся целью разного рода атак, а содержащаяся там информация коммерческого или конфиденциального характера нуждается в дополнительной защите [1-3]. Несанкционированный сбор такой информации ведется автоматизированными средствами. Веб-роботы – это специальные программы, осуществляющие автоматическое сканирование веб-ресурсов, сбор, обработку и анализ содержащейся там информации [4]. Веб-роботы используются как для законных целей, помогая анализировать контент и собирать индексную базу для поисковых систем, так и злоумышленниками, которые могут осуществлять сбор информации с целью последующей рассылки спама, фишинга, таргетированных атак. Веб-роботы зачастую используются для сбора информации, представляющей коммерческую ценность, содержащей персональные данные и иную информацию, которая может быть использована в конкурентной борьбе или для дальнейшей реализации. Данная информация расположена на ресурсах общего доступа, рассмотрение систем ограниченного доступа к информации или содержащих стеганографические методы [5, 21, 22] выходит за рамки данной статьи. Такие роботы не соблюдают правила поведения и пожелания администраторов ресурсов [6]. В погоне за актуальностью информации они увеличивают частоту запросов и агрессивность парсинга страниц веб-ресурса, что приводит к повышению нагрузок на сервера и проблемам доступности у обычных пользователей [7].

Актуальность

Угроза несанкционированного сбора информации с веб-ресурсов в настоящее время является актуальной. C каждым годом количество трафика, классифицированного как веб-парсинг, согласно исследованиям, значительно увеличивается [1]. Более 22% всех посещений классифицируются как автоматизированные, они генерируют в среднем 27% трафика [1, 3]. Причем, рост активности веб-роботов наблюдается уже пять лет подряд. Улучшаются методы и механизмы защиты веб-роботов от обнаружения, для этого используются ботнеты и взломанные компьютеры пользователей. Также, влияние оказывает широкое распостранение легких в использовании плагинов автоматизации сбора информации для браузеров. Наиболее популярными целями являются сайты продажи билетов, электронной коммерции, каталоги объявлений в сфере путешествий и недвижимости, а также социальные сети.

Читать статью