Статья 'Разработка системы автоматического категорирования тематики страниц веб-ресурса ' - журнал 'Программные системы и вычислительные методы' - NotaBene.ru
по
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > Требования к статьям > Политика издания > Редакция > Порядок рецензирования статей > Редакционный совет > Ретракция статей > Этические принципы > О журнале > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала
ГЛАВНАЯ > Вернуться к содержанию
Программные системы и вычислительные методы
Правильная ссылка на статью:

Разработка системы автоматического категорирования тематики страниц веб-ресурса

Менщиков Александр Алексеевич

аспирант, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

197101, Россия, г. Санкт-Петербург, Кронверкский проспект, 49

Menshchikov Alexander Alexeevich

graduate student, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, g. Saint Petersburg, Kronverkskii Prospekt, 49

menshikov@corp.ifmo.ru
Другие публикации этого автора
 

 
Комарова Антонина Владиславовна

аспирант, кафедра проектирования и безопасности компьютерных систем, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

196244, Россия, г. Санкт-Петербург, ул. Типанова, 29

Komarova Antonina Vladislavovna

graduate student, Department of design and security of computer systems, the St. Petersburg National Research University of Information Technologies, Mechanics and Optics

197101, Russia, Saint Petersburg, Kronverkskii pr., 49

piter-ton@mail.ru
Гатчин Юрий Арменакович

доктор технических наук

профессор, Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики

197101, Россия, г. Санкт-Петербург, Кронверкский проспект, 49

Gatchin Yury

Doctor of Technical Science

Professor, Saint Petersburg State University of Information Technologies

197101, Russia, Sankt-Peterburg, Kronverkskii Prospekt, 49

gatchin@mail.ifmo.ru
Другие публикации этого автора
 

 
Полев Александр Васильевич

.

660041, Россия, г. Красноярск, ул. Курчатова, 9В

Polev Aleksandr Vasil'evich

-

660041, Russia, g. Krasnoyarsk, ul. Kurchatova, 9V

apolevki09@gmail.com

DOI:

10.7256/2454-0714.2016.4.21438

Дата направления статьи в редакцию:

15-12-2016


Дата публикации:

15-01-2017


Аннотация: В данной статье рассматриваются вопросы автоматической обработки содержимого веб-ресурсов. Поскольку скорость устаревания передаваемой во всемирной сети информации очень велика, актуальной темой становится своевременное извлечение необходимых данных из сети интернет. Объектом исследования являются веб-ресурсы, содержащие в себе неадаптированный к автоматизированной обработке текст. Предметом исследования является набор программных средств и методов. Особое внимание уделяется определению категорий объявлений, расположенных на специализированных сайтах. Также рассматриваются прикладные аспекты разработки универсальной архитектуры систем сбора информации. В ходе данного исследования использовались следующие методы: аналитический обзор основных принципов разработки систем автоматизированного сбора информации и анализа естественных языков. Для получения практико-ориентированного результата использовались методы синтеза и анализа. Особым вкладом авторов в исследование темы является разоработка автоматизированной системы сбора, обработки и классификации информации, содержащейся на веб-ресурсе. Новизна исследования заключается в использовании нового подхода к решению данной проблемы на основе учета семантики и структуры характерной для конкретных сайтов. Основными выводами проведенного исследования являются применимость и эффективность используемого метода классификации для решения данной задачи.


Ключевые слова:

парсинг, анализ текста, категоризация веб-сайтов, система классификации, сбор информации, веб-роботы, машинное обучение, обработка информации, краулинг, большие данные

УДК:

004.4+004.912+004.056

Abstract: This article reviews the problems of automatic processing of web content. Since the speed of obsolescence of information in the global network is very high, the problem of prompt extraction of the necessary data from the Internet becomes more urgent. The research focuses on the web resources that contain text, unadapted to the automated processing. The subject of the research is a set of software and methods. A particular attention is paid to the categorization of ads placed on specialized websites. The authors also review practical aspects of the development of a universal architecture of information-gathering systems. The following methods were used during this study: analytical review of the main principles of development of systems of automated information gathering and analysis of natural languages. For obtaining practice-oriented methods of synthesis and analysis results were used. A special contribution of the authors of the study is in developing an automated system for collecting, processing and classification of the information contained on the web-site. The novelty of the research is to use a new approach to solve this problem by taking into account the semantics and structure characteristic for specific sites. The main conclusions of the study are the applicability and effectiveness of the classification method for solving this problem.


Keywords:

parsing, text analisis, web-sites categorization, classification system, information collection, web robots, machine learning, data processing, crawling, big data

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
Ссылка на эту статью

Просто выделите и скопируйте ссылку на эту статью в буфер обмена. Вы можете также попробовать найти похожие статьи


Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.