(из
кандидатской диссертации Зуевой В.Н.)
Модуль
добычи данных в Интернет
Модуль добычи данных в Internet, назовем его WebMiner, с свою очередь делится на три
подсистемы:
·
составление
дайджеста по заданным темам с заданных сайтов;
·
поиск
интересующей информации через поисковые системы;
·
загрузка
данных с сайта Министерства Сельского Хозяйства РФ;
Рассмотрим перечисленные
подсистемы.
Целевая функция: «Страница подготовленного дайджеста по определенной тематике
(эти и только эти новые данные должны быть нужны пользователю по указанной
тематике)»
Основные положения:
·
страница
должна быть доступна к просмотру пользователем в любом браузере;
·
приложение
должно запускаться параллельно браузеру;
·
приложение
должно отслеживать страницы на web, посещаемые пользователем, сохранять статистику и на
базе этой статистики создавать дайджест;
·
в
дайджест должны попадать только новые материалы, появившиеся на самых часто посещаемых
сайтах;
·
дайджесты
должны строиться в разрезе тематики – свой дайджест на каждую тематику;
·
архитектура
– HTTP Proxy, работающий на клиенте4
·
система
интеллектуального поиска информации в сети Internet должна быть адаптивна под
конкретного пользователя.
В БД WebMiner
используются:
·
база
знаний для данного пользователя (БЗП);
·
база
сайтов пользователя (БС).
Формат БЗП:
·
слово;
·
ранг
слова (частота встречаемости);
·
номер
слова;
·
ссылки
на N номеров слов,
наиболее встречающимися в сочетании с данным словом (с частотой смежности)4
·
страна
пользователя.
Формат БС:
·
название
сайта;
·
общее
количество посещений за последнюю неделю;
·
общее
количество посещений за все время;
·
количество
посещений за последнюю неделю инициированных WEBMiner;
·
количество
посещений за все время инициированных WEBMiner;
·
дата
первого посещения;
·
дата
последнего посещения;
·
K наиболее посещаемых страниц на данном сайте (с датами
последних посещений) – общее;
·
K наиболее посещаемых страниц на данном сайте (с датами
последних посещений) – инициированное WEBMiner;
Формулы расчета:
Примечание 1: слова размерностью меньше 2 символов
учитываются, только в том случае, если они написаны заглавными буквами. Слова
размерностью больше 2 символов учитываются, если они не попадают в список
запрещенных слов. Например, для русскоязычных текстов, список запрещенных слов:
1.
для
2.
потому
3.
что
4.
и т. д.
Примечание 2: также необходимо добавить в этот список все
зарезервированные слова языков программирования HTML, PHP и т. д.
Частота встречаемости:
, (3.1)
Где - частота встречаемости данного слова;
- количество
повторений данного слова в тексте;
- количество слов в тексте размерностью больше 2 символов и
без запрещенных слов.
Частота
взаимовстречаемости слова с данным словом:
, (3.2)
где
-частота взаимовстречаемости,
- количество
повторений взаимовстречаемого слова с заданным в тексте, с длиной
позиционирования не больше двух слов. Причем если слова разделяет точка, то
взаимостречаемое слово не учитывается.
- коэффициент удаленности
взаимовстречаемого слова от заданного (количество слов от). Кратен, по
умолчанию 0.5.
Для примера текст: «Одной из причин болезней сердца является
курение».
Заданное слово: сердце, тогда в попадают слова из
текста курение и болезни. При этом должно учитываться, что глаголы и предлоги не
попадают в анализ.
Примечание: очевидно, что
частота взаимовстречаемости в одном тексте взаимовстречаемого слова и заданного
слова равна обратной комбинации поиска взаимовстречаемости этих слов. Например .
В случае, если
пользователь делает запрос на поисковой системе, то слова в тексте запроса
добавляются с частотами равными единице. При этом, страница выданная поисковой
машиной не учитывается.
При первом запуске инициируются
БЗП и БС.
При последующих запусках
алгоритм следующий:
1.
В
случае захода пользователя на любой сайт происходит сканирование и вычисление
частот встречаемости и частот взаимовстречаемости слов. Обновление итоговой
частоты слова происходит по формуле:
, (3.3)
где
- количество текстов, где встречалось заданное слово
Итоговая частота
взаимовстречаемости считается аналогично. Второй вариант - можно еще
использовать коэффициент старения посещения страницы.
2.
Происходит
обновление БС.
3.
С
заданной периодичностью WEBMiner
посещает наиболее встречаемые сайты и ищет в заголовках (или, в зависимости
от настроек по всей странице) статей слова с наибольшим рангом. В случае
нахождения заголовка (или непосредственно на странице) ранжируемого слова, пользователю
посылается сообщение о новостях и в случае если пользователь зайдет по ссылке WebMiner на предлагаемую страницу обновляется
количество наиболее посещаемых страниц (а также страниц инициированных WEBMiner).
Рисунок 17.
Алгоритм работы WebMiner
В системе можно
использовать ранги по тематикам: юмор, спорт, новости, бизнес и т. д. Также можно
периодически делать запрос на поисковые системы со списком наиболее встречаемых
слов. Можно использовать перекрестные ссылки на другие страницы с данного сайта.
Все страницы просмотренные
пользователем за период R (R ~ неделя) должны храниться в папке программы (без картинок) с названием
«URL страницы» без
http://. В данном
случае имеет смысл вести простую базу (файл DBF) с полями:
o
имя
страницы
o
ссылка
на название сохраненного файла этой страницы (равна «имя страницы» без «http://»)
o
количество
слов, размером больше 2 двух символов
В случае захода на любую
страницу идет поиск по данной базе – если есть эта же страница, то идет сверка
по количеству слов размером больше двух символов.
Примечание 3: страницы можно не сохранять, обойтись только
контрольной суммой.
Суть: интерес
пользователя может быть долговременным и кратковременным.
Долговременным интересом
пользователя будет называть, такой интерес, который не проходит в течении
периода N (N первоначально равен неделе). Как пример можно привести, допустим,
футбол, анекдоты и т. п.
Краткосрочным интересом
пользователя будем называть, такой интерес, который продолжается не более
периода K (К первоначально равен неделе). Как пример, можно привести, допустим
политический вопрос, например «революция в Киргизии».
При этом частоты по
формулам (3) и (4) должны считаться как на неделю, так и за весь период.
Вариант 1. Вариант сканирования только заголовков (ищем в тексте только
то, что заключено в кавычках после href=:
Пример
<TITLE>Главные новости дня: политика, экономика, происшествия</TITLE>
<link rel="stylesheet" href="http://top.rbc.ru/topnews.css" type="text/css">
То есть, в данном случае есть ссылка «http://top.rbc.ru/topnews.css».
Слова для БЗС берутся между <TITLE> и </TITLE>
Вариант 2. Режим слежения за пользователем
1. Отслеживается, что пользователь зашел на сайт xxx
2. Отслеживается ссылка, на которую перешел пользователь
3. Обновляются БЗП и БС. Причем в БС добавляются как корень страницы, так и конечная страница. Обновляется БЗС по словам.
4. и так далее по всем заходам пользователя.
Вариант 3. Режим автономной работы.
1. По таймеру делается обход наиболее посещаемых страниц пользователя (TOP10), то есть скрыто загружаются эти страницы.
2. Выбираются наиболее встречаемые слова пользователя из БЗП
3. На каждой загруженной странице ищутся в заголовках и кратких аннотациях (то есть между двумя link) наиболее встречаемые слова.
4. В случае нахождения нужного слова (слов), эта ссылка попадает в дайджест.
5. После сканирования всех страниц пользователю выдается дайджест.
6. В случае перехода по ссылке дайджеста, включается «режим слежения за пользователем»
В качестве поисковой системы
используется связка двух лидеров в данном сегменте: Google (мировой лидер) и Yandex (российский лидер). Следует также
отметить, что Google индексирует и российские сайты. Запрос обрабатывается скриптом
написанном на ЯП Perl.