Механизм метапоиска
Механизм метапоиска - это система, которая обеспечивает единый доступ к нескольким существующим поисковым системам. Когда метапоисковая система получает запрос от пользователя, она отправляет запрос в несколько существующих поисковых систем, а затем объединяет результаты, возвращаемые этими поисковыми системами, и отображает объединенные результаты пользователю.
Система метапоиска позволяет пользователю выполнять поиск в нескольких поисковых системах одновременно, отправляя только один запрос. Большим преимуществом системы метапоиска является ее способность объединять охват многих поисковых систем. Поскольку метапоисковые системы взаимодействуют с поисковыми интерфейсами поисковых систем, они могут использовать поисковые системы глубокого веб-поиска так же легко, как и поисковые системы поверхностного веб-поиска.
Таким образом, технология метапоисковых систем предоставляет эффективный механизм для охвата значительной части Глубокого Веб-поиска путем подключения ко многим поисковым системам глубокого веб-поиска.
Архитектура системы метапоиска. Простая система метапоиска состоит из пользовательского интерфейса, позволяющего пользователям отправлять запросы, компонента подключения к поисковой системе для программной отправки запросов в используемые поисковые системы и получения страниц результатов от них, компонента извлечения результатов для извлечения записей результатов поиска из возвращаемых страниц результатов и компонента объединения результатов для объединения результатов поиска. результаты.
Если метапоисковая система использует большое количество поисковых систем, то необходим компонент выбора поисковой системы. Этот компонент определяет, какие поисковые системы, скорее всего, дадут хорошие результаты по любому пользовательскому запросу, чтобы для этого запроса использовались только эти поисковые системы. Выбор поисковой системы необходим из соображений эффективности. Например, предположим, что для запроса необходимы только 20 наиболее подходящих результатов, а в системе метапоиска имеется 1000 поисковых систем.
Очевидно, что 20 наиболее подходящих результатов будут получены не более чем из 20 поисковых систем, а это означает, что по крайней мере 980 поисковых систем не подходят для этого запроса. Отправка запроса в бесполезные поисковые системы приведет к серьезной неэффективности, такой как большой сетевой трафик, вызванный передачей нежелательных результатов, и пустая трата системных ресурсов на оценку запроса.
У нас могут быть метапоисковые системы для поиска документов и метапоисковые системы для поиска по базам данных. Хотя эти два типа метапоисковых систем концептуально схожи, для их создания требуются разные методы. Они будут рассмотрены в следующих двух подразделах.
Механизм метапоиска документов. Механизм метапоиска документов использует поисковые системы для поиска документов в качестве базовых поисковых систем. В этом подразделе мы обсудим некоторые аспекты создания механизма метапоиска документов, включая выбор поисковой системы, подключение к поисковой системе, извлечение результатов и объединение.
Выбор поисковой системы. Когда метапоисковая система получает запрос от пользователя, она определяет, какие поисковые системы, вероятно, содержат полезные страницы для запроса и, следовательно, должны использоваться для обработки запроса. Перед выполнением выбора поисковой системы собирается некоторая информация, представляющая содержимое набора страниц каждой поисковой системы. Информация о страницах в поисковой системе называется представителем поисковой системы.
Данные о представителях всех поисковых систем, используемых метапоисковой системой, собираются заранее и сохраняются в метапоисковой системе. При выборе поисковой системы для данного запроса поисковые системы ранжируются на основе того, насколько хорошо их представители соответствуют запросу.
Существуют различные методы выбора поисковой системы, и в них часто используются различные типы представителей поисковой системы. Простой представитель поисковой системы может содержать только несколько выбранных ключевых слов или краткое описание. Этот тип представителя обычно создается вручную кем-то, кто знаком с содержимым поисковой системы.
Когда пользователь получает запрос, метапоисковая система может вычислить сходство между запросом и репрезентантами, а затем выбрать поисковые системы с наибольшим сходством. Хотя этот метод прост в реализации, этот тип репрезентантов предоставляет только общее описание содержимого поисковых систем. В результате точность выбора может быть низкой.
Более опытные представители собирают подробную статистическую информацию о страницах в каждой поисковой системе. Эти представители обычно собирают одну или несколько статистических данных по каждому запросу в каждой поисковой системе.
Поскольку практически невозможно найти все термины, которые встречаются на некоторых страницах поисковой системы, можно использовать приблизительный словарь терминов для поисковой системы. Такой приблизительный словарь можно получить из страниц, извлеченных из поисковой системы, используя примеры запросов
Некоторые статистические данные, которые были использованы в предлагаемых методах отбора с помощью поисковых систем, включают в себя частоту использования каждого термина в документах, его средний или максимальный вес на всех страницах, содержащих этот термин, и количество поисковых систем, в которых этот термин присутствует. Благодаря подробной статистике можно получить более точную оценку полезности каждой поисковой системы по отношению к любому запросу пользователя.
Собранная статистика может быть использована для вычисления сходства между запросом и каждой поисковой системой, для оценки количества страниц в поисковой системе, сходство которых с запросом превышает пороговое значение, и для оценки сходства наиболее похожей страницы в поисковой системе с запросом. Эти величины позволяют ранжировать поисковые системы по любому заданному запросу, и затем можно выбрать поисковые системы с самым высоким рейтингом для обработки запроса.
Также возможно генерировать представителей поисковой системы, изучая результаты поиска по предыдущим запросам. В этом случае представителем поисковой системы является просто информация, указывающая на ее прошлую эффективность в отношении различных запросов. В метапоисковой системе SavvySearch (в настоящее время www.search.com) обучение осуществляется следующим образом. Для поисковой системы сохраняется вес каждого термина, который появлялся в предыдущих запросах.
Вес термина для поисковой системы увеличивается или уменьшается в зависимости от того, возвращает ли поисковая система полезные результаты по запросу, содержащему этот термин. Со временем, если поисковая система набирает большой положительный (отрицательный) вес для какого-либо термина, считается, что поисковая система хорошо (плохо) реагировала на этот термин в прошлом. Когда метапоисковая система получает новый запрос, веса терминов запроса в представителях различных поисковых систем суммируются для ранжирования поисковых систем. Метапоисковая система ProFusion также использует подход, основанный на обучении, для создания представителей поисковой системы.
ProFusion использует обучающие запросы, чтобы выяснить, насколько хорошо каждая поисковая система реагирует на запросы в 13 различных тематических категориях. Знания, полученные о каждой поисковой системе4 из обучающих запросов, используются для выбора поисковых систем для каждого пользовательского запроса, и эти знания постоянно обновляются в зависимости от реакции пользователя на результат поиска (т.е. от того, перешел ли пользователь на определенную страницу).
Подключение к поисковой системе. Обычно поисковый интерфейс поисковой системы реализуется с помощью HTML-тега формы с текстовым полем запроса. Тег формы содержит всю информацию, необходимую для подключения к поисковой системе с помощью программы. Такая информация включает в себя название и местоположение программы (т.е. сервера поисковой системы), которая обрабатывает запросы пользователей, а также метод сетевого подключения (т.е. метод HTTP-запроса, обычно GET или POST).
Текстовое поле запроса имеет соответствующее имя и используется для заполнения запроса. Тег формы в каждом интерфейсе поисковой системы предварительно обрабатывается для извлечения информации, необходимой для подключения к программе.
После получения запроса метапоисковой системой и принятия решения об использовании конкретной поисковой системы запросу присваивается имя текстового поля запроса поисковой системы и отправляется на сервер поисковой системы с использованием метода HTTP-запроса, поддерживаемого поисковой системой. После обработки запроса поисковой системой метапоисковая система возвращает страницу результатов, содержащую результаты поиска.
Извлечение результатов поиска. Страница результатов, возвращаемая поисковой системой, представляет собой динамически генерируемую HTML-страницу. В дополнение к записям о результатах поиска по запросу, страница результатов обычно также содержит некоторую нежелательную информацию/ссылки, такие как реклама, информация о хостинге поисковой системы или рекламные ссылки. Для метапоисковой системы важно правильно извлекать записи результатов поиска на каждой странице результатов.
Типичная запись результата поиска соответствует веб-странице, найденной поисковой системой, и обычно содержит URL-адрес и название страницы, а также некоторую дополнительную информацию о странице (обычно первые несколько предложений страницы плюс дата, когда страница была создана, и т.д.; это часто называется фрагментом страницы).
Поскольку разные поисковые системы по-разному организуют свои страницы результатов, для каждой поисковой системы необходимо создать отдельную программу извлечения результатов (также называемую программой-оболочкой извлечения).
Чтобы извлечь записи результатов поиска из поисковой системы, необходимо проанализировать структуру/формат ее страниц результатов, чтобы определить регионы, содержащие записи, и разделители, которые разделяют разные записи. В результате создается оболочка для извлечения результатов любого запроса для поисковой системы. Оболочки для извлечения могут создаваться вручную, полуавтоматически или автоматически.
Объединение результатов. Объединение результатов - это задача объединения результатов, полученных от нескольких поисковых систем, в единый ранжированный список. В идеале страницы в объединенном результате должны быть ранжированы в порядке убывания глобальных оценок соответствия страниц, что может быть достигнуто путем выборки/загрузки всех возвращенных страниц с их локальных серверов и вычисления их глобальных оценок соответствия в системе метапоиска. Например, метапоисковая система Inquirus использует такой подход. Основным недостатком этого подхода является то, что поиск страниц может занять много времени.
Большинство систем метапоиска используют локальные ранги возвращаемых страниц и их фрагментов для объединения результатов, чтобы избежать выборки реальных страниц (16). Когда для объединения используются фрагменты, оценка соответствия каждого фрагмента запросу может быть вычислена на основе нескольких факторов, таких как количество уникальных терминов запроса, которые появляются во фрагменте, и близость терминов запроса во фрагменте.
Напомним, что при выборе поисковой системы для данного запроса оценивается полезность каждой поисковой системы и представляется в виде балла. Оценки поисковой системы могут быть использованы для корректировки оценок соответствия извлеченных поисковых записей, например, путем умножения оценки соответствия каждой записи на оценку поисковой системы, которая извлекла запись.
Кроме того, если один и тот же результат был получен несколькими поисковыми системами, умноженные баллы, полученные от этих поисковых систем, суммируются для получения окончательной оценки результата. При таком типе агрегирования предпочтение отдается результатам, полученным несколькими поисковыми системами. Затем результаты поиска ранжируются в порядке убывания итоговых оценок.
Дата добавления: 2024-07-23; просмотров: 87;