Механизм метапоиска в базе данных

Механизм метапоиска в базе данных обеспечивает единый доступ к нескольким поисковым системам в базах данных. Обычно несколько поисковых систем в одной и той же прикладной области (например, авто, книги, недвижимость, авиабилеты) объединяются для создания механизма метапоиска в базе данных.

Такая система метапоиска на нескольких сайтах электронной коммерции позволяет пользователям делать сравнительные покупки на этих сайтах. Например, система метапоиска поверх всех систем поиска книг позволяет пользователям находить нужные книги по самой низкой цене у всех книготорговцев.

Механизм метапоиска в базе данных схож по архитектуре с механизмом метапоиска в документах. Такие компоненты, как подключение к поисковой системе, извлечение результатов и объединение результатов, являются общими для обоих типов систем метапоиска, но соответствующие компоненты для систем метапоиска в базах данных должны работать с более структурированными данными.

Например, при извлечении результатов необходимо извлекать не только возвращаемые поисковые записи (например, книги), но и семантические единицы данных более низкого уровня в каждой записи, такие как названия и цены книг. Одним из новых компонентов, необходимых для механизма метапоиска в базе данных, является компонент интеграции интерфейса поиска.

Этот компонент объединяет поисковые интерфейсы нескольких поисковых систем баз данных в одном домене в единый интерфейс, который затем используется пользователями для задания запросов к метапоисковой системе.

Этот компонент не нужен для систем метапоиска документов, поскольку системы поиска документов обычно имеют очень простые интерфейсы поиска (просто текстовое поле). В следующих подразделах мы представим некоторые подробности о компоненте интеграции интерфейса поиска и компоненте извлечения результатов. В последнем случае мы фокусируемся на извлечении семантических единиц данных более низкого уровня из записей.

Интеграция поискового интерфейса. Чтобы интегрировать поисковые интерфейсы поисковых систем баз данных, первым шагом является извлечение полей поиска в поисковых интерфейсах из веб-страниц HTML этих интерфейсов. Типичный поисковый интерфейс поисковой системы баз данных содержит несколько полей поиска.

Пример такого интерфейса показан на рисунке. 2. Каждое поле поиска реализовано с помощью текста (т.е. метки поля) и одного или нескольких элементов управления HTML-формой, таких как текстовое поле, список выбора, переключатель и флажок.

В тексте указывается семантическое значение соответствующего поля поиска. Интерфейс поиска можно рассматривать как частичную схему базовой базы данных, а каждое поле поиска можно рассматривать как атрибут схемы. Поисковые интерфейсы могут быть извлечены вручную, но в последнее время предпринимаются попытки разработать методы для автоматизации извлечения. Основная проблема автоматического извлечения поисковых интерфейсов заключается в том, чтобы сгруппировать элементы управления формой и метки полей в логические атрибуты.

После извлечения всех рассматриваемых поисковых интерфейсов они интегрируются в единый поисковый интерфейс, который служит в качестве интерфейса механизма метапоиска в базе данных. Интеграция поискового интерфейса состоит в основном из двух этапов. На первом этапе определяются атрибуты, которые имеют схожую семантику в разных поисковых интерфейсах. На втором этапе атрибуты со схожей семантикой сопоставляются с одним атрибутом в унифицированном интерфейсе.

В общем, опытному пользователю не составит труда определить совпадающие атрибуты в разных поисковых интерфейсах, если количество рассматриваемых поисковых интерфейсов невелико. Для приложений, которым требуется интегрировать большое количество поисковых интерфейсов или выполнить интеграцию для многих доменов, необходимы средства автоматической интеграции.

WISE-Integrator - это инструмент, специально разработанный для автоматизации интеграции поисковых интерфейсов. Он может идентифицировать совпадающие атрибуты в разных интерфейсах и автоматически создавать унифицированный интерфейс.

Извлечение результатов и аннотация. Для системы поиска документов запись о результатах поиска соответствует извлеченной веб-странице. Однако для системы поиска в базе данных запись о результатах поиска соответствует структурированному объекту в базе данных. Проблема извлечения записей о результатах поиска со страниц результатов поиска обоих типов поисковых систем аналогична (см. раздел "Извлечение результатов поиска").

Однако запись о результатах поиска объекта базы данных более структурирована, чем запись о веб-странице, и обычно состоит из нескольких семантических блоков данных более низкого уровня, которые необходимо извлечь и снабдить соответствующими метками для облегчения дальнейших манипуляций с данными, таких как объединение результатов.

Wrapper induction in - это полуавтоматический метод извлечения нужной информации с веб-страниц. Для этого пользователям необходимо указать, какую информацию они хотят извлечь, а затем система wrapper induction вводит правила для создания оболочки для извлечения соответствующих данных. Для создания такой оболочки требуется много человеческого труда. Недавно были проведены исследования по автоматическому созданию оболочки для извлечения структурированных данных.

Для автоматического аннотирования извлеченных экземпляров данных в настоящее время существует три основных подхода: основанный на онтологии, основанный на схеме интерфейса поиска и основанный на физическом расположении. При подходе, основанном на онтологиях, обычно предварительно определяется онтология, специфичная для конкретной задачи (т.е. экземпляр концептуальной модели), которая описывает интересующие данные, включая взаимосвязи, лексический вид и ключевые слова контекста. Схема базы данных и средства распознавания констант и ключевых слов могут быть созданы путем синтаксического анализа онтологии.

Затем блоки данных могут быть распознаны и структурированы с помощью средств распознавания и схемы базы данных. Подход, основанный на схеме интерфейса поиска, основан на наблюдении, что сложные интерфейсы веб-поиска поисковых систем баз данных обычно частично отражают схему данных в базовых базах данных. Таким образом, единицы данных в возвращаемой записи результата могут быть значениями поля поиска в интерфейсах поиска.

Метки полей поиска, таким образом, присваиваются соответствующим единицам данных в качестве значимых меток. Подход, основанный на физическом расположении, предполагает, что единицы данных обычно встречаются вместе со своими метками классов; таким образом, он аннотирует блоки данных таким образом, что ближайшая метка к единицам данных рассматривается как метка класса.

Заголовки визуального макета таблицы также являются еще одним ключом к аннотированию соответствующего столбца данных. Поскольку ни один из трех подходов не является идеальным, их комбинация будет очень перспективным подходом к автоматическому аннотированию.