Система поиска данных
Вступление. Всемирная паутина была впервые разработана Тимом Бернерсом-Ли и его коллегами в 1990 году. Всего за десять лет она стала крупнейшим источником информации в истории человечества. Общее количество документов и записей в базах данных, доступных через Интернет, оценивается в сотни миллиардов.
К концу 2005 года во всем мире насчитывалось уже более 1 миллиарда пользователей Интернета. Поиск информации в Интернете стал важной частью нашей повседневной жизни. Действительно, поиск является вторым по популярности видом деятельности в Интернете после электронной почты, и каждый день выполняется около 550 миллионов поисковых запросов в Интернете.
Веб состоит из поверхностной сети (Surface Web) и глубокой сети (Hidden Web). Каждая страница в Surface Web имеет логический адрес, который называется Uniform Resource Locator (URL). URL страницы позволяет получить доступ к странице напрямую. В отличие от этого, Deep Web содержит страницы, которые невозможно получить напрямую, а записи базы данных хранятся в системах баз данных. По оценкам, размер Deep Web более чем в 100 раз превышает размер Surface Web.
Инструменты, которые мы используем для поиска информации в Интернете, называются поисковыми системами. Считается, что на сегодняшний день в сети работает более 1 миллиона поисковых систем (2). Поисковые системы можно классифицировать в зависимости от типа данных, по которым выполняется поиск. Поисковые системы, выполняющие поиск в текстовых документах, называются системами поиска документов, в то время как те, которые выполняют поиск в структурированных данных, хранящихся в системах баз данных, называются системами поиска в базах данных.
Многие популярные поисковые системы, такие как Google и Yahoo, являются системами поиска документов, в то время как многие поисковые системы электронной коммерции, такие как Amazon.com, считаются системами поиска по базам данных. Поисковые системы по документам обычно имеют простой интерфейс с текстовым полем для ввода запроса, которое обычно содержит несколько ключевых слов, отражающих информационные потребности пользователя. С другой стороны, поисковые системы по базам данных обычно имеют более сложные интерфейсы, позволяющие пользователям вводить более конкретные и сложные запросы.
Большинство поисковых систем охватывают лишь небольшую часть сети. Чтобы увеличить охват Сети одной поисковой системой, можно объединить несколько поисковых систем. Поисковая система, которая использует другие поисковые системы для выполнения поиска и объединяет их результаты поиска, называется метапоисковой системой. Mamma.com и dogpile.com - это метапоисковые системы, объединяющие несколько систем поиска документов, тогда как addall.com - это метапоисковая система, объединяющая несколько систем поиска книг по базам данных. С точки зрения пользователя, разница между использованием поисковой системы и метапоисковой системы невелика.
В этой статье представлен обзор некоторых основных методов, которые используются для создания поисковых систем и систем метапоиска. В следующем разделе мы опишем основные методы создания системы поиска документов. Затем мы в общих чертах рассмотрим идею создания системы поиска по базе данных. Наконец, мы познакомим вас с ключевыми компонентами систем метапоиска, включая как системы метапоиска по документам, так и системы метапоиска по базам данных, а также с методами их создания.
Дата добавления: 2024-07-23; просмотров: 90;