Проблемы, с которыми сталкиваются системы поиска документов

Несмотря на то, что многие пользователи широко используют такие поисковые системы, как Google, Yahoo и MSN, для поиска нужной информации в Интернете, все еще существует ряд проблем, связанных с повышением их качества. Ниже мы кратко расскажем о некоторых из этих проблем.

Свежесть. В настоящее время большинство поисковых систем используют поисковые роботы для сбора веб-страниц с многочисленных веб-сайтов и создания индексной базы данных на основе полученных веб-страниц. Чтобы обновить базу данных индекса и предоставить обновленные страницы, они периодически (например, раз в месяц) извлекают веб-страницы из Интернета и перестраивают базу данных индекса.

В результате страницы, которые были добавлены/ удалены/изменены с момента последнего обхода, не отражаются в текущей базе данных индекса, что делает некоторые страницы недоступными для поисковой системы, некоторые найденные страницы недоступными в Интернете (например, мертвые ссылки), а также ранжирование некоторых страниц на основе устаревшего содержимого. Поддержание актуальности базы данных индексов для крупных поисковых систем является сложной задачей.

Покрытие. Было подсчитано, что ни одна поисковая система не индексирует более трети “общедоступного веб-сайта’. Одна из важных причин заключается в том, что поисковые роботы могут сканировать только те веб-страницы, которые связаны с исходными URL-адресами. Теория ‘галстука-бабочки’ о структуре веб-страниц (10) указывает на то, что только 30% веб-страниц тесно связаны между собой. Эта теория еще раз доказывает ограниченность возможностей веб-сканеров. Как получить больше веб-страниц, в том числе в Deep Web, - это проблема, требующая дальнейшего изучения.

Качество результатов. Качество результатов определяется тем, насколько хорошо возвращаемые страницы соответствуют заданному запросу по ключевым словам. Пользователь хочет, чтобы при заданном запросе по ключевым словам были возвращены наиболее релевантные страницы. Предположим, пользователь вводит в качестве запроса слово ‘apple’, и обычная поисковая система вернет все страницы, содержащие слово ‘apple’, независимо от того, связано ли оно с рецептом яблочного пирога или с компьютером Apple. Как сходство ключевых слов, так и отсутствие контекста ухудшают качество возвращаемых страниц.

Одним из многообещающих методов повышения качества результатов является выполнение персонализированного поиска, при котором для каждого пользователя создается профиль, содержащий личную информацию пользователя, такую как специальность и интересы, а также некоторую информацию, полученную путем отслеживания поведения пользователя при просмотре веб-страниц, например, какие страницы посещает пользователь. количество кликов и время, которое пользователь потратил на их чтение; запрос пользователя может быть расширен на основе его профиля, а страницы извлекаются и ранжируются в зависимости от того, насколько хорошо они соответствуют расширенному запросу.

Запрос на естественном языке. В настоящее время большинство поисковых систем принимают запросы только по ключевым словам. Однако ключевые слова не могут точно выразить информационные потребности пользователей. Запросы на естественном языке, такие как ‘Кто президент Соединенных Штатов?’, часто требуют четких ответов, которые не могут быть предоставлены большинством современных поисковых систем. Обработка запросов на естественном языке требует не только понимания семантики пользовательского запроса, но и другого механизма синтаксического анализа и индексации веб-страниц.

Поисковая система ask.com может отвечать на некоторые простые запросы на естественном языке, такие как ‘Кто президент Соединенных Штатов?’ и ‘Где находится Чикаго?’, используя свои возможности веб-поиска. Однако ask.com пока не имеет возможности отвечать на общие запросы на естественном языке. Предстоит еще пройти долгий путь, прежде чем можно будет получить точные ответы на общие запросы на естественном языке.

Запросы к нетекстовым материалам. Помимо текстовых веб-страниц, в сети также имеется большое количество изображений, видео и аудиоданных. Вопрос о том, как эффективно индексировать и извлекать такие данные, также является открытой проблемой для исследований в системах поиска данных. Хотя некоторые поисковые системы, такие как Google и Yahoo, могут выполнять поиск по изображениям, их технологии по-прежнему в основном основаны на подборе ключевых слов.