Поиск с учетом расстояний между словами


Для начала введем несколько терминов, взятых из глоссария.

Расстояние между словами

Расстояние между словами a и b - это разница между номерами слов b и a. Таким образом, расстояние между соседними словами равно 1 (а не 0), а расстояние между соседними словами, стоящими "не в том порядке", равно -1.

Стоп-слова

В любом языке есть слова, которые встречаются намного чаще других. Слова, которые встречаются слишком часто, чтобы быть значимыми для поиска, называются стоп-словами. Как правило, это местоимения, предлоги и частицы. Поисковые машины обычно игнорируют стоп-слова, даже если они встречаются в тексте запроса.

Нормальная форма слова

Нормальной формой слова считается именительный падеж единственное число. Так, с точки зрения Яндекса, кот, коты, кота и т.д. - формы одного и того же слова, среди которых нормальной является форма кот.

А теперь начнем практическую работу. Для начала с помощью самого обычного запроса выясним, как называется самый популярный сайт (рис. 1.8):


увеличить изображение
Рис. 1.8. Результаты обычного запроса "Самый популярный сайт"

А какие еще сайты бывают? Самый красивый сайт? Самый интересный сайт? Самый старый сайт? Введем такую конструкцию: самый /2 сайт (рис. 1.9):


увеличить изображение
Рис. 1.9. Результаты запроса: самый /2 сайт

Мы видим, что в результатах есть "Самый посещаемый сайт", "Самый официальный сайт" и даже "Самый лучший сайт". Впрочем, всего нашлось 10 миллионов результатов - наверняка там перечислены все "самые" сайты.

Все дело в том, что /2 означает число, указывающее максимально допустимое расстояние между двумя любыми словами запроса. Мы здесь четко указали, что на втором месте после "самый" должно что-то быть, а потом уже "сайт". Такой запрос не найдет результатов вроде "самый посещаемый и интересный сайт", поскольку между словами "самый" и "сайт" должно стоять всего одно слово.

on_load_lecture();

 

Поиск синонимов

Для поиска синонимов используем запрос: машина | десятка | жигули | автомобиль (рис. 1.10):


увеличить изображение
Рис. 1.10. Поиск синонимов

Обратите внимание на число ссылок - 479 миллионов! Когда вы проверите этот запрос, количество ссылок будет еще больше. Этот запрос здорово помогает, когда нужно искать ответы на вопросы на форумах и в блогах. Запрос "колесные диска на десятку | жигули | машину" набрать быстрее, чем три эквивалентных "колесные диски на десятку", "колесные диски на жигули", "колесные диски на машину".

Исключение слов

Иногда, при поиске некоторых словосочетаний просто хочется избавиться от назойливого сопровождения. Например, запрос "электронные книги" почти всегда будет связан со ссылками на аудиокниги. Дело в том, что многие сайты предлагают для чтения, скачивания продажи и те и другие варианты. Избавиться от аудиокниг в выдаче очень легко - достаточно поставить две тильды перед ненужным словом - электронные книги ~~аудиокниги (рис. 1.11):


увеличить изображение
Рис. 1.11. Поиск с исключением слова

Яндекс в этом случае подскажет, что из поиска исключены все документы, содержащие слово "аудиокниги".



Дата добавления: 2016-06-22; просмотров: 2037;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.008 сек.