Ранжирование страниц по запросам пользователей
Типичный запрос, отправляемый в систему поиска документов, состоит из нескольких ключевых слов. Такой запрос также может быть представлен в виде набора терминов с весами. Степень соответствия между страницей и запросом, которую часто называют сходством, может быть измерена общими терминами. Простой подход заключается в суммировании произведений весов, соответствующих совпадающим условиям между запросом и страницей.
Такой подход позволяет добиться большего сходства для страниц, которые содержат в запросе больше важных терминов. Однако при этом предпочтение отдается более длинным страницам, а не более коротким. Эта проблема часто решается путем деления вышеуказанного сходства на произведение длин запроса и страницы. Функция, которая вычисляет такие сходства, называется функцией косинуса. Длина каждой страницы может быть рассчитана заранее и сохранена на сайте поисковой системы.
Существует множество методов ранжирования веб-страниц по запросам пользователей, и разные поисковые системы, вероятно, используют разные методы ранжирования. Например, некоторые методы ранжирования также учитывают близость условий запроса на странице. В качестве другого примера, поисковая система может отслеживать, сколько раз пользователи обращались к каждой странице, и использовать эту информацию для ранжирования страниц.
Google (www.google.com) - одна из самых популярных поисковых систем в Интернете. Основной причиной успеха Google является его мощный метод ранжирования, который позволяет отличать более важные страницы от менее важных, даже если все они содержат одинаковое количество запросов. Google использует информацию о связях между веб-страницами (т.е. о том, как веб-страницы связаны между собой), чтобы определить важность каждой страницы.
Ссылка со страницы A на страницу B размещена автором страницы A. Интуитивно понятно, что наличие такой ссылки указывает на то, что автор страницы A считает страницу B некой ценностью. В Интернете на страницу могут быть даны ссылки со многих других страниц, и эти ссылки могут быть каким-либо образом объединены, чтобы отразить общую важность страницы. Для данной страницы PageRank является показателем относительной важности страницы в Интернете, и этот показатель рассчитывается на основе информации о ссылках. Ниже приведены три основные идеи, лежащие в основе определения и расчета PageRank.
Страницы, на которые ведут ссылки с большего количества страниц, скорее всего, будут более важными. Другими словами, важность страницы должна отражаться в ее популярности среди авторов всех веб-страниц. Страницы, на которые ведут ссылки с более важных страниц, скорее всего, сами по себе будут более важными. Страницы, содержащие ссылки на большее количество страниц, в меньшей степени влияют на важность каждой из страниц, на которые даны ссылки.
Другими словами, если у страницы больше дочерних страниц, то на каждую дочернюю страницу может распространяться лишь малая доля ее важности. Основываясь на приведенных выше выводах, основатели Google разработали метод расчета важности (PageRank) каждой страницы в Интернете.
Рейтинг веб-страниц может быть объединен с другими показателями, например, основанными на содержании, для определения общей релевантности страницы по отношению к заданному запросу. Например, для данного запроса страница может быть ранжирована на основе взвешенной суммы ее сходства с запросом и ее PageRank. Среди страниц с похожим сходством этот метод ранжирует страницы с более высоким PageRank.
Дата добавления: 2024-07-23; просмотров: 77;