Поиск во Всемирной паутине


В web размещены миллионы сайтов, причем с актуальной информацией соседствует много устаревших ресурсов, мусора и недобросовестной рекламы.

Интернет - это наиболее демократичный источник информации. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В этом одновременно сила и слабость Всемирной сети.

Находить информацию в Интернете, вероятно, было бы очень трудно, если бы не были созданы мощные поисковые инструменты: поисковые машины (поисковики), каталоги-рейтинги (рубрикаторы), тематические списки ссылок, онлайновые энциклопедии и словари.

Для поиска разного рода информации наиболее эффективными оказываются различные инструменты.

Каталоги ресурсов

Каталог имеет иерархическую структуру. Тематические разделы первого уровня определяют максимально широкие темы, такие как "спорт", "отдых", "наука", "магазины" и т.д. В каждом таком разделе могут быть подразделы. Пользователь может уточнять интересующую его область, путешествуя по дереву каталога и постепенно сужая зону поиска. Например, при поиске информации о ноутбуках цепочка поиска может выглядеть так: Информационные технологии -> Компьютеры -> Ноутбуки. Дойдя до нужного подкаталога, пользователь находит в нем набор ссылок.

Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если ведется поиск общей информации по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.

Часто каталоги ресурсов одновременно являются и рейтингами, т.е. каталог предлагает зарегистрированным в нем сайтам установить на своих страницах счетчик посещений, и отображает списки ссылок на сайты в соответствии с их популярностью (посещаемостью). Популярность ресурса оценивается по ряду параметров, в том числе по так называемым хостам (количество уникальных посетителей в сутки) и хитам (количество заходов на сайт в сутки).

Одним из наиболее популярных каталогов-рейтингов является Rambler's Top 100. (http://top100.rambler.ru/top100/). Часто бывает интересно оценить состояние не общероссийских, а региональных ресурсов по конкретной тематике. Для обзора web-ресурсов Красноярска и края можно рекомендовать каталоги-рейтинги ресурсов Krasland (http://www.krasland.ru/) и Сталкер (http://www.stalker.internet.ru/).

Поисковые машины

Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу. Современные поисковые машины осуществляют поиск по контексту, т.е. словам, содержащимся в запросе, учитывая вариации словоформ и расширяя запросы синонимами. Но смысла компьютеры не понимают, поэтому в списке ответов на запрос, наряду с релевантными вашему запросу документами, вы можете получить и те, которые вам никоим образом не подходят.

Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.

Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.

Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Иными словами, справочная служба имеет две функции: 1) создание и постоянное обновление данных в базе и 2) поиск информации в базе по запросу клиента.

Аналогично, поисковая машина состоит из двух частей: так называемого поискового робота (или паука), который обходит серверы Сети и формирует базу данных, и механизма поиска релевантных запросу пользователя ссылок в базе.

Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренней базой данных (а не пускается в путешествие по Сети). Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет.

Наиболее популярными на сегодня поисковыми системами являются Google (www.google.com, www.google.ru) и Яндекс (www.yandex.ru).

Онлайновые энциклопедии и справочники

В ряде случаев бывает нужно найти не просто документ, содержащий ключевое слово, а именно толкование некоторого слова. При поиске незнакомого термина с помощью поисковой машины вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. Подобный поиск предпочтительнее проводить в онлайновой энциклопедии.

Одной из крупнейших онлайновых энциклопедий является ресурс "Яндекс. Энциклопедии" (http://encycl.yandex.ru/) - этот проект содержит 14 энциклопедий, в том числе статьи из Большой Советской Энциклопедии и "Энциклопедию Брокгауза и Эфрона". К крупным относится и "Энциклопедия Кирилла и Мефодия" (http://www.km.ru).

Помимо переноса в гипертекстовую среду традиционных словарей бурно развиваются энциклопедические wiki-проекты. Ви́ки — веб-сайт для сбора и структуризации письменных сведений. Характеризуется тем, что наполнять и редактировать размещаемую на нем информацию могут все посетители. http://ru.wikipedia.org/ - википедия на русском языке — часть многоязычного проекта, целью которого является создание полной энциклопедии на всех языках Земли.



Дата добавления: 2016-11-26; просмотров: 1812;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.009 сек.