Поисковые информационные системы


Поисковая система - это сервис, предназначенный для нахождения информации в Интернете с автоматическим занесением информации в собственную базу данных.

Современные поисковые системы имеют многоуровневую организацию, и в основе своей все они состоят из пяти программных ком­понентов:

· Spider (паук) — это браузероподобная программа- робот, которая планомерно путешествует по Сети 24 часа в сутки и «скачивает» все попавшиеся ей на пути Web-узлы (страницы по глобальным URL-ссылкам). По сути, Spider работает точно так же, как и любой Web-браузер, только ничего не визуализирует, а лишь считывает HTML-код;

· Crawler (сборщик, или путешествующий паук) — это порождаемый Spider'ом процесс, который углубляет поиск, перемещаясь по всем локальным ссылкам, найденным на странице. Как и Spider, сборщик тоже скачивает страницы, но уже способен их анализировать в поисках перекрестных ссылок. Собственно, его основные задачи — сканирование Интернет-ресурсов в поисках изменений на страницах и определение того, куда он должен идти дальше, основываясь на найденных ссылках или исходя из заранее заданного списка адресов;

· Indexer (индексатор) — ключевая программа поисковой системы, которая анализирует Web-страницы, скачанные пауками, определяет их тематическую принадлежность, актуальность, популярность у пользователей и т.д. Индексатор разбирает страницу на части и анализирует такие ее элементы, как заголовки страниц, ссылки, тексты, структурные элементы, стилевые элементы и т.д. По окончании анализа он индексирует ресурсы, то есть строит базы данных по ключевым словам и сохраняет эти базы данных в удобном для поиска виде;

· Database (база данных) — хранилище скачанных и обработанных индексатором страниц. Такая база данных требует огромных ресурсов для хранения информациии нуждается в эффективных алгоритмахдоступа;

· Gateway (шлюз) или Search engine/Resultsengine (собственно поисковая машина) принимает запросы от пользователей, анализирует их и извлекает результаты поиска из базы данных. Именно эта система решает, какие страницы удовлетворяют запросу пользователя, и предоставляет ему интерфейс для просмотра и уточнения этих результатов.

Наиболее популярными поисковыми системами в настоящее являются поисковые системы GOOGLE.COM, YAHOO.COM, а также российские RAMBLER.RU, YANDEX.RU, MAIL.RU и др.

 

Рынок поисковых систем каждый год демонстрирует устойчивый рост. По данным, доходы всех систем поиска информации в Интернете в 2005 году составили $9 млрд. В среднем рынок растет на 100% в год. Самым успешным мировым поисковиком является Google. Эта система за пять лет смогла завоевать более половины рынка поиска и потеснить с него таких гигантов прошлого, как Yahoo!, AltaVista и Lycos. Сегодня Google переведен на 90 мировых языков. Каждый день поисковик обрабатывает более 200 млн запросов и 6 млрд. страниц.

для самостоятельного изучения:

 

ПРОТОКОЛЫ прикЛАДНОГО УРОВНЯ: WWW (HTTP), элетронноЙ почты POP3 – SMTP, FTP, NNTP, TELNET, IP- телефония

 



Дата добавления: 2016-06-22; просмотров: 2797;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.007 сек.