Информационно-поисковые системы (ИПС)
Информационно-поисковые системы представляет собой функциональную систему, предназначенную для хранения и поиска информации.
Поиск информации - это процесс отыскивания в массиве документов, соответствующих поступившему запросу.
Системы часто разделяют на фактографические и документальны. Фактографические системы в ответ на конкретные запросы о данных выдают конкретные ответы, содержащие по мере возможности, только действительно запрашиваемые данные, факты. Что же касается документальных систем, то они в ответ на запросы выдают подборки документов.
Документальная информационно-поисковая система не информирует пользователя о предмете запроса в том смысле, что она не изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.
Хотя эти два типа информационных систем схожи в том отношении, что ответы, которых ждут от фактографических систем, могут быть обнаружены в подборках документов, полученных в документальной системе, с точки зрения обработки эти системы совершенно различны. Документальный и фактографический поиск имеют совершенно различную организацию хранения, манипуляции со структурами данных и процессы обработки при выполнении различных операций.
Информационно-поисковые системы следует отличать от системы поиска данных (традиционно их называют базами данных), которые осуществляют поиск и выдачу пользователю фактических значений данных, как правило, в буквенной либо цифровой форме. Очевидно, что поиск данных есть частный случай поиска документов, при котором "документами" являются отдельные значения показателей либо текстовые фрагменты. В системах поиска данных информация представляется в виде таблиц. Фактически поиск данных сводиться к просмотру таблиц и выбору нужных значений в соответствии с заданными критериями поиска, которые формируются с помощью специального формализованного языка запросов (например, SQL - Structured Query Language).
В информационно-поисковых системах язык запросов менее формализован, как правило, в нем определены только операции, с помощью которых могут связываться между собой ключевые слова, содержащиеся в запросе.
Автоматизированная информационно-поисковая система (АИПС) является сложной информационной системой, включающей информационную базу, лингвистические, математические и технические компоненты.
Элементами реальной информационно-поисковые системы являются:
массив документов (текстов, записей), выступающих в качестве объекта поиска;
информационно-поисковый язык (ИПЯ) - искусственный язык, предназначенный для описания содержания и формы документов и (или) запросов для осуществления поиска;
правила индексирования (алгоритмы, методы), следуя которым производится описание средствами ИПЯ документов и запросов (перевод их с естественного языка на информационно-поисковый). В результате индексирования документа получается поисковый образ документа (ПОД), а при индексировании запроса - поисковые предписания (ПП);
правила (алгоритмы, методы) поиска документов, соответствующих запросу, которые задаются в виде критерия соответствия (критерия выдачи);
технические средства, с помощью которых реализуется ИПС, т.е. осуществляющие хранение и поиск информации;
обслуживающий персонал - индексаторы и технические работники, обеспечивающие обработку и ввод в систему документов, а также операторы информационно-поисковой системы, производящие поиск информации и выдачу ее потребителю (в качестве оператора может выступать и сам потребитель информации).
Информационно-поисковый язык, правила индексирования и поиска зависят от состава и тематики документов.
Все элементы информационно-поисковые системы могут быть разделены на две основные составляющие:
семантические[24] средства - ИПЯ, методы индексирования и поиска;
материальные составляющие (массивы документов, технические средства, персонал).
Совокупность информационно-поискового языка, методов индексирования и поиска принято в теории информационно-поисковых систем называть абстрактной информационно-поисковой системой. С помощью семантических средств информационно-поисковые системы осуществляет смысловые операции обработки документов, запросов и отбор документов, подлежащих выдаче.
Наиболее известными поисковыми системами в Internet являются: http://all.by, http://come.to/belarus http://www.rambler.ru, http://www.aport.ru, http://www.yandex.ru, http://www.yahoo.com, http://uk.altavista.com.
История Internet
Глобальная компьютерная сеть Internet начиналась как оборонный проект, который финансировался Агентством Перспективных Исследований Министерства Обороны США. Целью проекта являлась разработка компьютерной сети, призванной обеспечить устойчивое функционирование системы управления страной в условиях ядерной войны.
Первые документы, описывающие технические требования к системе появились 1964 году, в 1969 первые четыре компьютера были объединены в реально действующую сеть. Эта сеть получила название ARPANET. В 1971 году сеть насчитывала уже 14 компьютеров, а в 1972 -- 37. Семидесятые - это время роста сети и отладки технологии межсетевого обмена в рамках ARPANET.
В 1982 году были опубликованы протоколы Transfer Control Protocol (TCP) и Internet Protocol (IP). С этого момента в лексикон специалистов по сетевым технологиям вошло сочетание "TCP/IP", которое прочно закрепилось за всем семейством документов и стандартов, связанных с работой ARPANET, а позже и сетью Internet.
Собственно, сеть Internet появилась как результат большой компьютерной программы Национального Научного Фонда США. Для проведения научных исследований Фонд организовал по всей стране несколько центров вычислений и оснастил их суперкомпьютерами. Для того, чтобы специалисты, занятые в фундаментальных исследованиях, могли использовать вычислительные мощности этих компьютерных центров, все они были объединены в единую компьютерную сеть.
Первоначально планировалось использовать для этих целей ARPANET, но по различным соображениям администрация последней не разрешило подключение американских университетов к оборонной сети. В результате Фонд создал свою собственную сеть NSFNET. В качестве основы этой сети были выбраны средства межсетевого обмена разработанные в рамках проекта ARPANET. В это время появились первые шесть доменов Internet: gov, mil, edu, com, org и net. За каждой из этих аббревиатур скрывается своя собственная сеть: gov - сеть правительственных организаций, mil - сеть военных организаций, edu - сеть университетов, com - сеть коммерческих организаций, org - неправительственные и некоммерческие организации, net - сеть организаций, отвечающих за функционирование самой Сети.
Употребив слово сеть с заглавной буквы, делаем разделение между сетями, составляющими Internet и самой Internet, как совокупностью различных сетей. В настоящее время в Internet, кроме NSFNET входит еще порядка нескольких сотен различных сетей. Общим для всех этих сетей является тот факт, что для обмена информацией между собой они используют единый механизм, который называется технологией межсетевого обмена информацией - семейство протоколов TCP/IP. Основными моментами этой технологии являются единая система адресов всех компьютеров в сети, единая форма обмена информационными сообщениями между сетями - протокол IP и протоколы обмена данными с программным обеспечением, установленном на компьютерах Сети, которые используют IP для обмена информацией.
Став средством научной коммуникации в рамках программы NSF, Internet превратился в основное средство предварительной публикации результатов научных работ. Практически все лаборатории мира, имеющие доступ к Сети, стали размещать свои препринты в электронном виде в архивах Internet, а уже только после этого выпускать печатные копии этих работ.
Итак, по ряду исторических причин, Интернет появилась как огромная сеть с великим множеством информационных источников, доступных лишь при помощи не очень дружелюбного программного обеспечения, ориентированного только на пересылку файлов и вывод на экран простых текстов. Основные средства Интернет, такие как Telnet, FTP, Archie, WAIS обладают очень мощными возможностями, но не имеют дружественного интерфейса, понятного рядовому пользователю. Быстрый рост числа пользователей Интернет привел к увеличению количества пользователей которые не имеют ни терпения, ни желания изучать путанный синтаксис этих программ.
Даже те, кто знает их, понимает, что чем понятнее система, тем быстрее можно добиться высоких результатов.
Теперь взглянем на Паутину (Сеть, Web). Базовая идея - возможность группе исследователей публиковать свои работы в естественной форме с текстом, графиками, иллюстрациями и наконец звуками, видео и прочими материалами.
История Всемирной Паутины (World Wide Web) восходит к марту 1989 года и стремительно развивалась. В этом месяце, Тим Бернерс-Ли (Tim Berners-Lee) из Европейской лаборатории физики элементарных частиц в Женеве (французская аббревиатура - CERN) распространил предложение разработать "гипертекстовую систему" для возможности легкого обмена информацией между географически разделенными командами физиков из сообщества Физики Высоких Энергий.
В предложении были три важных компонента:
полноценный пользовательский интерфейс;
возможность включать в себя широкий диапазон технологий и типов документов;
универсальная программа просмотра: т.е. любой человек в сети, в не зависимости от типа компьютера и терминала, мог бы прочитать опубликованный документ, и смог бы сделать это легко.
В октябре 1990 года, проект был представлен заново, и двумя месяцами позже проект "Всемирная Паутина" начал обретать очертания. Началась работа над первым текстовым браузером (названным WWW), и в конце 1990 этот браузер и браузер для операционной системы NeXTStep были созданы. Был реализован главный принцип - гипертекстовый доступ и возможность использования документов различных типов.
В марте 1991 текстовый браузер WWW был испытан в сети и распространен по всему CERN"у. Летом были проведены семинары и разослана информация в телеконференции. В октябре был создан шлюз для поискового средства WAIS и в самом конце 1991 года CERN анонсировал Паутину во всем сообществе Физики Высоких Энергий.
1992 год стал годом разработки. Браузер WWW стал доступен через CERN"овский FTP и Паутина была представлена в Интернете. В январе 1993, уже было 50 Web-серверов, и был представлен первый полноценный браузер Viola для Windows, в котором воплотились все составляющие первоначального проекта - графическая гипертекстовая система с использованием мыши.
В начале 1993 появились еще два браузера: для Macintosh"а и в феврале 1993 альфа версия Mosaic для Windows, разработанная в NCSA (National Center for Supercomputing Applications в университете штата Иллинойс) командой под руководством Марка Андрисена (Mark Andreesen), чье имя можно поставить на второе место по популярности после Бернерса-Ли.
В 1994 произошло два важных события. Первое, это разработка средств защиты доступа для Паутины, а второе, лицензирование браузера Mosaic открыло дорогу коммерческим разработкам. Джеймс Кларк (James Clark - основатель компании Silicon Graphics) основал в апреле 1994 компанию Mosaic Communication Corporation (сейчас это Netscape Communication Corporation) в которую пригласил разработчика Mosaic Марка Андрисена и частъ его команды из NCSA.
В июле 1994, CERN создал группу названную W3 Organization, совместное предприятие CERN и MIT (Massachusetts Institute of Technology), для дальнейшего развития Паутины. К началу 1995 эта группа трансформировалась в The World Wide Web Consortium. CERN продолжает оставаться одним из ведущих разработчиков Паутины. Консорциум W3 (http://www.w3.org) выпускает основные материалы по Всемирной Паутине.
Высокие темпы развития сети сохраняются и по настоящее время.
Терминология
Когда два или более компьютеров связывают постоянным соединением для обмена данными, говорят о создании компьютерной сети.
Сетевой протокол определяет правила передачи информации в компьютерной Сети. Уместно сравнение сетевого протокола с языком – это такая же оболочка для передачи информации.
Различают открытые и закрытые сетевые протоколы, в зависимости от того, является ли открытым определяющий их стандарт.
Можно говорить также о протоколах различных уровней, в частности, о протоколах уровня приложений и протоколах уровня передачи данных.
RFC – Request For Comments, стандарты Интернет, публикуемые IAB.
Провайдер Интернет – поставщик услуг Интернет, тот, через кого Вы или Ваша организация подключаетесь к Сети.
Модем (модулятор-демодулятор) - устройство для соединения удаленных компьютеров. Работает по выделенным и телефонным (коммутируемым) линиям. Используется, среди прочего, для подключения к компьютерной сети домашних пользователей.
LAN (local area network) - локальная компьютерная сеть, соединяющая компьютеры непосредственно, обычно с помощью кабелей.
WAN (wide area network) - сеть, соединяющая локальные сети (LAN).
Режим работы on-line/off-line – с подключением к (Internet)/без него.
PPP – Point-to-Point Protocol – используются при подключении к Internet, в частности – при подключении к Internet домашних компьютеров пользователей в режиме on-line.
SLIP – Serial Line IP (Internet Protocol) - менее совершенный аналог PPP.
UUCP – Unix-to-Unix Copy Protocol– устаревший протокол передачи файлов и почтовых сообщений.
Браузер (browser) – программа для доступа к самым популярным службам Internet. Самые известные браузеры – Netscape Navigator (http://www.netscape.com) и Microsoft Internet Explorer (http://www.microsoft.com).
Единицы измерения информации и скорости ее передачи:
Бит - минимальное количество информации - "да" или "нет", "0" или "1". Байт - 8 бит для описания буквы или символа "00000110" = "6" Бит/с(bps) или бод (baud) - импульс в секунду. (Кбит/с); (Мбит/с). Приставки: кило – 10(3), мега – 10(6), тера – 10(9).
Дата добавления: 2016-07-22; просмотров: 2479;