Обработка входящей текстовой информации

На входе ДИПС документы представлены на естественном языке. Задача входной обработки таких документов – перевод их содержания с естественного языка на искусственный поисковый язык (ИПЯ).

Тип используемого ИПЯ оказывает сильное влияние как на суть процессов обработки информации в конкретных ДИПС, так и на конечный поисковый образ документа. В наиболее общем виде все ИПЯ делятся на два класса:

- классификационные (рубрицирование) и

- дескрипторные (индексирование).

Соответственно в случае применения ИПЯ дескрипторного типа операция входной обработки документов (перевода) называется индексированием, при использовании рубрикаторов – рубрицированием.

Независимо от используемого языка, в операции перевода выделяют два основных этапа:

- анализ смыслового содержания текста с целью выделения из него сведений об известных на уровне ИПЯ объектах, их свойствах, а также отношениях между ними. Такой смысловой анализ принято называть лингвистическим анализом текста;

- выражение этих сведений на ИПЯ, т.е. принятие решения о приравнивании отдельных выражений входного документа отдельным элементам или их сочетаниям на ИПЯ. Как уже упоминалось, в зависимости от используемого языка этот процесс называется индексированием или рубрицированием.

Рассмотрим детальнее содержание этих этапов.

Лингвистический анализ текста, в свою очередь, также состоит из двух этапов:

- морфологического анализа;

- синтаксического анализа.

Цель морфологического анализа заключается в получении основ слов (под основой понимается словоформа с отсеченным окончанием) со значениями грамматических категорий (часть речи, род, число, падеж и т.д.) для каждой из словоформ.

Задачей синтаксического анализа является осуществление грамматического разбора предложений на основе информации, заложенной в словаре. На этом этапе выделяется подлежащее, сказуемое, дополнение и т.п., между которыми указываются связи в виде дерева зависимостей.

Собственно, выражение таких зависимостей на основе текста на естественном языке, и приравнивание их некоторым конструкциям ИПЯ – это уже задача второго этапа обработки входной информации – рубрицирования или индексирования. Существуют различные подходы к установлению соответствия. В настоящее время наиболее широко используются следующие:

- автоматическое индексирование. Определяется количество вхождений какого-либо термина, либо группы терминов в документ, в зависимости от количества вхождений присваиваются весовые коэффициенты;

- автоматическое рубрицирование, основанное на знаниях: в этом случае заранее создаются некоторые базы знаний, в которых на основе знаний экспертов закладываются наиболее важные термины и их сочетания. Процесс создания подобных систем во многом напоминает создание экспертных систем для диагностики и классификации;

- автоматическое рубрицирование, основанное на обучении и примерах – в этом случае используются нейросетевые технологии.

3.5. Поиск текстовой информации

Методы поиска текстовой информации в значительной мере определяются принципами переработки (перевода) входной информации. В общем случае процесс поиска включает в себя следующие элементы:

- представление документов и запросов;

- критерии смыслового соответствия;

- методы ранжирования результатов запроса;

- механизмы обратной связи, обеспечивающие оценку релевантности документов пользователем.

Существует большое количество методов поиска, наиболее известны следующие:

- метод булевой модели. При этом, если слово хотя бы раз входит в исходный текст, оно получает значение единица (истина), если ни разу – нуль (ложь). При поиске возможно использовать любые логические комбинации, включая операторы «и» и «или». Эффективность этого метода невысока, поскольку не отличаются документы с однократным и многократным вхождением слова;

- метод весовых коэффициентов. Подобен методу булевой модели, однако численные значения коэффициентов пропорциональны количеству вхождений данного слова в документ. Аналогичный принцип используется и при поиске информации в Интернет;

- третий метод – использование нечеткой логики для поиска в случае большого набора элементов (например, если при поиске в документе найдено 9 слов из требуемых 10). Пограничные ситуации даются на решение пользователю. На практике не дает заметных преимуществ по сравнению с предыдущим методом;

- нейросетевые методы.

Все эти (как и другие возможные) методы предполагают механизм обратной связи с пользователем.. В отличие от классических (табличных) баз данных, где запрос формулируется точно и однозначно, в случае поиска текстовой информации пользователи обычно начинают с неточного и неполного запроса, а следовательно – с низкой эффективностью поиска, постепенно уточняя его методом итераций.

Существуют два основных подхода к использованию такой обратной связи:

- модификация запроса и

- модификация представления документов.

Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние на эффективность поиска в последующих запросах.

3.6. Оценка качества ДИПС

Как уже отмечалось, поисковый образ документа содержит лишь основное, сокращенное смысловое содержание документа. Некоторые черты реального исходного документа в поисковом образе отсутствуют. Это приводит к тому, что информационный поиск, основанный на сопоставлении поискового предписания и поискового образа документа, не в состоянии обеспечить отыскание всех документов, отвечающих информационному запросу, т.е., часть документов, отвечающих запросу (релевантных ему) остается не выданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е., не являются релевантными. Таким образом, практически любой реальной ДИПС присущи два вида ошибок:

- ошибка первого рода (или пропуск цели – термин из теории управления): невыдача потребителю фактически релевантных его запросу документов;

- ошибка второго рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают его запросу.

Введем следующие обозначения:

- а –количество выданных релевантных документов,

- b – количество выданных нерелевантных документов,

- с– не выданных релевантных документов,

- d– количество не выданных нерелевантных документов.

Эти обозначения позволяют выразить основные показатели эффективности ДИПС:

- коэффициент полноты, характеризующий долю выданных релевантных документов во всем массиве релевантных документов:

p = a/(a + c)

- коэффициент точности, характеризующий долю выданных релевантных документов во всем массиве выданных документов:

- n = a/(a + b).