Архитектура лингвистического процессора
В данной лекции будут рассмотрены архитектура лингвистического процессора, который лежит в основе всех ЕЯ-систем, описаны этапы анализа и синтеза ЕЯ-текстов, область применения и основные классы естественно-языковых систем, их функциональные компоненты, дана их сравнительная характеристика.
Естественный язык служит человеку для выражения собственных мыслей и для понимания мыслей других людей. Первому виду языковой деятельности соответствует производство ЕЯ-текстов, а второму - понимание таких текстов. Если обозначить множество текстов через {Т}, а множество выражаемых ими смыслов через {С}, то модель естественного языка можно определить как транслятор, устанавливающий соответствие между этими двумя множествами: {Т} ⇔ {С}. Формальные модели языка рассматриваются как компоненты различных прикладных ЕЯ-систем. Компонента системы, реализующая формальную лингвистическую модель и способная работать с ЕЯ во всем его объеме, называется лингвистическим процессором (ЛП). Две основные функции ЛП состоят в извлечении смысла из заданного текста и в выражении заданного смысла текстом на ЕЯ, иначе это функции: ‒ моделирования понимания (анализ); ‒ моделирования производства текстов (синтез). Наиболее полная модель класса «Смысл ⇔ Текст» обеспечивает получение связных синтаксических структур для всех предложений обрабатываемых текстов, независимо от степени их сложности, и переработку текстов на естественном языке без смысловых потерь. Структура и состав лингвистического процессора.Со стороны своего внутреннего устройства ЛП представляет собой многоуровневый преобразователь. В нем различаются три уровня пофразного представления текста, которые соответствуют уровням языка -морфологический, синтаксический и семантический. Каждый из уровней обслуживается соответствующим компонентом модели - массивом правил и определенным словарем. На каждом из уровней предложение имеет формальный образ, именуемый в дальнейшем его структурой - морфологической (МорфС), синтаксической (СинтС) и семантической (СемС). Синтез представляет собой обратный переход от СемС предложения к его записи в обычном орфографическом виде. Структура лингвистического процессора представлена на рисунке 1. Под морфологической структурой понимается последовательность входящих в анализируемое предложение слов с указанием части речи и морфологических характеристик (падежа, числа, рода, одушевленности, вида и т.п.). Под синтаксической структурой понимается дерево зависимостей, в узлах которого стоят слова данного естественного языка с указанием части речи и грамматических характеристик, а дуги соответствуют специфичным для данного естественного языка Рис. 2.1. Структура лингвистического процессора ЛП в целом должен обеспечивать выполнение следующих преобразований: предложение на ЕЯ ⇒ МорфС ⇒ СинтС ⇒ СемС (при анализе) СемС ⇒ СинтС ⇒ МорфС ⇒ предложение на ЕЯ (при синтезе) Таким образом, чтобы построить ЛП, необходимо разработать: ‒ формальные языки для записи (образов) предложений на морфологическом, синтаксическом, семантическом уровнях представления; ‒ формальное понятие структуры предложения для каждого из этих уровней; ‒ массивы правил для преобразования структур смежных уровней друг в друга; ‒ морфологический, синтаксический и семантический словари, включив в них всю информацию о каждой лексеме, необходимую для осуществления соответствующего преобразования. Цель анализа предложения на естественном языке - перевод их на М-язык вычислительной системы. Функциями анализатора являются: ‒ распознавание правильно построенных предложений ЕЯ; ‒ фиксация, локализация и возможность исправления ошибок в ЕЯ-тексте; ‒ декомпозиция предложения на составляющие (фрагменты) и построение соответствующей синтаксической структуры предложения; ‒ семантическая интерпретация фрагментов ЕЯ-предложения во фрагменты М- языка; ‒ композиция фрагментов М-языка в структуру, описывающую ситуацию проблемной среды. Реализация этих функций осуществляется на этапах морфологического и синтаксического анализов, семантической интерпретации и проблемного анализа. Во многих моделях ЛП два последних этапа объединяются в один этап семантического анализа. В большинстве случаев вместо полного синтеза используется синтез по шаблонам. Суть его состоит в том, чтобы для конкретной системы рассмотреть все типы сообщений, относящиеся как к процессу общения, так и к процессу выдачи результатов работы ВС, и для каждого типа разработать шаблон, который заполняется при обращении к пользователю. Задача синтеза заключается в переводе «текста» М-языка в ЕЯ-текст и состоит из следующих этапов: ‒ разбиение текста М-языка на фрагменты, соответствующие будущим фразам; ‒ определение лексем для синтезируемой фразы; ‒ построение синтаксической структуры фразы; ‒ приписывание морфологической информации вершинам синтаксической структуры фразы; ‒ определение порядка слов; ‒ осуществление морфологического синтеза лексем. Суть семантического синтеза заключается в таком преобразовании текста М-языка, при котором его части могли бы соответствовать будущим фразам и предложениям ЕЯ. При этом требуется учет как языкового, так и смыслового факторов. Фраза должна быть приемлемой по размерам, быть стилистически доступной и т.п. Иногда для этого достаточно использовать простые правила с учетом ограничений, например, на число существительных, на число определений, выражаемых придаточными предложениями, и т.п. Такие преобразования осуществляются за счет правил фрагментирования текста М-языка. Результатом семантического синтеза будет структура М-языка, разбитая на фрагменты, соответствующие будущим фразам. Задача синтаксического синтеза - определить порядок следования фраз, сформировать их синтаксические структуры, заполнить эти структуры соответствующими лексемами и, учитывая отношения между лексемами, конкретизировать синтаксические структуры. На этапе синтаксического синтеза выбираются форма фраз по морфологическим характеристикам лексем. Выбор лексем может зависеть от истории общения. Например, при работе в системе типа «вопрос - ответ» синтезатор может использовать те лексемы, которые применялись пользователем в вопросе.Цель морфологического синтеза - построение конкретных словоформ ЕЯ по словарю и заданной морфологической информации. Морфологический синтез завершает процесс синтезирования, после чего сообщение на естественном языке выдается пользователю.
Дата добавления: 2019-09-30; просмотров: 979;