Морфологический анализ/синтез с помощью универсальных формальных моделей
Известно, что они ориентировались на тексты определенной тематики и поэтому не полностью учитывали все особенности морфологии. Это направление пытается построить более адекватные морфологические модели. Создаются универсальные математические модели в форме открытой системы уравнений, позволяющих путем вычисления осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ. Одной из таких моделей является модель Ю.П. Шабанова-Кушнаренко, моделирующая процессы русского языка посредством языка алгебры конечных предикатов, с помощью которого может быть математически описан любой аспект морфологии русского языка. В данной модели текст рассматривается как многоуровневая конструкция: из букв слагаются морфы, из морф – словоформы, из словоформ – предложения, из предложений – абзацы и т.д. Отдельные части этой конструкции – буквы, морфы, словоформы, предложения и т.д. называют фрагментами текста, а фрагментное отношение L(X,Y), у которого в роли переменной Y выступает часть слова (например, буква, морфема) или целое слово, называется морфологическим отношением. Описание морфологических отношений производится на языке алгебры конечных предикатов. В силу принципа однозначности любое морфологическое отношение L(X,Y) есть функция зависимости фрагмента Y от его смысла Х, поэтому иногда морфологическое отношение называют морфологической функцией.
Морфологическая функция представляется в виде функции Y=F(X). В качестве переменной Y используются такие понятия, как основа словоформы, окончание, суффикс и т.д., а в качестве структуры переменной Х - часть речи, род, число, падеж и т.д.
Однако данная модель распространяется лишь на небольшую часть механизма склонения имен существительных и прилагательных. Многие явления, непосредственно относящиеся к процессу склонения, не описываются моделью, что может привести к некорректному разбиению на фрагменты словоформы и, как следствие, неверному МА.
Другим подходом при создании универсальных математических моделей МА является построение адекватных формальных моделей с учетом всех фактов языка. Рассмотрим модель морфологии системы «Смысл – Текст», представляющую интерес с точки зрения реализации данного подхода.
Эта модель в отличие от предыдущих ориентирована на синтез словоформ. В общем виде правила морфологического синтеза выглядят следующим образом:
(λ, χ) → v,
где λ - символ лексемы; χ - морфологические характеристики, v – словоформа.
В модели используются семь промежуточных уровней:
- глубинно-морфологическое представление;
- укрупненная морфологическая схема;
- морфемная схема;
- поверхностно-морфологическое представление;
- цепочка не чередованных морфем;
- цепочка чередованных морфем;
- орфографическая словоформа.
Преобразованию при переходе с одного уровня на другой подвергается тройка (λi, χi, εi), где λi – некоторая часть морфологического описания лексемы, отображающая и заменяющая лексему на i-том уровне, χi – релевантная для i-го уровня часть характеристик, εi – соответствующая i-му уровню формируемая цепочка символов.
На первом этапе происходит обращение к словарной статье лексемы и переработка в ней информации. При этом правила выбора основной морфы присоединяются ко всем остальным правилам преобразования элементов цепочек εi, а из морф, характеристики χ и синтактики ξ компонуется новый вектор f, называемый грамматической характеристикой. На этом же этапе подготавливаются векторы Фi, состоящие из значений признаков вектора f, релевантных для этого этапа преобразования цепочки εi. По сути дела, Фi объединяет в себе λi и χi (как правило, в разные Фi входят значения разных признаков вектора f).
Однотипный алгоритм синтеза переводит двойку (Фi, εi) (i = 0, 1, ...) в εi+1, затем к последней присоединяется заранее сформированный вектор Фi+1, после чего цикл формирования цепочки следующего уровня повторяется вплоть до формирования словоформы.
Морфологические правила при этом делятся на три группы:
1 – описание недопустимых вариантов характеристик;
2 – осуществляют компоновку признаков морфологической характеристики и синтактики в грамматическую характеристику f;
3 – основная часть правил, осуществляющих преобразование элементов цепочек εi.
В рассмотренной модели предлагается единая форма таких правил:
Q |- Aσi B → Aξi+1 B,
где |- - разделительный знак;
Q – условие применимости правила в виде ДНФ, элементами конъюнкций в которой служат утверждения относительно значений признаков упомянутой грамматической характеристики;
σi – заменяющий символ;
ξi+1 – возникающая подцепочка символов, иногда пустая;
А, В – релевантный внутрицепочечный контекст, т.е. другие подцепочки, которые в частном случае могут содержать и символы, возникающие на рассмотренном этапе синтеза.
Морфологическое описание лексемы состоит из правил выбора основной морфы и лексемной синтактики ξ, сжато характеризующей правила выбора аффиксальных морф для всех включенных в парадигму данной лексемы словоформ. Правила выбора основы имеют общий вид:
Q |- {основа} → α,
где Q – условие в виде ДНФ из значений признаков грамматической характеристики f1;
{основа} – символ основной морфемы;
α - цепочка символов более низкого уровня, чем {основа}.
Обычно правило выбора основы является безусловным. При построении данной модели учитывались все возможные факты русской морфологии. Поэтому здесь можно описать любую русскую лексему, а с помощью соответствующего множества правил подстановок – синтезировать любую словоформу этой лексемы.
Анализ показал, что наиболее распространенным методом МА является декларативный, что объясняется простотой его алгоритма и удобством кодирования. После МА лексеме приписывается кортеж с совокупностью морфологической информации, которая поступает на вход синтаксического анализатора, рассмотренного в следующих лекциях.
Дата добавления: 2019-09-30; просмотров: 485;