Морфологический анализ/синтез с помощью универсальных формальных моделей

Известно, что они ориентировались на тексты определенной тематики и поэтому не полностью учитывали все особенности морфологии. Это направление пытается построить более адекватные морфологические модели. Создаются универсальные математические модели в форме открытой системы уравнений, позволяющих путем вычисления осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ. Одной из таких моделей является модель Ю.П. Шабанова-Кушнаренко, моделирующая процессы русского языка посредством языка алгебры конечных предикатов, с помощью которого может быть математически описан любой аспект морфологии русского языка. В данной модели текст рассматривается как многоуровневая конструкция: из букв слагаются морфы, из морф – словоформы, из словоформ – предложения, из предложений – абзацы и т.д. Отдельные части этой конструкции – буквы, морфы, словоформы, предложения и т.д. называют фрагментами текста, а фрагментное отношение L(X,Y), у которого в роли переменной Y выступает часть слова (например, буква, морфема) или целое слово, называется морфологическим отношением. Описание морфологических отношений производится на языке алгебры конечных предикатов. В силу принципа однозначности любое морфологическое отношение L(X,Y) есть функция зависимости фрагмента Y от его смысла Х, поэтому иногда морфологическое отношение называют морфологической функцией.

Морфологическая функция представляется в виде функции Y=F(X). В качестве переменной Y используются такие понятия, как основа словоформы, окончание, суффикс и т.д., а в качестве структуры переменной Х - часть речи, род, число, падеж и т.д.

Однако данная модель распространяется лишь на небольшую часть механизма склонения имен существительных и прилагательных. Многие явления, непосредственно относящиеся к процессу склонения, не описываются моделью, что может привести к некорректному разбиению на фрагменты словоформы и, как следствие, неверному МА.

Другим подходом при создании универсальных математических моделей МА является построение адекватных формальных моделей с учетом всех фактов языка. Рассмотрим модель морфологии системы «Смысл – Текст», представляющую интерес с точки зрения реализации данного подхода.

Эта модель в отличие от предыдущих ориентирована на синтез словоформ. В общем виде правила морфологического синтеза выглядят следующим образом:

(λ, χ) → v,

где λ - символ лексемы; χ - морфологические характеристики, v – словоформа.

В модели используются семь промежуточных уровней:

- глубинно-морфологическое представление;

- укрупненная морфологическая схема;

- морфемная схема;

- поверхностно-морфологическое представление;

- цепочка не чередованных морфем;

- цепочка чередованных морфем;

- орфографическая словоформа.

Преобразованию при переходе с одного уровня на другой подвергается тройка (λ_i, χ_i, ε_i), где λ_i – некоторая часть морфологического описания лексемы, отображающая и заменяющая лексему на i-том уровне, χ_i – релевантная для i-го уровня часть характеристик, ε_i – соответствующая i-му уровню формируемая цепочка символов.

На первом этапе происходит обращение к словарной статье лексемы и переработка в ней информации. При этом правила выбора основной морфы присоединяются ко всем остальным правилам преобразования элементов цепочек ε_i, а из морф, характеристики χ и синтактики ξ компонуется новый вектор f, называемый грамматической характеристикой. На этом же этапе подготавливаются векторы Ф_i, состоящие из значений признаков вектора f, релевантных для этого этапа преобразования цепочки εi. По сути дела, Ф_i объединяет в себе λ_i и χ_i (как правило, в разные Ф_i входят значения разных признаков вектора f).

Однотипный алгоритм синтеза переводит двойку (Ф_i, ε_i) (i = 0, 1, ...) в ε_i+1, затем к последней присоединяется заранее сформированный вектор Ф_i+1, после чего цикл формирования цепочки следующего уровня повторяется вплоть до формирования словоформы.

Морфологические правила при этом делятся на три группы:

1 – описание недопустимых вариантов характеристик;

2 – осуществляют компоновку признаков морфологической характеристики и синтактики в грамматическую характеристику f;

3 – основная часть правил, осуществляющих преобразование элементов цепочек ε_i.

В рассмотренной модели предлагается единая форма таких правил:

Q |- Aσ_i B → Aξ_i+1 B,

где |- - разделительный знак;

Q – условие применимости правила в виде ДНФ, элементами конъюнкций в которой служат утверждения относительно значений признаков упомянутой грамматической характеристики;

σ_i – заменяющий символ;

ξ_i+1 – возникающая подцепочка символов, иногда пустая;

А, В – релевантный внутрицепочечный контекст, т.е. другие подцепочки, которые в частном случае могут содержать и символы, возникающие на рассмотренном этапе синтеза.

Морфологическое описание лексемы состоит из правил выбора основной морфы и лексемной синтактики ξ, сжато характеризующей правила выбора аффиксальных морф для всех включенных в парадигму данной лексемы словоформ. Правила выбора основы имеют общий вид:

Q |- {основа} → α,

где Q – условие в виде ДНФ из значений признаков грамматической характеристики f1;

{основа} – символ основной морфемы;

α - цепочка символов более низкого уровня, чем {основа}.

Обычно правило выбора основы является безусловным. При построении данной модели учитывались все возможные факты русской морфологии. Поэтому здесь можно описать любую русскую лексему, а с помощью соответствующего множества правил подстановок – синтезировать любую словоформу этой лексемы.

Анализ показал, что наиболее распространенным методом МА является декларативный, что объясняется простотой его алгоритма и удобством кодирования. После МА лексеме приписывается кортеж с совокупностью морфологической информации, которая поступает на вход синтаксического анализатора, рассмотренного в следующих лекциях.