Дерево составляющих
Следует подчеркнуть, что деревья зависимостей дают возможность рассматривать направленные связи, но только между отдельными словами, системы составляющих характеризуют синтаксическую структуру предложения иначе — с их помощью словосочетания (или синтагмы) описываются в явном виде, но игнорируется ориентация связей (т.е. не различаются «хозяин» и «слуга»).
Синтагма — совокупность нескольких слов, объединённых по принципу семантико-грамматической сочетаемости, единица синтагматики. Объём конкретной синтагмы определяется не только реальным употреблением слов в связке, но и самой возможностью объединения предметов, признаков и процессов окружающей действительности. Минимальной длиной синтагмы следует считать простые словосочетания.
В основе модели дерева оставляющих лежит представление об устройстве предложения как о последовательном попарном синтагматическом сцеплении составляющих от минимальных - отдельных слов, до максимальной - предложения, составляющими которого в случае полного личного предложения являются группа подлежащего и группа сказуемого.
Представление синтаксической структуры в терминах дерева составляющих хорошо согласуется с традиционным «разбором» предложения, при котором подлежащее, сказуемое и их элементы описываются категориальными характеристиками – именами частей речи или групп. Например, фраза Бедный Джон убежал прочь будет представлена так , как показано на рисунке 9.5.
Отличительной особенностью модели дерева составляющих является то, что она задает порядок (степень близости между словами) во множестве слов, которые в предыдущей модели подчинялись бы одному и тому же узлу.
Рисунок 9.5 – Схема связей
Здесь S - символ предложения, А – прилагательное, N – существительное, V глагол, Аdv – наречие, NР – именная группа, VР - глагольная группа.
Дерево составляющих передает также соответствие между синтагматикой и линейной упорядоченностью слов в предложении. Нарушение прямого соответствия выражается в форме прерывных (или разрывных) составляющих, которые особенно распространены в языках со свободным порядком слов. Как и в графе зависимостей, в дереве составляющих могут использоваться условные узлы и связи.
Пусть х — произвольная непустая цепочка. Множество С отрезков цепочки х называется системой составляющих этой цепочки, если оно удовлетворяет двум условиям:
1) множество С содержит отрезок, состоящий из всех точек цепочки х, и все одноточечные отрезки x;
2) любые два отрезка из С либо не пересекаются, либо один из них содержится в другом.
Элементы С называются составляющими. Одноточечные отрезки называются точечными (тривиальными) составляющими.
При описании предложений естественного языка с помощью системы составляющих обычно используют размеченную систему составляющих, т. е. тройку <С, W, φ>, где С — система составляющих, W — множество меток и φ — отображение С в 2W. Поясним введенное определение на примере. Пусть цепочка ω имеет вид agbacdef. Определим на ней две системы составляющих C1 и С2. Для наглядного изображения системы составляющих будем заключать каждую нетривиальную составляющую в скобки, причем левую и правую скобки, отвечающие одной составляющей, помечать одинаковой меткой, так чтобы разные пары скобок были помечены разными метками. В качестве меток можно использовать числа.
Пример:
C1=(((ag)b)ac(de)f);
123 3 2 4 4 1
C2=(a(g(b(a(cd)e)f))).
1 2 3 4 5 5 4 321
При интерпретации цепочки как предложения естественного языка система составляющих может выражать информацию о синтаксической структуре предложения, а нетривиальные составляющие (при подходящем выборе системы составляющих) соответствуют словосочетаниям.
Система составляющих предложения указывает в нем словосочетания разных «уровней» не вводя при этом никакой иерархии среди словосочетаний одного уровня. Между тем в предложении естественного языка часто интуитивно ощущается «главенствование» некоторого словосочетания над другими, в нем не содержащимися. Для отражения указанного факта можно поступить следующим образом. Пусть С — система составляющих цепочки х. Для каждой поточечной составляющей АÎС выделим в множестве всех составляющих, непосредственно вложенных в А, какую-либо одну составляющую A', которую будем называть главной. Множество всех главных составляющих обозначим через С' и назовем иерархизацией системы С. Упорядоченную пару <С, С’> назовем иерархизированной системой составляющих.
В грамматике НС представление о двусоставности предложения сохранено. Но члены предложения (синтаксические функции) определяются в этой теории на основе формальных признаков: не по отношению к их возможному или реальному семантическому содержанию, а по отношению к тому месту, которое они занимают в дереве порождения предложения. Как уже было сказано, верхний узел дерева обозначается символом S (sentence – предложение). Предложение анализируется как конструкция, включающая две НС – именную группу (NP, noun phrase) и глагольную группу (VP, verb phrase). Подлежащее и сказуемое могут быть соответственно определены как узлы, непосредственно подчинённые узлу S. Дополнение может квалифицироваться как узел, который подчинён узлу VP. НС – структуру предложения можно представить в виде древовидного графа и в скобочной записи (значение символов: S – предложение, NP – именная группа, VP – глагольная группа, Adj – прилагательное, N – существительное, V – глагол). Например, для предложения Маленькие дети доставляют большие хлопоты скобочная запись будет иметь вид:
(((маленькие)Adj (дети)N)NP ((доставляют)V ((большие)Adj (хлопты)N)NP)VP)S)
Дерево же составляющих показано на рисунке 9.6.
Рисунок 9.6. – Дерево составляющих для предложения
Маленькие дети доставляют большие хлопоты
Выбор того или иного способа представления синтаксической структуры в значительной степени связан с устройством алгоритма СА. Для жестко заданных процедур, вычисляющих синтаксическую структуру предложения по «формуле» правильной структуры, в качестве такой формулы плохо подходит модель типа граф зависимостей: она либо не доопределяет процедуру построения синтаксической структуры и тогда появляется слишком много вариантов анализа, либо, если использовать сильные ограничения, формула становится слишком сложной для вычисления.
В психолингвистических экспериментах доказано, что двухвершинная модель непосредственно составляющих лежит в основе механизма распознавания высказывания (в то время как в основе механизма порождения высказывания лежит модель синтаксиса зависимостей. Следует отметить, что в прикладной лингвистике, строя представления предложения, в основном, оперируют моделями синтаксиса зависимостей и синтаксиса составляющих, описанных выше.
Формальные грамматики работают, как правило, с синтаксическим представлением в виде дерева составляющих.
Грамматика деревьев служит не для порождения предложений, а для преобразования деревьев, интерпретируемых как деревья подчинения или деревья составляющих, например грамматика – система правил преобразования деревьев, интерпретируемых как «чистые» деревья подчинения предложений (без линейного порядка слов).
Дата добавления: 2019-09-30; просмотров: 555;