Представление морфологической информации в модуле лемматизации отдела РРО ИПИИ


Способ представления МИ в модуле лемматизации РРО представлен в таблице 6.3. Он позволяет экономить 2 байта на каждой записи, по сравнению с модулем LINGUIST. Это является существенной экономией дискового пространства, так как предполагаемое количество записей – 2 млн. Кроме того, определение значений отдельных категорий МИ в модуле лемматизации не уступает в простоте и скорости модулю LINGUIST.

Для извлечения МИ, используются маски категорий МИ, приведенные в таблице 6.4.

Определение значения одной из категорий, например рода, происходит путём применения операции побитового «и» значения МИ и маски категорий. Если словоформе категория не присуща, то результат операции побитового «и» её МИ и маски этой категории будет равен 0. Приведем примеры извлечения значений отдельных категорий морфологической информации.

Пример 3. Определение значения категории «род» словоформы:

 

MI & rod_mask

 

Результат: _Masculine, _Feminine, _Neuter или 0.

Пример 4. Определение падежа слова, с морфологической информацией MI:

 

MI & case_mask

 

Результат – 0, если слово не склоняется по падежам (глагол, наречие и т.д), или одно из численных значений категории «падеж», приведенных в таблице 6.3.

 

Зная МИ слов предложения, можно проводить его синтаксический анализ (СА).

 

Таблица 6.3. – Представление МИ в модуле лемматизации

Значение Категория Значение
Числовое Макроопределения
0x00000001 Nominative Падеж Именительный
0x00000002 _Genitive Родительный
0x00000003 _Dative Дательный
0x00000004 _Accusative Винительный
0x00000005 _Ablative Творительный
0x00000006 _Locative Предложный
0x00000008 _Masculine Род Мужской
0x00000010 _Feminine Женский
0x00000018 _Neuter Средний
0x00000020 _Singular Число Единственное
0x00000040 _Plural Множественное
0x00000080 _Past Время, наклонение Прошедшее
0x00000100 _FutureContinius Настоящее/будущее
0x00000180 _Imperative Повелительное наклонение
0x00000200 _FaceFir Лицо 1-е
0x00000400 _FaceSec 2-е
0x00000600 _FaceThi 3-е
0x00000800 _Active Залог Действительный
0x00001000 _Passive Страдательный
0x00002000 _ComparativeFormOfAdj Степень сравнения, краткость Сравнительная
0x00004000 _ExellentFormOfAdj Превосходная
0x00006000 _ShortFormOfAdj Краткая форма
0x00008000 _Verb Часть речи Глагол
0x00010000 _Participle Причастие
0x00020000 _Gerund Деепричастие
0x00040000 _Adjective Прилагательное
0x00080000 _Noun Существительное
0x00100000 _Pronoun Местоимение
0x00200000 _Numeral Числительное
0x00400000 _AdVerb Наречие
0x00800000 _Preposition Предлог
0x01000000 _Conjunction Союз
0x02000000 _Particle Частица
0x04000000 _Interjection Междометие
0x08000000 _Animate Одушевлен­ность Одушевленное
0x10000000 _NotAnimate Неодушевленное

Таблица 6.4. – Маски категорий МИ

Числовое значение Макроопределение Маска категории
0x00000007 case_mask Падеж
0x00000018 rod_mask Род
0x00000060 count_mask Число
0x00000180 time_mask Время, наклонение
0x00000600 face_mask Лицо
0x00001800 active_passive_mask Залог
0x00006000 adjfrm_mask Степень сравнения, краткость
0x07FF8000 part_of_speech_mask часть речи
0x18000000 animate_mask Одушевлённость


Дата добавления: 2019-09-30; просмотров: 472;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.01 сек.