Представление морфологической информации в модуле лемматизации отдела РРО ИПИИ
Способ представления МИ в модуле лемматизации РРО представлен в таблице 6.3. Он позволяет экономить 2 байта на каждой записи, по сравнению с модулем LINGUIST. Это является существенной экономией дискового пространства, так как предполагаемое количество записей – 2 млн. Кроме того, определение значений отдельных категорий МИ в модуле лемматизации не уступает в простоте и скорости модулю LINGUIST.
Для извлечения МИ, используются маски категорий МИ, приведенные в таблице 6.4.
Определение значения одной из категорий, например рода, происходит путём применения операции побитового «и» значения МИ и маски категорий. Если словоформе категория не присуща, то результат операции побитового «и» её МИ и маски этой категории будет равен 0. Приведем примеры извлечения значений отдельных категорий морфологической информации.
Пример 3. Определение значения категории «род» словоформы:
MI & rod_mask
Результат: _Masculine, _Feminine, _Neuter или 0.
Пример 4. Определение падежа слова, с морфологической информацией MI:
MI & case_mask
Результат – 0, если слово не склоняется по падежам (глагол, наречие и т.д), или одно из численных значений категории «падеж», приведенных в таблице 6.3.
Зная МИ слов предложения, можно проводить его синтаксический анализ (СА).
Таблица 6.3. – Представление МИ в модуле лемматизации
Значение | Категория | Значение | |
Числовое | Макроопределения | ||
0x00000001 | Nominative | Падеж | Именительный |
0x00000002 | _Genitive | Родительный | |
0x00000003 | _Dative | Дательный | |
0x00000004 | _Accusative | Винительный | |
0x00000005 | _Ablative | Творительный | |
0x00000006 | _Locative | Предложный | |
0x00000008 | _Masculine | Род | Мужской |
0x00000010 | _Feminine | Женский | |
0x00000018 | _Neuter | Средний | |
0x00000020 | _Singular | Число | Единственное |
0x00000040 | _Plural | Множественное | |
0x00000080 | _Past | Время, наклонение | Прошедшее |
0x00000100 | _FutureContinius | Настоящее/будущее | |
0x00000180 | _Imperative | Повелительное наклонение | |
0x00000200 | _FaceFir | Лицо | 1-е |
0x00000400 | _FaceSec | 2-е | |
0x00000600 | _FaceThi | 3-е | |
0x00000800 | _Active | Залог | Действительный |
0x00001000 | _Passive | Страдательный | |
0x00002000 | _ComparativeFormOfAdj | Степень сравнения, краткость | Сравнительная |
0x00004000 | _ExellentFormOfAdj | Превосходная | |
0x00006000 | _ShortFormOfAdj | Краткая форма | |
0x00008000 | _Verb | Часть речи | Глагол |
0x00010000 | _Participle | Причастие | |
0x00020000 | _Gerund | Деепричастие | |
0x00040000 | _Adjective | Прилагательное | |
0x00080000 | _Noun | Существительное | |
0x00100000 | _Pronoun | Местоимение | |
0x00200000 | _Numeral | Числительное | |
0x00400000 | _AdVerb | Наречие | |
0x00800000 | _Preposition | Предлог | |
0x01000000 | _Conjunction | Союз | |
0x02000000 | _Particle | Частица | |
0x04000000 | _Interjection | Междометие | |
0x08000000 | _Animate | Одушевленность | Одушевленное |
0x10000000 | _NotAnimate | Неодушевленное |
Таблица 6.4. – Маски категорий МИ
Числовое значение | Макроопределение | Маска категории |
0x00000007 | case_mask | Падеж |
0x00000018 | rod_mask | Род |
0x00000060 | count_mask | Число |
0x00000180 | time_mask | Время, наклонение |
0x00000600 | face_mask | Лицо |
0x00001800 | active_passive_mask | Залог |
0x00006000 | adjfrm_mask | Степень сравнения, краткость |
0x07FF8000 | part_of_speech_mask | часть речи |
0x18000000 | animate_mask | Одушевлённость |
Дата добавления: 2019-09-30; просмотров: 467;