Лингвистический аспект
Лингвистический аспект касается исследований языковых проблем, т. к. язык — это основное средство общения в процессе извлечения знаний.
Сразу же следует оговорить, что поскольку книга посвящена проблемам разработки ЭС, то область разработки естественно-языковых интерфейсов и весь спектр проблем, связанных с ней — лексических, синтаксических, семантических, прагматических и т. д. [Мальковский, 1985; Попов, 1982], не рассматривается.
В инженерии знаний можно выделить три слоя лингвистических проблем (рис. 2.11):
Ø "общий код";
Ø понятийная структура;
Ø cловарь пользователя.
Рис. 2.11.Лингвистический аспект извлечения знаний
"Общий код"
"Общий код" решает проблему языковых ножниц между профессиональной терминологией эксперта и обыденной литературной речью инженера по знаниям и включает следующие компоненты:
Ø общенаучная терминология;
Ø специальные понятия из профессиональной литературы;
Ø элементы бытового языка;
Ø неологизмы, сформированные за время совместной работы;
Ø профессиональный жаргон и др.
Детализируя схему общения (см. рис. 2.8), можно представить средства общения как два потока [Горелов, 1987], состоящих из компонентов V1 и V2 — соответственно языки, на которых говорят аналитик и эксперт (V1’ и V2’ — невербальные компоненты). Различия языков V1 и V2 и обуславливает "языковый барьер" или "языковые ножницы" в общении инженера по знаниям и эксперта.
Эти два языка являются отражением "внутренней речи" эксперта и аналитика, поскольку большинство психологов и лингвистов считают, что язык — это основное средство мышления, наряду с другими знаковыми системами "внутреннего пользования" (универсальный семантический код — УСК [Мартынов. 1977], языки "смысла" [Мельчук, 1974], концептуальные языки [Шенк, 1980] и др.).
Язык аналитика V1 состоит из трех компонентов:
Ø общенаучной терминологии из его "теоретического багажа";
Ø терминов предметной области, которые он почерпнул из специальной литературы в период подготовки;
Ø бытового разговорного языка, которым пользуется аналитик.
Язык эксперта V2 включает:
Ø общенаучную терминологию;
Ø специальную терминологию, принятую в предметной области;
Ø бытовой язык;
Ø неологизмы, созданные экспертом за время работы, т. е. его профессиональный жаргон.
Если считать, что бытовой и общенаучный язык у двух участников общения примерно совпадает (хотя реально объем второго компонента у эксперта существенно больше), то некоторый общий язык или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из потоков, представленных на рис. 2.12.
В дальнейшем этот общий код преобразуется в некоторую понятийную (семантическую) сеть, которая является прообразом поля знаний предметной области.
Выработка общего кода начинается с выписыванием аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла. Фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов (слов, означающих одно и то же). Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, т. е. по понятийной близости (это уже первый шаг структурирования знаний).
На этом этапе аналитик должен с большим вниманием отнестись ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых проблем и терминологию. Освоение аналитиком языка предметной области — первый рубеж на подступах к созданию адекватной базы знаний.
Рис. 2.12.Структура общего кода
Рис. 2.13 дает представление о процессе неоднозначности интерпретации терминов двумя специалистами. В семиотике, науке о знаковых системах, проблема интерпретации является одной из центральных. Интерпретация связывает "знак" и "означаемый предмет". Только в интерпретации знак получает смысл. Так, на рис. 2.13 слова "прибор X" для эксперта означают некоторую конкретную схему, которая соответствует схеме оригинала прибора, а в голове начинающего аналитика слова "прибор X" вызывают пустой образ или некоторый черный ящик с ручками
Рис. 2.13.Неоднозначность интерпретации
Внимание к лингвистическому аспекту проблемы извлечения знаний способствует сближению образа 1 с образом 2 и интерпретации I1 с интерпретацией I2, а слова "прибор X" перейдут в действительно "общий" код.
Дата добавления: 2021-12-14; просмотров: 332;