Практикум по инженерии знаний


Текстологические методы

С извлечением знаний из текстов мы сталкиваемся ежедневно. Этот способ всегда должен предшествовать коммуникативным методам, подготавливая аналитика и знакомя его с терминологией и основными идеями.

Группа текстологических методов объединяет методы извлечения знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний.

В буквальном смысле текстологические методы не относятся к текстологии, науке, которая родилась в русле филологии с целью критического прочте­ния литературных текстов, изучения и интерпретации источников с узкоприкладной задачей — подготовки текстов к изданию. Сейчас текстология расширила свои границы включением аспектов смежных наук — герменевтики (науки правильного толкования древних текстов — библии, античных рукописей и др.), семиотики, психолингвистики и др.

Текстологические методы извлечения знаний, безусловно, используя основ­ные положения текстологии, отличаются принципиально от ее методологии, во-первых, характером и природой своих источников (профессиональная специальная литература, а не художественная, живущая по своим особым законам), а во-вторых, жесткой прагматической направленностью извлече­ния конкретных профессиональных знаний.

Среди методов извлечения знаний эта группа является наименее разрабо­танной, по ней практически нет никакой библиографии, поэтому дальнейшее изложение является как бы введением в методы изучения текстов в том виде, как это представляют авторы.

Понимание текста

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста. Сам текст на естественном языке является лишь проводником смысла, а замысел и знания автора лежат во вто­ричной структуре (смысловой структуре или макроструктуре текста), на­страиваемой над естественным текстом [Величковский, Капица, 1987], или, как сформулировано в [Фаин, 1987], "текст не содержит и не передает смысл, а является лишь инструментом для автора текста".

При этом можно выделить две такие смысловые структуры: m1 — смысл, который пытался заложить автор, это его модель мира, и М2 — смысл, который постигает читатель, в данном случае инженер по знаниям (рис. 2.18) в процессе интерпретации I. При этом Т— это словесное одеяние М1, т. е. результат вербализации V

Рис. 2.18.Схема извлечения знаний из специальных текстов

Сложность процесса заключается в принципиальной невозможности совпадения знаний, образующих М1 и М2, из-за того, что М1 образуется за счет всей совокупности представлений, потребностей, интересов и опыта автора, лишь малая часть которых находит отражение в тексте Т. Соответственно и М2 образуется в процессе интерпретации текста Т засчет привлечения всей совокупности профессионального и человеческого багажа читателя. Таким образом, два инженера по знаниям извлекут из одного Т две различные модели: Мi1и Мi2.

Встает задача: выяснить, за счет чего можно достичь максимальной адекватности М1 и М2, помня при этом, что понимание всегда относительно, поскольку это синтез двух смыслов "свое — чужое" [Бахтин, 1975].

Рассмотрим подробнее, какие источники питают модель М1 и создают текст Т. В [Сергеев, 1987] указаны два компонента любого профессионального текста:

Ø первичный фактический материал;

Ø система понятий, сложившаяся в данной предметной области в момент создания текста.

В дополнение к этому, на наш взгляд, помимо объективных данных экспе­риментов и наблюдений, в тексте обязательно присутствуют субъективные взгляды автора, результат его личного опыта, а также некоторые "общие места" или "вода". Кроме этого, любой текст содержит заимствования из других источников (методики, указания, документы, статьи, монографии) и т. д.

При извлечении знаний аналитику, интерпретирующему текст, приходится решать задачу декомпозиции этого текста на перечисленные выше компо­ненты для выделения истинно значимых для реализации базы знаний фраг­ментов. Сложность интерпретации профессиональных текстов заключается еще и в том, что любой текст приобретает смысл только в контексте, где под контекстом понимается окружение, в которое "погружен" текст.

Различают микро- и макроконтекст. Микроконтекст — это ближайшее ок­ружение текста. Так, предложение получает смысл в контексте абзаца, абзац в контексте главы и т. д. Макроконтекст — это вся система знаний, связан­ная с предметной областью (т. е. знания об особенностях и свойствах, явно не указанных в тексте). Другими словами, любое знание обретает смысл в контексте некоторого метазнания.

Теперь несколько подробнее о центральном звене процедуры извлечения знания — о понимании текста. Классическим в текстологии является опре­деление немецкого философа и языковеда Гумбольдта [Гумбольдт, 1984]:

"...Люди понимают друг друга не потому, что передают собеседнику зна­ки предметов, и даже не потому, что взаимно настраивают друг друга на точное и полное воспроизведение идентичного понятия, а потому, что взаимно затрагивают друг в друге одно и то же звено цепи чувственных представлений и зачатков внутренних понятий, прикасаются к одним и тем же клавишам инструмента своего духа, благодаря чему у каждого вспыхивает в сознании соответствующие, но не тождественные смыслы".

Говоря на языке современного языкознания, понимание — это формирование "второго текста", т. е. семантической структуры (понятийной структуры) [Сиротко-Сибирский, 1968]. В нашей терминологии — это попытка воссоз­дания семантической структуры М1 в процессе формирования модели М2, т. е. это первый шаг структурирования знаний.

Как происходит процесс понимания? Одна из возможных схем изложена в [Соколов, 1947; Соколов, 1968]. Мы внесли несколько изменений в эту схему в связи с тем, что в ней трактуется понимание текста на иностранном языке, а нас интересует понимание текста в новой для познающего субъекта предметной области. Кроме этого, дополним ее некоторыми положениями герменевтики. В целом полученная схема согласуется со стратегией изуче­ния всего нового.

Основными моментами понимания текста являются следующие шаги:

1. Выдвижение предварительной гипотезы о смысле всего текста (предуга­дывание).

2. Определение значений непонятных слов (т. е. специальной терминологии).

3. Возникновение общей гипотезы о содержании текста (о знаниях).

4. Уточнение значения терминов и интерпретация отдельных фрагментов текста под влиянием общей гипотезы (от целого к частям).

5. Формирование некоторой смысловой структуры текста за счет установления внутренних связей между отдельными важными (ключевыми) словами и фрагментами, а также за счет образования абстрактных понятий, обобщающих конкретные фрагменты знаний.

6. Корректировка общей гипотезы относительно содержащихся в тексте фрагментов знаний (от частей к целому).

7. Принятие основной гипотезы, т. е. формирование M2.

Следует отметить наличие как дедуктивной (от целого к частям), так и ин­дуктивной (от частей к целому) составляющей процесса понимания. Такой двуединый подход позволяет охватывать текст как смысловое единство особого рода с его основными признаками, такими как связность, цельность, законченность и др. [Сиротко-Сибирский, 1968].



Дата добавления: 2021-12-14; просмотров: 209;


Поиск по сайту:

Воспользовавшись поиском можно найти нужную информацию на сайте.

Поделитесь с друзьями:

Считаете данную информацию полезной, тогда расскажите друзьям в соц. сетях.
Poznayka.org - Познайка.Орг - 2016-2024 год. Материал предоставляется для ознакомительных и учебных целей.
Генерация страницы за: 0.009 сек.