Методы извлечения глубинных пластов экспертного знания

Большинство методов извлечения знаний не затрагивают их глубинную структуру, а отражают лишь поверхностную составляющую знаний эксперта. Для увеличения глубинных пластов экспертного знания используют методы психосемантики – науки, возникшей на стыке когнитивной психологии, психолингвистики, психологии восприятия и исследований индивидуального сознания. Психосемантика исследует структуры сознания через моделирование индивидуальной системы знаний и выявление тех структур сознания, которые могут не осознаваться (латентные, имплицитные или скрытые) [2].

· Основным методом экспериментальной психосемантики является метод реконструкции субъективных семантических пространств. В отличие от лингвистических методов, направленных на анализ текстов, отчужденных от субъекта, его мотивов и замыслов, психолингвистические методы обращаются непосредственно к испытуемому. Большинство из них связано с различными формами субъективного шкалирования. Перед испытуемым ставится задача оценить «сходство знаний» с помощью некоторой градуированной шкалы (0÷9), в результате исследователь получает численно представленные стандартизованные данные, поддающиеся статистической обработке.

В основе построения семантических пространств, как правило, лежит статистическая процедура (факторный анализ, многомерное шкалирование, кластерный анализ), позволяющая группировать ряд отдельных признаков описания в более емкие категории-факторы – построение концептов более высокого уровня абстракции. При геометрической интерпретации семантического пространства значение отдельного признака отображается как точка или вектор с заданными координатами внутри n-мерного пространства, координатами которого выступают выделенные факторы.

На основе получаемых методами психосемантики моделей можно проводить контроль знаний. Контроль структуры знаний проводится на основе сопоставления семантических пространств хороших специалистов и новичков. Степень согласованности семантических пространств будет определять уровень знаний новичка.

Построение семантического пространства обычно включает три этапа:

* Выбор и применение соответствующего метода оценки семантического сходства.

* Построение структуры семантического пространства на основе математического анализа полученной матрицы сходства.

* Идентификация, интерпретация выделенных факторных структур.

Поиск смысловых эквивалентов для выделенных структур.

· Многомерное шкалирование (МШ) – это математический инструментарий, предназначенный для обработки данных о попарных сходствах, связях или отношениях между анализируемыми объектами с целью представления этих объектов в виде точек некоторого координатного пространства. МШ используется для решения трех типов задач:

* поиск и интерпретация латентных (скрытых) переменных, объясняющих заданную структуру попарных расстояний (связей);

* верификация геометрической конфигурации системы анализируемых объектов в координатном пространстве латентных переменных;

* сжатие исходного массива данных с минимальными потерями в их информативности.

В основе данного подхода лежит интерактивная процедура субъективного шкалирования. Эксперту предлагается оценить сходство между различными элементами с помощью некоторой градуированной шкалы (0÷9, -2 ÷ +2). Мера близости между двумя объектами (i, j) – d_ij. Если d_ij такова, что большие значения соответствуют наиболее похожим объектам, то d_ij – мера сходства, в противном случае d_ij – мера различия.

· Большинство методов извлечения знаний ориентировано на верхние вербальные уровни знания. Необходим косвенный метод, ориентированный на выявление скрытых предпочтений практического опыта или операциональных составляющих опыта. Таким методом может служить метафорический подход. Метафора (от гр. перенесение) – образное выражение, употребление слова в переносном смысле на основе сходства, сравнения. В настоящее время доказано:

* метафора работает как фильтр, выделяющий посредством подбора адекватного объекта сравнения определенные свойства основного объекта;

* метафора имеет целью не сообщить что-либо о данном объекте, т.е. ответить на вопрос «что это?», а призвать к определенному отношению к нему, указать на некоторую парадигму (от гр. пример, образец – совокупность общепризнанных предпосылок, определяющих конкретное научное исследование), говорящую о том, как следует вести себя по отношению к данному объекту;

* объект сравнения выступает в метафоре не по своему прямому назначению, не просто «лев» как представитель фауны, а воплощение силы, ловкости, могущества.

Введение метафор – это некая игра, которая раскрепощает сознание эксперта и, как все игровые методики извлечения знаний, является хорошим катализатором трудоемких серий интервью с экспертом. Пример метафорической классификации языков программирования – мир животных (мир транспорта). При интерпретации удалось выявить такие латентные понятия и структуры, как «степень изощренности языка», «сила», «универсальность», «скорость». Полученные результаты в виде координатных пространств позволили выявить скрытые предпочтения экспертов и существенные характеристики объектов, выступающих в виде стимулов – «сила» языка С («слон»), скорость С⁺⁺ («яхта»), «старомодность» Фортрана («телега»).

Среди методов когнитивной психологии – науки, изучающей то, как человек познает и воспринимает мир, других людей и самого себя, как формируется целостная система представлений и отношений конкретного человека, особое место занимает метод репертуарных решеток. Репертуарная решетка представляет собой матрицу, которая заполняется либо самим испытуемым, либо экспериментатором в процессе обследования или беседы. Столбцу матрицы соответствует определенная группа объектов (элементов). В качестве элементов могут выступать люди, предметы, понятия, звуки, цвета – все, что интересует психодиагноста. Строки матрицы - конструкты. Конструкт – некоторый признак или свойство, по которому два или несколько объектов сходны между собой и, следовательно, отличны от третьего объекта или нескольких других объектов. Например, из трех элементов «диван», «кресло», «табурет» два элемента «диван», «кресло» выявляют конструкт «мягкость мебели». В процессе заполнения репертуарной решетки испытуемый должен оценить каждый элемент по каждому конструкту. Конструкты – не изолированные образования, они носят целостный характер. Элементы выбираются по определенным правилам так, чтобы они соответствовали какой-либо одной области и все вместе были связаны осмысленным образом (контекстом) аналогично репертуару ролей в пьесе. Изменяя репертуар элементов, можно «настраивать» методики на выявление конструктов разных уровней общности и относящихся к разным системам. Репертуарная решетка не всегда является матрицей в строгом смысле, так как элементы – не всегда числа, строки могут быть разной длины, матрица – непрямоугольного формата. Репертуарная решетка – это специфическая разновидность структурированного интервью. Анализ репертуарных решеток позволяет определить силу и направленность связей между конструктами респондента, выявить наиболее значимые (глубинные конструкты), лежащие в основе конкретных оценок и отношений.

Хранилища данных

Для устранения разрозненности, разнотипности, противоречивости данных используется концепция «хранилище данных» (ХД). ХД – предметно-ориентированная, интегрированная, некорректируемая, зависимая от времени коллекция данных, предназначенная для поддержки принятия управленческих решений. ХД должно предложить такую среду накопления данных, которая оптимизирована для выполнения сложных аналитических запросов управленческого персонала. Данные в хранилище не предназначены для модификации. Предметная ориентация означает, что данные объединены и хранятся в соответствии с теми областями, которые они описывают. Интегрированность определяет данные таким образом, чтобы они удовлетворяли требованиям всего предприятия. Некорректируемость заключается в том, что данные в ХД не создаются (поступают из внешних источников), не корректируются и не удаляются. Данные в ХД должны быть согласованы во времени.

При реализации ХД особое значение приобретают следующие процессы: извлечение, преобразование, анализ, представление. При извлечении данные приводятся к единому формату. Источники данных могут быть классифицированы по территориальному, административному расположению, степени достоверности, частоте обновляемости, количеству пользователей, секретности и используемым СУБД. Вся эта информация составляет основу словаря метаданных ХД. Словарь метаданных призван обеспечить корректную периодическую актуализацию ХД.

Инструментальные средства, реализующие аналитические методы анализа и обработки данных, классифицируются по способу представления данных:

* ИС, хранящие данные в реляционном виде, но имитирующие многоразмерность для пользователя;

* ИС, хранящие данные в многоразмерных базах;

* ИС, хранящие данные как в реляционном виде, так и в многоразмерных базах.

Помимо извлечения данных из БД для принятия решений актуален процесс извлечения знаний в соответствии с информационными потребностями пользователя. Если в ЭС основное внимание уделяется проблеме извлечения знаний от экспертов, то в данном случае знания извлекаются из БД.

С точки зрения пользователя в процессе извлечения знаний из БД должны решаться задачи преобразования данных (неструктурированных наборов чисел, символов) в информацию (описание обнаруженных закономерностей), информации в знания (значимые для пользователя закономерности), знаний в решения (последовательность шагов, направленная на достижение информационных потребностей пользователя).

Интеллектуальные средства извлечения знаний из БД позволяют выявить закономерности и вывести правила из них. Эти закономерности и правила можно использовать для принятия решений и прогнозирования их последствий. Существует несколько интеллектуальных методов выявления и анализа знаний: ассоциация, последовательность, классификация, кластеризация и прогнозирование. Ассоциацияимеет место в том случае, если несколько событий связаны друг с другом. Если существует цепочка связанных во времени событий, то говорят о последовательности. С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Кластеризация аналогична классификации, но отличается от нее тем, что сами группы еще не сформированы. С помощью прогнозированияна основе особенностей поведения данных оцениваются будущие значения непрерывно изменяющихся переменных.