Принципы построения систем речевого общения

Классификация речевых процессоров

В общем случае СРО строятся на базе специализированных речевых процессоров двух основных типов: анализаторов и синтезаторов.

Анализаторы. Эти устройства предназначены для преобразования речевых сигналов с микрофона (информационный поток сигналов 10⁵ бит/с) в последовательность цифровых кодов с существенно меньшим информационным потоком (10⁴—10¹ бит/с) и с обязательным сохранением передачи смыслового компонента речи. Анализаторы подразделяются на два основных класса: анализаторы сигналов и анализаторы сообщений.

В анализаторах сигналов сокращение информационного потока достигается только за счет учета акустических и статистических характеристик речевого сигнала без обращения к его смысловой функции.

В анализаторах речевых сообщений (распознавателях) осуществляется сжатие информационного потока за счет введения операции распознавания смысловых элементов речи (фразы, слова, морфемы, фонемы). Анализаторы речевых сообщений, в свою очередь, подразделяются на две группы: анализаторы ограниченного словаря и универсальные.

Анализаторы ограниченного словаря ориентированы на распознавание заданного конкретной задачей числа речевых команд (обычно порядка 10²), т. е. на идентификацию одной из произнесенных речевых команд словаря в виде номера команды (рис. 1,а). Распознавание осуществляется путем нелинейного во времени сопоставления эталонов команд с произносимой командой и выбора наиболее схожего эталона. В большинстве существующих анализаторов ограниченного словаря формирование эталонов осуществляется в процессе обучения на используемый словарь команд и голос диктора. Чаще всего процесс обучения состоит в однократном прочтении оператором всего словаря команд.

Рис. 1. Схема анализаторов речевых сообщений ограниченного словаря (а) и

универсального (б)

Еще одним ограничением большинства современных анализаторов этого типа является требование изолированного произнесения речевых команд, т. е. с паузами между словами от 0,3 до 1 с. Распознавание слитной речи даже ограниченного словаря— пока нерешенная научная проблема.

Универсальные анализаторы ориентированы на текущее распознавание полного набора смысловых элементов речи (фонем или морфем), из которых может быть составлено и в конечном счете распознано любое слово или слитно произнесенное речевое сообщение (рис. 1,6). Распознавание осуществляется лингвистическим процессором по правилам, заложенным в базе знаний.

Синтезаторы речи. Эти устройства предназначены для преобразования кодовой последовательности, поступающей от ЭВМ, ПЗУ или линии связи, в непрерывный речевой сигнал. Синтезаторы подразделяются на классы и группы по тем же признакам, что и анализаторы речи. Классам анализаторов речевых сигналов и сообщений соответствуют синтезаторы речевых сигналов и сообщений

Синтезаторы сообщений делятся по аналогичным признакам на синтезаторы ограниченного словаря — компиляторы и универсальные.

В компиляторах (рис. 2,а) любое сложное речевое сообщение может быть получено путем компиляции (простого соединения) элементов речи. Элементы речи начитываются диктором, соответствующие им сигналы компрессируются тем или иным способом, кодируются и записываются в ПЗУ. При синтезе речевого сообщения из ПЗУ закодированные речевые элементы считываются в нужной последовательности и одновременно восстанавливается речевой сигнал. Очевидной простотой компиляционного метода и его технической реализации объясняется большое количество сообщений о проектируемых и законченных разработках компиляторов к их применении.

Удовлетворительный по качеству компиляционный синтез речи возможен лишь при использовании в качестве элементов речи отдельных фраз либо словоформ, подставляемых в определенное место стандартной фразы. Попытки добиться высококачественного синтеза произвольного текста простой компиляцией словоформ, слогов или аллофонов не привели к положительным результатам. Все эти элементы речи тесно связаны внутри фразы. В слитной речи не существует аналогов этих элементов, произнесенных изолированно, и наоборот, речь из изолированно произнесенных элементов звучит ненатурально. В связи с этим подготовка словаря в компиляторах представляет собой самостоятельную и сложную проблему. Для успешного ее решение в каждом конкретном случае применения синтезатора многие фирмы за рубежом идут на создание специализированных центров проектирования речи, оснащенных соответствующим оборудованием и персоналом лингвистов-прикладников.

Рис. 2. Схемы синтезаторов речевых сообщений ограниченного словаря (а) и

универсального (б)

При разработке универсальных синтезаторов речевых сообщений стремятся получить функциональную модель речеобразования, адекватную реально существующим языковым и акустическим явлениям. На входе такой модели орфографический или фонемный текст произвольного содержания, на выходе— звучащая речь (рис. 2,6). По своему существу разрабатываемые в рамках данного подхода синтезаторы являются кибернетической функциональной моделью чтения текста человеком. В базе знаний синтезатора хранится не только информация об элементарных единицах речи (эталоны фонем и интонем), но и алгоритмические правила их модификации в зависимости от конкретного контекста звуковой реализации. Процесс применение этих правил к эталонам фонем и интонем для входного синтезируемого текста реализуется лингвистическим процессором. К настоящему времени качество речи и стоимость универсальных синтезаторов достигли коммерчески приемлемых показателей, и они начинают оказывать серьезную конкуренцию компиляторам в силу простоты применения, малого расхода памяти на элемент речи, неограниченности состава словаря синтезируемых сообщений.

Дата добавления: 2016-06-15; просмотров: 1480;