Рассмотрим поглощение ультразвуковых волн. 7 глава
Эллипсы на рис. 13.7 ограничивают область изменения формантных частот для каждой из гласных. В табл. 13.1 приведены средние значения первых трех формантных частот для гласных, произнесенных мужскими голосами. Хотя существует большой разброс форматных частот, данные табл. 13.1 являются полезной характеристикой гласных. На рис. 13.8 приведен график зависимости частоты второй форманты от частоты первой форманты для гласных табл. 13.1.
Рис. 13.7. Зависимость частоты второй форманты от частоты первой форманты для гласных, произнесенных разными дикторами
Таблица 13.1
Средние значения формантных частот для гласных
Письменный символ | Транскрипция | Типичное слово | F1 | F2 | F3 |
1Y | i | beet | |||
1 | 1 | bit | |||
Е | ε | bet | |||
АЕ | æ | bat | |||
UH | А | but | |||
А | а | hot | |||
OW | t | bought | |||
U | U | foot | |||
ОО | и | boot |
Рис. 13.8. Треугольник гласных
В верхнем левом углу так называемого треугольника гласных расположена гласная «i»с низкой частотой первой форманты и высокой частотой второй форманты. В нижнем левом углу расположена гласная «u» с низкими частотами первой и второй формант.
В третьей вершине треугольника находится гласная «a» с высокой частотой первой форманты и низкой частотой второй форманты.
На рис. 13.4 приведены спектрограммы для всех гласных русского языка. На спектрограммах четко выделяются различные резонансные области, характерные для каждой гласной. Акустические колебания, иллюстрируя периодичность вокализованных звуков, позволяют также путем анализа одного периода выявить грубые спектральные характеристики. Например, акустическое колебание звука «И» состоит из низкочастотного затухающего колебания, на которое накладывается относительно высокочастотная составляющая. Это соответствует высокой энергии первой форманты и низкой энергии второй и третьей формант (см. рис. 13.4). Два резонанса, расположенных на близких частотах, расширяют спектр колебания. Наоборот, в акустическом колебании гласной «У» энергия высокочастотных составляющих относительно велика, что соответствует низкой энергии первой форманты. Подобный анализ может быть проведен для всех гласных, акустические колебания которых приведены на рис. 13.4.
Дифтонги.Дифтонгом называется участок речи, соответствующий одному слогу, который начинается с одной гласной и затем постепенно переходит в другую. На основе этого определения в американском произношении можно выделить шесть дифтонгов: |eI|(как в слове «bay»), |oU|(как в слове «boat»), |aU|(как в слове «how»), |oI|(как в слове «boy»), |aI|(как в слове «buy») и |ju|(как в слове «you»).
Дифтонги образуются путем плавного изменения формы голосового тракта. Для иллюстрации этого положения на рис. 13.9 показана вейвлет-плоскость слова «ЛИАНА». Дифтонги можно описать изменением во времени функции площади поперечного сечения голосового тракта от значения, соответствующего первой гласной, до значения, соответствующего второй гласной дифтонга.
Полугласные.Группу звуков, содержащих |w|, |l|, |r| и |y|описать довольно трудно. Эти звуки называются полугласными, так как по своим свойствам они напоминают гласные звуки. Обычно их характеризуют плавным изменением функции площади поперечного сечения голосового тракта между смежными фонемами. Таким образом, акустические характеристики этих звуков существенно зависят от произносимого текста.
Рис. 13.9. Вейвлет – плоскость дифтонга «ИА» в слове «Лиана», фонируемого женщиной 25 лет (справа шкала яркости логарифмическая)
Нам удобно рассматривать эти звуки как переходные, сходные с гласными. Их структура близка к структуре гласных и дифтонгов.
Носовые звуки.Носовые согласные |m|, |n| и |h| образуются при голосовом возбуждении. В полости рта при этом возникает полная смычка. Небная занавеска опущена, поэтому поток воздуха проходит через носовую полость и излучается через ноздри. Полость рта, которая вначале закрыта, акустически соединена с гортанью. Таким образом, рот служит резонансной полостью, в которой задерживается часть энергии при определенных частотах воздушного потока. Эти резонансные частоты соответствуют антирезонансам или нулям передаточной функции тракта речеобразования. Более того, для носовых согласных и гласных (т. е. гласных, расположенных перед носовыми согласными) характерны менее выраженные резонансы, чем для гласных. Расширение резонансных областей происходит из-за того, что внутренняя поверхность носового тракта напрягается и при этом носовая полость имеет большое отношение площади поверхности к площади поперечного сечения. Вследствие этого потери за счет теплопроводности и вязкости оказываются большими, чем обычно.
Три носовых согласных различаются местом расположения полной смычки. При произнесении звука |m|смычка образуется между губами, |n| - у внутренней стороны зубов и |h| - у небной занавески. Анализ спектрограммы показывает подъем спектра на низких частотах и отсутствие четко выраженных резонансов в диапазоне средних частот. Это происходит вследствие взаимного влияния резонансов и антирезонансов, образующихся за счет взаимодействия полостей носа и рта.
Глухие фрикативные звуки.Глухие фрикативные звуки |f|, |θ|, |s|, |sh| образуются путем возбуждения голосового тракта турбулентным воздушным потоком, возникающим в области смычки голосового тракта. Расположение смычки характеризует тип фрикативного звука. При произнесении звука |f| смычка возникает около губ, |θ| — около зубов, |s| — в середине полости рта и |sh| — в конце полости рта. Таким образом, система образования глухих фрикативных звуков содержит источник шума, расположенный в области смычки, которая разделяет голосовой тракт на две полости. Звуковая волна излучается через губы, т. е. через переднюю полость. Другая полость служит, как и в случае произнесения носовых звуков, для задерживания акустического потока, и таким образом в речеобразующем тракте возникают антирезонансы.
Звонкие фрикативные звуки.Звонкие фрикативные звуки |v|, |th|, |z| и |zh|являются прототипами глухих звуков |f|, |θ|, |s| и |sh|, соответственно. Место расположения смычки для этих пар звуков совпадает. Однако звонкие фрикативные отличаются от своих глухих аналогов тем, что при их образовании участвуют два источника возбуждения. При образовании звонких звуков голосовые складки колеблются и, таким образом, один источник возбуждения находится в гортани. Однако, так как в голосовом трактеобразуется смычка, поток воздуха в этой области становится турбулентным. Можно ожидать, что в спектре звонких фрикативных звуков будут две различные составляющие. Сходство структуры звонкого |v|и глухого |f| также легко установить путем сравнения соответствующих спектрограмм. Аналогично можно сравнить и спектрограммы звуков |sh| и |zh|.
Звонкие взрывные согласные.Звонкие взрывные согласные |b|, |d| и |g| являются переходными непротяжными звуками. При их образовании голосовой тракт смыкается в какой-нибудь области полости рта. За смычкой воздух сжимается и затем внезапно высвобождается. При произнесении звука |b|смычка образуется между губами, |d| — с внутренней стороны зубов, |g| — вблизи небной занавески. В течение периода, когда голосовой тракт полностью закрыт, звуковые волны практически не излучаются через губы. Однако слабые низкочастотные колебания излучаются стенками горла (эту область иногда называют голосовым затвором — «voice bar»). Колебания возникают из-за того, что голосовые складки могут вибрировать даже тогда, когда голосовой тракт перекрыт.
Так как структура взрывных звуков изменчива, их свойства существенно зависят от последующего гласного. В этой связи характер временных колебаний несет мало сведений о свойствах этих согласных.
Глухие взрывные согласные.Глухие взрывные согласные |р|, |t| и |k|подобны своим звонким прототипам |b|, |d| и |g|, но имеют одно важное отличие. В течение периода полного смыкания голосового тракта голосовые складки не колеблются. После этого периода, когда воздух за смычкой высвобождается, в течение короткого промежутка времени потери на трение возрастают из-за внезапной турбулентности потока воздуха. Далее следует период придыхания (шумовой воздушный поток из голосовой щели возбуждает голосовой тракт). После этого возникает голосовое возбуждение.
Аффрикаты и звук|h|. Остальными согласными американского произношения являются аффрикаты |tò| и |j| ифонема |h|. Глухая аффриката |tò| является динамичным звуком, который можно представить как сочетание взрывного |t| и фрикативного согласного |ò|. Звонкий звук |j| можно представить как сочетание взрывного |d| и фрикативного звука |zh|. Наконец, фонема |h|образуется путем возбуждения голосового тракта турбулентным воздушным потоком, т. е. без участия голосовых складок, но при возникновении шумового потока в голосовой щели. Структура звука |h| не зависит от следующей за ним гласной. Поэтому голосовой тракт может перестраиваться для произнесения следующей гласной в процессе произнесения звука |h|.
13.3. Акустическая теория речеобразования
В предыдущем параграфе дано качественное описание звуков речи и способов их образования. В настоящем параграфе изучим математическое описание речеобразования, которое служит основой анализа и синтеза речи.
13.3.1. Распространение звуков
Понятие звука почти совпадает с понятием колебаний. Звуковые волны возникают за счет колебаний. Они распространяются в воздухе или другой среде с помощью колебаний частиц этой среды. Следовательно, образование и распространение звуков в голосовом тракте подчиняется законам физики. В частности, основные законы сохранения массы, сохранения энергии, сохранения количества движения вместе с законами термодинамики и механики жидкостей применимы к сжимаемому воздушному потоку с низкой вязкостью, который является средой распространения звуков речи. Используя эти основные физические законы, можно составить систему дифференциальных уравнений в частных производных, описывающую движение воздуха в речеобразующей системе. Составление и решение этих уравнений весьма затруднительны даже для простых предположений относительно формы голосового тракта и потерь энергии в речеобразующей системе. Полная акустическая теория должна учитывать следующие факторы:
· изменение во времени формы голосового тракта;
· потери энергии на стенках голосового тракта за счет вязкого трения и теплопроводности;
· мягкость стенок голосового тракта; излучение звуковых волн через губы;
· влияние носовой полости;
· возбуждение голосового тракта.
Построение акустической теории, охватывающей все эти факторы, выходит за рамки этой главы и, кроме того, создание такой теории пока еще невозможно. Дадим обзор этих явлений.
Простейшая физическая интерпретация системы речеобразования показана на рис. 13.10,а. Голосовой тракт здесь представлен в виде неоднородной трубы с переменной во времени площадью поперечного сечения. Для колебаний, длина волны которых превышает
Рис. 13.10. Схематическое изображение голосового тракта (а), функция площади его поперечного сечения (б)и плоскость x—t для решения волнового уравнения (в).
размеры голосового тракта (это обычно имеет место на частотах ниже 4000 Гц), можно допустить, что вдоль продольной оси трубы распространяется плоская волна. Дальнейшее упрощение состоит в предположении отсутствия потерь на вязкость и теплопроводность как внутри воздушного потока, так и на стенках трубы. На основе законов сохранения массы, количества движения и энергии с учетом перечисленных допущений Портнов показал, что звуковые волны в трубе удовлетворяют следующим уравнениям:
; (13.1 а)
, (13.1 б)
где р=р(х, t) — звуковое давление как функция х и t; и=и(х, t) — скорость воздушного потока (volume velocity) как функция х и t; — плотность воздуха в трубе; с - скорость распространения звука.
А=А(х, t) — «функция площади», т. е. площадь поперечного сечения в направлении, перпендикулярном продольной оси трубы, как функция расстояния вдоль этой оси и времени. Сходная система уравнений была получена Сондхи.
Замкнутое решение уравнений (13.1) получить невозможно даже для простых форм трубы. Однако могут быть получены численные решения. Полное решение дифференциальных уравнений предполагает заданными давление и скорость потока длязначений х и t в области голосовой щели и около губ, т. е. для получения решения должны быть заданы граничные условия у обоих концов трубы. Со стороны губ граничные условия должны отображать эффект излучения, а со стороны голосовой щели — характер возбуждения.
Кроме граничных условий необходимо задать функцию площади А(х, t). На рис. 13.10,б показана функция площади для трубы рис. 13.10,а в некоторый момент времени. Для протяжных звуков можно предположить, что А(x, t) не изменяется во времени.
Однако это предположение неверно для непротяжных звуков. Точные измерения А(х, t) весьма затруднительны и могут быть выполнены только для протяжных звуков. Одним из методов проведения таки измерений является рентгеновская киносъемка. Фант провел несколько таких экспериментов, однако подобные измерения могут быть выполнены лишь в ограниченном объеме. Другим методом является вычисление формы голосового тракта по акустическим измерениям.Оба метода являются полезными для получения сведений о динамике речеобразования. Тем не менее, они не могут быть применены для получения описания речевых сигналов, например, в задачах связи. В работе Атала описаны результаты прямого измерения A(х, t) по сигналу речи, произнесенной в нормальных условиях.
Точное решение уравнений (13.1) является весьма сложным, даже если значение А(х, t) точно известно. Вместе с тем для изучения структуры речевого сигнала нет необходимости в точном и общем решениях этих уравнений.
13.3.2. Возбуждение звуков в голосовом тракте
В предыдущих разделах показано, как законы физики могут быть применены для описания распространения и излучения звуковых волн при речеобразовании. Для завершения изучения акустических аспектов речеобразования необходимо рассмотреть механизм возбуждения звуковых волн в речеобразующей системе. Напомним, что нами выделено три способа возбуждения:
1. Воздушный поток, нагнетаемый из легких, модулируется за счет вибраций голосовых складок. В результате возникает квазипериодический импульсный поток.
2. Воздушный поток из легких становится турбулентным при прохождении сужения голосового тракта. В результате возникает шумоподобное возбуждение.
3. Воздушный поток сжимается легкими перед смычкой голосового тракта. Далее этот воздух внезапно высвобождается при устранении смычки, вызывая шумоподобное возбуждение.
Подробная схема возбуждения звуковых волн включает подглоточную систему (легкие, бронхи, трахею), голосовую щель и голосовой тракт. Безусловно, полная модель описывает не только речеобразование, но и процесс дыхания. Первая попытка создания физической модели возбуждения звуков в речеобразующей системе сделана в работе Фланагана. В последующих исследованиях разработана более совершенная модель, которая подробно описывает процесс образования вокализованной и невокализованной речи. Эта модель основана на классической механике и механике жидкостей, и ее анализ выходит за рамки настоящей книги. Однако даже краткое качественное описание основных принципов возбуждения звуков оказывается весьма полезным для объяснения упрощенных моделей, которые широко используются при обработке речевых сигналов.
Вибрацию голосовых складок при образовании вокализованной речи можно упрощенно представить в виде модели рис. 13.11.
Рис. 13.11. Схематическое изображение речеобразующей системы
Голосовые складки преграждают путь воздушному потоку из легких в голосовой тракт. Когда звуковое давление в легких возрастает, воздушный поток, нагнетаемый из легких, проходи через отверстие между голосовыми складками. По мере нарастания воздушного потока давление в голосовой щели падает в соответствии с законом Бернулли. Вследствие натяжения голосовых складок и уменьшения давления в голосовой щели складки соединяются, образуя полное перекрытие. На рис. 13.11 это показано пунктирными линиями. В результате давление звукового потока перед складками начинает возрастать. Когда давление повышается до уровня, достаточного чтобы раздвинуть складки, голосовая щель раскрывается и воздушный поток вновь проходит в голосовой тракт. Давление в голосовой щели снова падает, и цикл повторяется. Таким образом, возникают условия, при которых голосовые складки начинают вибрировать. Частота вибрации складок зависит от давления потока, нагнетаемого из легких, массы и упругости голосовых складок, а также площади голосовой щели в свободном состоянии. Эти параметры могут быть приняты за основу создания модели голосовых складок. Такие модели должны учитывать и влияние голосового тракта, так как изменение звукового давления в голосовом тракте влияет на давление в голосовой щели. С точки зрения электрических аналогий голосовой тракт играет роль нагрузки генератор звукового возбуждения.
Структурная схема модели голосовых складок показана на рис. 13.12,а. Модель описывается системой сложных нелинейных дифференциальных уравнений. Объединение этих уравнений с дифференциальными уравнениями в частных производных, которыми описывается голосовой тракт, можно выполнить путем введения переменного во времени акустического сопротивления и индуктивности. Это сопротивление является функцией 1/АG(t).Например, когда AG(t)=0 (голосовая щель закрыта), сопротивление равно бесконечности, а скорость воздушного потока равна нулю. Таким образом, воздушный поток автоматически приобретает импульсный характер. Пример сигналов, формируемых в таких моделях, показан на рис. 13.13. В верхней части рисунка показана скорость воздушного потока, а в нижней — давление около губ для конфигурации голосового тракта, соответствующей гласной |a|.
Рис. 13.12. Схематическое изображение модели голосовых складок
Импульсная структура потока в голосовой щели согласуется с ранее изложенным материалом и с результатами высокоскоростной киносъемки. Естественно также, что затухающие колебания на выходе согласуются с изложенной трактовкой природы распространения звука в голосовом тракте.
Рис. 13.13. Скорость звукового потока в голосовой щели и звуковое давление около рта для гласного |a|
Так как площадь голосовой щели является функцией потока в голосовом тракте, система, изображенная на рис. 13.12,а, в общем случае нелинейна, хотя голосовой тракт и тракт излучения являются линейными. Взаимодействие между голосовым трактом и голосовой щелью невелико, и, как правило, им пренебрегают. При этом возникает возможность разделения систем возбуждения и преобразования звуковых волн и их линеаризации, как это показано на рис. 13.12,б. В этом случае uG(t)является источником скорости звукового потока (источником тока), сигнал которого показан в верхней части рис. 13.13. Акустическое сопротивление голосовой щели ZG можно получить путем линеаризации соотношений, связывающих давление и скорость воздушного потока в голосовой щели. Это сопротивление равно
ZG(W) = RG + iWLG, (13.2)
где RGи LGпостоянны. В этом случае идеальные граничные условия в частотной области U(0, W)=UG(W) следует заменить соотношением
U(0, W) = UG(W) - P(0, W)/ZG(W) (13.3)
Сопротивление источника оказывает значительное влияние на ширину резонансных областей речеобразующей системы. Наиболее сильно это влияние сказывается на ширине низкочастотной резонансной области. Это происходит потому, что ZG(W) растет с увеличением частоты так, что на высоких частотах ZGсоответствует разомкнутой цепи и весь поток от источника возбуждения проходит в голосовой тракт. Таким образом, вибрация стенок голосового тракта и потери в голосовой щели влияют на ширину низкочастотных формантных областей, в то время как потери на излучение, трение и теплопроводность влияют на ширину высокочастотных формантных областей.
Строго говоря, такие рассуждения неверны, так как в нелинейной системе малому по величине взаимодействию могут соответствовать существенные изменения выходного сигнала. По-видимому, именно это и проявляется при речеобразовании, что объясняет несовершенство современных систем обработки и передачи речи, в основу которых положено это «мелкое» упрощение.
Механизм образования невокализованных звуков основал на формировании турбулентного воздушного потока. Он формируется в месте сужения голосового тракта, когда скорость потока возрастает до определенного критического уровня. Такое возбуждение можно имитировать путем введения источника случайного нестационарного шума в область сужения. Мощность возбуждения должна зависеть от скорости потока в трубе. Это позволяет учесть потери на трение. При образовании фрикативных звуков параметры голосовых складок принимают такие значения, при которых складки не вибрируют. При образовании вокализованных фрикативных звуков голосовые складки вибрируют. когда скорость потока достигает критического значения, в месте сужения голосового тракта возникает турбулентный поток. Обычно это сказывается в моменты пиков скорости импульсного воздушного потока. При произнесении взрывных звуков голосовой тракт перекрывается на период времен, когда перед смычкой воздух, нагнетаемый из легких, сжимается. Голосовые складки в это время неподвижны. Далее воздух за смычкой внезапно высвобождается, поток приобретает большую скорость и, таким образом, возникает турбулентность.
13.3.3. Модели сигнала, основанные на акустической теории
Модели возбуждения, распространения и излучения звуковых волн описываются сложными уравнениями. Для определения речевого колебания на выходе эти уравнения можно разрешить при соответствующих значениях параметров возбуждения и голосового тракта. Естественно, что такой способ синтеза речи является наиболее эффективным. Однако во многих случаях такой сложный синтез оказывается неприемлемым. В этих ситуациях на основе акустической теории можно получить упрощенные модели синтеза. На рис. 13.14 показана общая структурная схема, по которой разработано множество моделей, применяемых при обработке речевых сигналов. Основной особенностью этих моделей является то, что источник возбуждения и голосовой тракт рассматриваются как отдельные системы.
Рис. 13.14. Модель речеобразования
Голосовой тракт с учетом излучения представлен линейной системой с переменными параметрами. Эта система отображает резонансные явления в голосовом тракте. Генератор возбуждения формирует сигнал либо в виде последовательности импульсов, либо в форме шумоподобного процесса. Параметры источника возбуждения и линейной системы выбираются так, что формируемый на выходе сигнал оказывается речеподобным. Если удается достигнуть этого, то полученная модель может быть использована при обработке речевого сигнала.
Вопросы для самопроверки
1. Какие существуют модели речеобразования?
2. Дайте определение фонемы?
3. Сколько фонем содержится в русском языке?
4. Дайте определение форманты?
5. Сколько формант участвуют в образовании вокализованной фонемы?
6. Сколько формант участвуют в образовании невокализованной фонемы?
7. Перечислите все дифтонги, существующие в русском языке.
8. Перечислите все дифтонги, существующие в английском языке.
9. Какова диагностическая ценность анализа цифровых записей сигнала голоса дифтонгов?
10. Какова диагностическая ценность спектрального анализа цифровых записей сигнала голоса дифтонгов?
11. Каков источник энергии процесса речеобразования?
12. Какие методы исследования голосового аппарата Вы знаете?
Глава 14. МОДЕЛИРОВАНИЕ БИОФИЗИЧЕСКИХ ПРОЦЕССОВ
Моделирование - это метод, при котором производится замена изучения некоторого сложного объекта (процесса, явления) исследованием его модели.
Модель – это более простой объект, используемый для изучения сложных систем, который сохраняет основные, наиболее существенные для данного исследования свойства. Этот упрощенный объект исследования, как по структуре, так и по сложности внутренних и внешних связей, обязательно должен отражать те основные свойства, которые интересуют исследователя.
В биофизике, биологии и медицине часто применяют -физические, биологические и математические модели.
14.1. Виды моделей. Фармакокинетическая модель
1. Биологическая модель.
Это биологические объекты, на которых изучаются свойства и закономерности биофизических процессов в реальных сложных объектах.
Например, опыт Уссинга, доказывающий существование активного транспорта, был проведен, как отмечалось выше, на биологической модели - коже лягушки, которая моделировала свойства биологической мембраны осуществлять активный транспорт.
2. Физическая модель.
Это модель, имеющая такую же природу, что и исследуемый объект.
Примером может служить липосома. Это физическая модель биологической мембраны. К физической модели относятся устройства, временно заменяющие органы живого организма -искусственная почка, аппарат искусственного дыхания и т, д.
3. Математические модели.
Это описание процессов в реальном объекте с помощью математических уравнений, как правило, дифференциальных.
Для этой цели широко используются ЭВМ.
Если процессы в модели имеют другую физическую природу чем оригинал, но описываются таким же математическим аппаратом, то такая модель называется аналоговой. Обычно в виде аналоговой модели используется электрические модели.
Например, аналоговой моделью сосудистой системы является электрическая цепь, состоящая из сопротивлений, емкостей и индуктивностей.
Результатом моделирования является получение новых данных о протекании изучаемого процесса, его свойствах.
Как правило, результат моделирования не дает исчерпывающих сведений об изучаемом объекте, но значительно углубляет наши знания о нём, позволяет проводить более сложные исследования.
В медико-биологических исследованиях часто используют метод «черного ящика». При этом определяют только входные и выходные параметры исследуемого объекта (их называют передаточными функциями) без учета его внутренней структуры и внутренних процессов.
Фармакокинетическая модель.Для изучения кинетики изменения концентрации вводимого в организм лекарственного препарата используется математическая модель, которая называется фармакокинетической.
Цель предлагаемой модели – найти законы изменения концентрации лекарственного препарата при различных способах и параметрах его введения и выведения.
Дата добавления: 2020-11-18; просмотров: 430;