авторефераты диссертаций www.z-pdf.ru
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
 

0

Учреждение образования

БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ

УДК 004.934 + 004.4’277

АЗАРОВ

Илья Сергеевич

МЕТОДЫ АНАЛИЗА И СИНТЕЗА КВАЗИПЕРИОДИЧЕСКИХ

СИГНАЛОВ С НЕСТАЦИОНАРНЫМИ ПАРАМЕТРАМИ ДЛЯ

ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ В СИСТЕМАХ

МУЛЬТИМЕДИА

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

доктора технических наук

по специальности 05.13.17 – Теоретические основы информатики

Минск 2015

«Белорусский государственный

Научный консультант

Петровский Александр Александрович, доктор

технических наук, профессор, заведующий кафед-

рой электронных вычислительных средств учреж-

дения образования «Белорусский государственный

университет информатики и радиоэлектроники»

Официальные оппоненты:

Лобанов Борис Мефодьевич, доктор технических

наук, главный научный сотрудник ГНУ «Объеди-

ненный институт проблем информатики Нацио-

нальной академии наук Беларуси»

Ронжин Андрей Леонидович, доктор техниче-

ских наук, заместитель директора по научной ра-

боте Федерального государственного бюджетного

учреждения науки «Санкт-Петербургский инсти-

тут информатики и автоматизации Российской

академии наук»

Голенков Владимир Васильевич, доктор техни-

ческих наук, профессор, заведующий кафедрой

интеллектуальных информационных технологий

учреждения образования «Белорусский государст-

венный университет информатики и радиоэлек-

троники»

Оппонирующая организация

Белорусский государственный университет

Научно

Защита состоится 10 декабря 2015 г. в 14.00 на заседании совета по защите дис-

сертаций Д 02.15.04 при учреждении образования «Белорусский государственный

университет информатики и радиоэлектроники» по адресу: 220013, г. Минск, ул.

П. Бровки, 6, корп. 1, ауд. 232, тел. 293-89-89, e-mail: dissovet@bsuir.by.

С диссертацией можно ознакомиться в библиотеке учреждения образования «Бело-

русский государственный университет информатики и радиоэлектроники».

Автореферат разослан «______________» 2015 г.

1

Работа выполнена в учреждении образования

университет информатики и радиоэлектроники».

Ученый секретарь совета

по защите диссертаций,

кандидат технических наук, доцент

П.Ю. Бранцевич

необходимо развитие

структурирования ре-

результатов. Для преодоления имеющихся ограничений

специальных методов машинного обучения, отображения и

чевых данных.

Многие существующие проблемы анализа и синтеза речи остаются нере-

шенными, что в значительной мере обусловлено нестационарностью моделируе-

мого процесса. Известные параметрические модели, основывающиеся на перио-

дических функциях кратной частоты, являются недостаточными для обеспечения

качественной реконструкции сигнала, поскольку предполагают стационарность

параметров в пределах интервала наблюдения. В настоящее время, благодаря рос-

ту производительности вычислительных платформ, технические возможности

значительно расширились и позволяют проектировать системы цифровой обра-

ботки речи, использующие более сложные методы моделирования. В связи с этим

разработка способов описания речевого сигнала как непрерывного процесса не-

стационарными («мгновенными») параметрами приобретает высокую теоретиче-

скую и практическую ценность. Прикладное значение параметрического модели-

рования в сочетании с биоинспирированными принципами обработки возрастает в

контексте задач шумоподавления и повышения разборчивости речи.

Таким образом, параметрическое моделирование речевых сигналов является

актуальным научным направлением, позволяющим решать фундаментальные про-

блемы современной информатики, связанные с приложениями мультимедиа. Для

дальнейшего развития данного направления требуется создание методологических

основ обработки нестационарных квазипериодических сигналов, включающих

теоретические методы и алгоритмические средства извлечения, интерпретации и

обработки речевой информации, позволяющие проектировать прикладные систе-

мы цифровой обработки речи с высоким качеством реконструированного сигнала.

1

КРАТКОЕ ВВЕДЕНИЕ

Современные задачи обработки речи связаны с моделированием голосовых

особенностей диктора и предполагают параметрическое описание высокоуровне-

вых речевых характеристик. Решение задач верификации и идентификации дикто-

ра, конверсии голоса, исправления акцента, а также распознавания и изменения

эмоционального состояния подразумевает моделирование процесса речеобразова-

ния как сложного психофизиологического феномена с выделением голоса диктора

в качестве отдельной части модели. Учитывая высокую сложность объекта, из-

вестные исследования в этой области имеют больше теоретический, чем приклад-

ной характер и недостаточны для получения удовлетворительных практических

2

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Связь работы с крупными научными программами и темами

Диссертационная работа выполнена в соответствии с научно-техническими

заданиями и планами работ кафедры «Электронные вычислительные средства»,

научно-исследовательской лаборатории 3.1 «Мультипроцессорные системы ре-

ального времени» учреждения образования «Белорусский государственный уни-

верситет информатики и радиоэлектроники» и проводилась в соответствии с госу-

дарственными научными темами, выполненными в рамках бюджетного финанси-

рования Республики Беларусь, а также в соответствии с перечисленными между-

народными научными проектами и хозяйственными договорами с предприятиями

Российской Федерации:

1. Системы параметрического кодирования аудио- и речевых сигналов: ме-

тоды синтеза и анализа, реализация на реконфигурируемой вычислительной плат-

форме / Белорусский республиканский ФФИ; рук. проф. А.А. Петровский. –

Минск, 2010. – № ГР 20081895. – 1.04.2008–31.03.2010 гг.

2. Конверсия голоса на основе гармонического преобразования для приме-

нения в системах мультимедиа / Министерство образования Республики Беларусь;

рук. проф. А.А. Петровский. – Минск, 2009. – № ГР 20090518. – 2009 г.

3. Методы и мобильные вычислительные структуры обработки сигналов для

медицинских приложений / Белорусский республиканский ФФИ, Министерство

образования Республики Беларусь; рук. канд. техн. наук И.С. Азаров. – Минск,

2014. – № ГР 20143339. – 23.05.2014–31.03.2016 гг.

4. Синтез неравнополосных банков фильтров и их быстрое прототипирова-

ние на структуры процессоров слуховых аппаратов / Белорусский республикан-

ский ФФИ, Министерство образования Республики Беларусь; рук. проф. А.А.

Петровский. – Минск, 2011. – № ГР 20114547. – 15.04.2011–31.03.2013 гг.

5. Разработка алгоритмов, программного обеспечения и документации по

параметрической обработке речи на основе мгновенных гармонических парамет-

ров сигнала / ООО «БИФРИ»; рук. проф. А.А. Петровский. – Минск, 2012. –

ХД 12-1111К от 24.10.2012 г.

Цель и задачи исследования

Целью диссертационной работы является разработка методов анализа и син-

теза квазипериодических сигналов с нестационарными параметрами и создание на

3

их основе соответствующих алгоритмических средств извлечения, интерпретации

и обработки речевой информации для проектирования новых систем мультимедиа.

Для достижения поставленной цели необходимо решить следующие задачи:

1. Создать методологические подходы для параметрического описания, об-

работки и реконструкции квазипериодических сигналов с нестационарными пара-

метрами, а также создать алгоритмическую основу для практического использова-

ния разработанных подходов в прикладных системах цифровой обработки речи.

При этом осуществляется разработка методов цифровой обработки нестационар-

ных квазипериодических сигналов для задач:

– декомпозиции вокализованного речевого сигнала на квазипериодические

составляющие с ограниченным спектром, учитывая частотные модуляции основ-

ного тона, для реконструкции обработанного сигнала с высоким субъективным

качеством;

– оценки контура мгновенной частоты основного тона с устойчивостью к

модуляциям основного тона для реализации на современных вычислительных

средствах;

– параметрического описания нестационарных квазипериодических состав-

ляющих сигнала периодическими функциями с изменяющимися параметрами: ам-

плитудой, частотой и фазой;

– выделения специфических речевых характеристик, таких как признаки пе-

риодичности и формы огибающей амплитудного спектра, из нестационарных па-

раметров модели квазипериодического сигнала;

– моделирования (изменения) просодики речевого сигнала;

– синтеза речевого сигнала из параметрического описания с высоким субъ-

ективным качеством реконструкции.

2. Разработать методы моделирования высокоуровневых речевых характери-

стик, таких как режимы фонации и голос диктора. При этом осуществляется раз-

работка следующих методов моделирования речевых сигналов для задач:

– формирования характеристических векторов на основе нестационарных

параметров синусоидальной модели сигнала и использования их в алгоритмах

машинного обучения с обеспечением восстановления обработанного речевого

сигнала с высоким субъективным качеством реконструкции;

– машинного обучения для моделирования персонального голоса диктора на

основе искусственных нейронных сетей (ИНС).

3. Разработать методы шумоподавления на основе параметрического моде-

лирования сигнала. При этом осуществляется разработка следующих методов об-

работки для задач:

4

– автоматической оценки параметров нестационарных помех, создаваемых

роторными машинами, и их подавления;

– биоинспирированной параметрической обработки речевых сигналов,

включающей подавление широкого класса помех путем фильтрации в модуляци-

онной области.

4. Внедрить и апробировать полученные методы и алгоритмы параметриче-

ской обработки речевых сигналов в приложениях заказчика.

Научная новизна

Научная новизна заключается в развитии методологических основ обработ-

ки нестационарных квазипериодических сигналов для проектирования систем

цифровой обработки речи с высоким качеством реконструкции сигнала, включая

теоретические методы и алгоритмические средства извлечения, интерпретации и

обработки речевой информации. Разработаны методы обработки речевых сигна-

лов на основе моделей с нестационарными параметрами, открывающие широкие

возможности для создания новых и совершенствования существующих систем об-

работки речевой информации, включая системы кодирования, моделирования

просодики, изменения голоса, синтеза речи по тексту, повышения разборчивости и

шумоподавления.

1. Предложена концепция создания систем обработки речевой информации,

базирующаяся на представлении речи в виде суммы непрерывных квазипериоди-

ческих узкополосных составляющих, позволяющая синтезировать обработанный

речевой сигнал без эффекта наложения спектров.

2. Разработан метод декомпозиции речевого сигнала на квазипериодические

составляющие, отличающийся повышенной устойчивостью к быстрым изменени-

ям частоты основного тона и возможностью описания квазипериодических со-

ставляющих синусоидальными функциями с нестационарными параметрами. Ме-

тод основан на узкополосной фильтрации, согласованной с контуром частоты ос-

новного тона, и позволяет реконструировать квазипериодическую часть сигнала с

высокой точностью (соотношение сигнал/шум реконструированной квазиперио-

дической части сигнала более 51 дБ).

3. Разработан метод аппроксимации сигнала комплексными затухающими

экспонентами с нестационарными параметрами, отличающийся тем, что оценка

параметров экспонент относится к определенному моменту времени и выполняет-

ся из производных сигнала. По сравнению с известными алгоритмами разработан-

ный метод является устойчивым к аддитивному белому шуму (процент грубых

ошибок оценки параметров менее четырех для соотношения сигнал/шум 20 дБ). В

5

отличие от алгоритмов разделения энергии на основе нелинейного оператора Тай-

гера–Кайзера разработанный метод обобщен для смеси произвольного числа ком-

плексных экспонент.

4. Разработан алгоритм оценки контура частоты основного тона на основе

квазипериодической модели сигнала с нестационарными параметрами, отличаю-

щийся высоким частотно-временным разрешением, устойчивостью к быстрым из-

менениям частоты основного тона (до 2 Гц/мс) и аддитивным шумам (соотноше-

ние сигнал/шум до 5 дБ).

5. Разработан метод оценки коэффициентов линейного предсказания из па-

раметров квазипериодической модели сигнала с нестационарными параметрами,

отличающийся тем, что он позволяет оценивать форму изменяющейся огибающей

амплитудного спектра нестационарных квазипериодических сигналов при помощи

линейных предсказателей высоких порядков (среднеквадратичная ошибка состав-

ляет менее 0,06 дБ).

6. Разработан метод параметрической обработки речевых сигналов для из-

менения просодических характеристик на основе модификации нестационарных

параметров гармоник частоты основного тона при помощи временного масштаби-

рования и узкополосной фильтрации, обеспечивающий эффективную реализацию

вычислений за счет прореживания параметров и высокое субъективное качество

реконструкции за счет ослабления эффекта наложения спектров (средние оценки

экспертов по шкале от 1 до 5 превышают 4,5).

7. Разработан метод конверсии голоса с текстозависимым способом форми-

рования функции конверсии на основе ИНС с кусочно-линейной функцией акти-

вации, отличающийся высоким субъективным качеством реконструкции сигнала

за счет использования изменяющихся состояний фонации и разделения парамет-

ров речевого сигнала на статические и динамические (средние оценки экспертов

по шкале от 1 до 5: узнаваемость более 4, натуральность более 3,5).

8. Разработан метод конверсии голоса с текстонезависимым способом фор-

мирования функции конверсии на основе ИНС с кусочно-линейной функцией ак-

тивации, отличающийся тем, что в результате обучения ИНС формируется персо-

нальная модель голоса диктора, использующая коды пониженной размерности с

фонетической привязкой.

9. Разработан метод очистки речевых сигналов от аддитивных шумов ротор-

ных машин, отличающийся тем, что квазипериодические и стохастические состав-

ляющие помехи обрабатываются согласованно с частотой вращения ротора, при-

чем частота вращения оценивается непосредственно из зашумленного сигнала без

использования тахометра.

6

10. Разработан биоинспирированный метод очистки и повышения разборчи-

вости зашумленных речевых сигналов, позволяющий подавлять широкий класс

помех, отличающийся низким уровнем слышимых артефактов за счет применения

синусоидальной модели сигнала с нестационарными параметрами.

Положения, выносимые на защиту

1. Концепция создания систем обработки речевой информации, согласно ко-

торой возможен синтез обработанного речевого сигнала без эффекта наложения

спектров.

2. Метод декомпозиции речевого сигнала на квазипериодические состав-

ляющие, позволяющий разделять гармоники изменяющегося основного тона и

выполнять их локальное описание в виде периодических функций с нестационар-

ными параметрами.

3. Метод аппроксимации сигнала комплексными затухающими экспонента-

ми, позволяющий выполнять оценку нестационарных параметров смеси квазипе-

риодических составляющих сигнала из его производных в заданный момент вре-

мени.

4. Алгоритм оценки контура частоты основного тона на основе квазиперио-

дической модели сигнала с нестационарными параметрами, позволяющий выпол-

нять анализ вокализованных звуков с высоким частотно-временным разрешением.

5. Метод оценки коэффициентов линейного предсказания из параметров

квазипериодической модели сигнала с нестационарными параметрами, позволяю-

щий аппроксимировать изменяющуюся огибающую амплитудного спектра без

эффекта временного и частотного усреднения предсказателями высоких порядков.

6. Метод параметрической обработки сигнала, включающий оценку, моди-

фикацию и синтез нестационарных параметров модели, позволяющий создавать

высококачественные звуковые эффекты, такие как изменение просодики речевого

сигнала и коррекция певческого голоса, отличающийся тем, что обработка сигнала

выполняется согласованно с контуром частоты основного тона при помощи вре-

менного масштабирования.

7. Метод конверсии голоса с текстозависимым способом формирования

функции конверсии на основе ИНС с кусочно-линейной функцией активации, ис-

пользующей изменяющиеся состояния фонации и разделение параметров речевого

сигнала на статические и динамические для ослабления эффекта усреднения кон-

вертированных параметров.

8. Метод конверсии голоса с текстонезависимым способом формирования

функции конверсии на основе ИНС, построенной по принципу автоматического

7

кодера, создающей персональную модель голоса диктора путем формирования

пространства кодов пониженной размерности.

9. Метод подавления шумов роторных машин, обеспечивающий возмож-

ность речевой коммуникации в условиях агрессивных нестационарных помех.

10. Биоинспирированный метод очистки и повышения разборчивости за-

шумленных речевых сигналов, основанный на обработке нестационарных пара-

метров модели сигнала в модуляционной области.

Личный вклад соискателя ученой степени

Результаты, приведенные в диссертации, получены соискателем лично.

Вклад научного консультанта, руководителя научно-исследовательской лаборато-

рии 3.1 «Мультипроцессорные системы реального времени», доктора технических

наук, профессора А.А. Петровского связан с постановкой целей и задач исследо-

ваний, определением возможных путей решения и обсуждением результатов ис-

следований, проводимых автором. В публикациях с соавторами вклад докторанта

определяется рамками излагаемых в диссертации результатов.

Апробация диссертации и информация об использовании ее результатов

Основные теоретические результаты диссертационной работы докладыва-

лись и обсуждались на 18 международных и республиканских научных конферен-

циях: International IEEE Symposium on Circuits and Systems (ISCAS’10) – Paris,

2010; IEEE Signal Processing Algorithms, Architectures, Arrangements, and Applica-

tions Conference (SPA’10) – Poznan, 2010; International IEEE Conference on Acous-

tics, Speech, and Signal Processing (ICASSP’10) – Prague, 2010; XXIV сессия Рос-

сийского акустического общества – Саратов, 2011; XI Международная научно-

практическая конференция «Искусственный интеллект. Интеллектуальные систе-

мы» (ИИ–2011) – Кацивели, Украина, 2011; 20th European IEEE Signal Processing

Conference (EUSIPCO’12) – Bucharest, 2012; the 14th Annual Conference of the Inter-

national Speech Communication Association (INTERSPEECH’13) – Lyon, 2013; 15-я

международная конференция «Цифровая обработка сигналов и ее применение»

(DSPA’13) – Москва, 2013; the 2nd Belarus-Korea Forum «Science. Innovation. Pro-

duction» – Minsk, 2013; the 39th International IEEE Conference on Acoustics, Speech

and Signal Processing (ICASSP’14) – Florence, 2014; the 22nd European IEEE Signal

Processing Conference (EUSIPCO’14) – Lisbon, 2014; 16-я международная конфе-

ренция «Цифровая обработка сигналов и ее применение» (DSPA’14) – Москва,

2014; Международная научно-техническая конференция, приуроченная к 50-

8

летию МРТИ–БГУИР – Минск, 2014; VIII Международная научно-техническая

конференция «МЕДЭЛЕКТРОНИКА–2014» – Минск, 2014; Open Semantic Tech-

nologies for Intelligent Systems (OSTIS’15) – Minsk, 2015; the 14th Call Center World

Forum (CCWF’15) – Moscow, 2015; the 138th AES Convention – Warsaw, 2015; the

16th Annual Conference of the International Speech Communication Association (IN-

TERSPEECH’15) – Dresden, 2015.

Опубликование результатов диссертации

По материалам диссертации опубликованы 52 печатные работы, в том числе 2

монографии, 2 главы в монографиях, 24 статьи в рецензируемых научных журна-

лах, 24 статьи в сборниках материалов научных конференций. Результаты диссер-

тационной работы включены в 6 отчетов по НИР.

Общий объем публикаций по теме диссертации, соответствующий пункту 18

Положения о присуждении ученых степеней и присвоении ученых званий в Рес-

публике Беларусь, составляет около 50 авторских листов.

Структура и объем диссертации

Диссертационная работа состоит из введения, общей характеристики работы,

семи глав, разбитых на две части, заключения, библиографического списка и трех

приложений. Общий объем диссертационной работы составляет 244 страницы, из

них 134 страницы основного текста, 79 рисунков на 47 страницах, 9 таблиц на 7

страницах, библиография из 285 наименований, включая 52 публикации автора, на

26 страницах и три приложения на 30 страницах.

ОСНОВНАЯ ЧАСТЬ

Во введении обоснована актуальность темы диссертационной работы, дана

краткая характеристика исследуемых вопросов, определена область, основные на-

правления, цель и задачи исследования.

Первая глава посвящена анализу существующих способов параметрическо-

го моделирования речевых сигналов и его практического применения в системах

мультимедиа. Рассмотрены наиболее актуальные приложения: синтез речи по тек-

сту, создание различных звуковых эффектов (изменение просодики, конверсия го-

лоса), кодирование речи, повышение разборчивости речи и шумоподавление. По-

казана взаимосвязь перечисленных приложений и их зависимость от эффективно-

сти моделирования речи в различных аспектах: 1) моделирование сигнала в общем

9

виде, используя отсчеты во временной или частотной области; 2) моделирование

характеристик сигнала, являющихся специфическими для речи и связанных с про-

цессом фонации (частота основного тона, последовательность возбуждения и оги-

бающая амплитудного спектра); 3) моделирование высокоуровневых речевых ха-

рактеристик (голос, акцент, экспрессия, фонетическое и семантическое содержа-

ние речевого сообщения). Для каждого из рассматриваемых аспектов проведен

анализ существующих средств моделирования, показаны их возможности и ос-

новные ограничения.

Среди подходов, использующих синусоидальное описание сигнала, в на-

стоящее время наиболее перспективными являются смешанные (гибридные) мо-

дели, учитывающие возможность разных режимов фонации с участием голосовых

связок (вокализованная речь) и без участия голосовых связок (невокализованная

речь). Вокализованная речь рассматривается как квазипериодический (детермини-

стский) сигнал, а невокализованная – как непериодический (стохастический).

Наиболее известной среди существующих является модель «гармоники+шум», ко-

торая используется для создания речевых интерфейсов, распознавания речи, син-

теза речи по тексту, конверсии голоса, шумоподавления, повышения разборчиво-

сти, коррекции акцента и многих других приложений. Ее преимуществом является

теоретическая возможность моделирования вокализованных звуков в виде непре-

рывных функций с изменяющимися параметрами, что позволяет получить эффек-

тивное описание процесса фонации и избежать разрыва фаз смежных фрагментов

при синтезе речи. Недостатком модели является высокая сложность алгоритмов

анализа и синтеза, обусловленная нестационарностью речевого сигнала. Так как

вокализованная речь состоит из квазипериодических компонент с изменяющимися

параметрами, для анализа необходимо использование либо цифровых фильтров с

изменяющимися характеристиками, либо специальных частотно-временных пре-

образований («Фан-Чирп» и «гармоническое преобразование»), позволяющих

производить оценку периодических составляющих с частотной модуляцией. Кро-

ме этого, необходимым условием для успешного применения модели является

точная оценка контура частоты основного тона и автоматическое разделение сиг-

нала на детерминистскую и стохастическую составляющие при помощи детекто-

ров периодичности.

Эффективность представления речевого сигнала в виде суммы периодиче-

ских функций обусловлена квазипериодичностью вокализованных звуков, созда-

ваемых колебаниями голосовых связок. Поскольку не все речевые звуки являются

вокализованными, используется гибридное описание, включающее периодиче-

(1)

�� �� =

A�� �� cos���� �� + ��(��),

��=1

где A��(��) – мгновенная амплитуда k-й синусоиды; К – число синусоид; ����(��)

мгновенная фаза k-й синусоиды; ��(��) – непериодическая часть сигнала.

Мгновенная фаза ����(��) (рад) и мгновенная частота ����(��) (Гц) соотносятся

следующим образом:

��

2������ ��

����

��=0

+ ���� 0,

(2)

���� �� =

где ���� – частота дискретизации; ����(0) – начальная фаза k-й синусоиды.

Существующие методы моделирования, используемые в системах мульти-

медиа, имеют принципиальное ограничение, связанное с предположением о ло-

кальной стационарности моделируемого процесса, которое существенно снижает

качество реконструкции сигнала. Обоснована необходимость разработки способов

анализа и синтеза нестационарных сигналов, применимых для непрерывного опи-

сания квазипериодических последовательностей с помощью синусоидальных

(экспоненциальных) функций с изменяющимися параметрами.

Показано, что на основе модели сигнала с нестационарными параметрами

может быть обеспечена высокая точность оценки специфических речевых харак-

теристик, таких как частота основного тона, огибающая амплитудного спектра и

последовательность возбуждения. Однако для этого необходима разработка спе-

циальных методологических средств, включающих способы разделения вокализо-

ванного речевого сигнала на отдельные однокомпонентные составляющие, спосо-

бы определения периодичности и классификации типа возбуждения сигнала, спо-

собы оценки быстро изменяющейся частоты основного тона, обладающие высо-

кой разрешающей способностью и устойчивостью к аддитивным шумам.

Для оценки огибающей амплитудного спектра возможно использование ли-

нейного предсказания, однако необходима разработка способов анализа, обла-

дающих более высокой разрешающей способностью и не ухудшающих оценок

при повышении порядка предсказателя. Для более эффективного моделирования

сигнала возбуждения (особенно для смешанного возбуждения и сложных режимов

фонации, таких как глоттализация), требуется разработка специальной синусои-

дальной модели и соответствующих средств анализа/синтеза.

10

скую (либо квазипериодическую) и непериодическую составляющую, согласно

которому дискретный сигнал ��(��) записывается в виде соотношения

��

11

Основой создания многих современных систем мультимедиа являются ме-

тоды моделирования индивидуальных особенностей голоса и манеры произноше-

ния (акцента). В связи с этим необходимо развитие способов моделирования голо-

са при помощи машинного обучения. Другим приоритетным направлением разви-

тия современных речевых технологий является очистка речевого сигнала от шума,

а также повышение разборчивости в шумовой обстановке. Для расширения облас-

ти применения существующих способов шумоподавления необходима разработка

средств очистки речи от сложных помех на основе моделей с нестационарными

параметрами, а также биоинспирированных средств обработки на основе модуля-

ционного спектра речи.

Вторая глава в совокупности с третьей и четвертой составляют первую часть

работы, направленную на разработку методологических и математических подхо-

дов для параметрического описания квазипериодических сигналов с нестационар-

ными параметрами. Во второй главе приведены основные существующие спосо-

бы анализа сигналов на основе дискретного преобразования Фурье. Показано, что

дискретное преобразование Фурье имеет ряд ограничений, связанных с допуще-

нием стационарности сигнала на интервале наблюдения. Использование гармони-

ческого преобразования позволяет учесть линейное изменение частоты основного

тона, однако не допускает возможность модуляций более сложной формы. Кроме

того, для вычисления гармонического преобразования не существует эффектив-

ных (быстрых) алгоритмов, что существенно ограничивает его практическую

применимость. Показано, что можно выполнить описание сигнала моделью с не-

прерывно изменяющимися параметрами при помощи преобразования Гильберта,

однако это доступно только в том случае, когда сигнал является однокомпонент-

ным. При анализе смеси из нескольких периодических составляющих получаемые

оценки параметров теряют смысл.

Разработан метод анализа, рассматривающий квазипериодические состав-

ляющие речи как сигналы с ограниченным (узким) спектром и выделяющий их из

речевого сигнала при помощи параметрических полосовых фильтров. Причем ка-

ждая из квазипериодических составляющих описывается в терминах мгновенной

амплитуды, фазы и частоты. Выход фильтра с центральной частотой Ω��

(рад/отсчет) и шириной полосы 2Ω∆ для входного дискретного сигнала ��(��) опре-

деляется следующим выражением:

��+��

�� Ω∆, Ω��, �� =

ℎΩ∆(�� - ��)�� �� ��-�� (��-��)Ω��,

��=��-��

(3)

2

2

где

ℎΩ∆ �� = 2

Параметры синусоидальной модели вычисляются следующим образом:

-�� ��

�� ��

(4)

(5)

сигнала

,

�� �� =

��2 �� + ��2(��),

�� �� = arctan

�� �� = ��′ ��,

�� �� =

,

2��

где ��(��) и ��(��) – действительная и мнимая части комплексного

�� Ω∆, Ω��, �� соответственно; �� �� – мгновенная частота (рад/отсчет).

12

��(��) ; ��(��) – оконная функция; N – длина окна анализа.

�� Ω∆, Ω��, �� =

ℎΩ∆(�� - ��)�� �� ��-�� ����(��,��),

��=��-��

где ���� ��, �� =

�� �� - ��

��=��-��

��=��-��

(6)

Разработан метод оценки нестационарных параметров, существенно умень-

шающий влияние изменения частоты основного тона на точность оценки, осно-

ванный на использовании фильтров анализа с импульсной характеристикой, мо-

дулированной в соответствии с формой контура частоты основного тона. Показа-

но, что метод позволяет использовать более продолжительные окна анализа без

эффекта усреднения выделяемых параметров, и является предпочтительным для

обработки вокализованного сигнала с быстрым изменением частоты основного

тона. С учетом изменяющейся центральной частоты полосы пропускания Ω�� ��

выход фильтра записан следующим образом:

��+��

sin Ω∆��

����

�� �� ����

2

2

��

�� ��.

2

2

Изменяющиеся параметры модели (амплитуда, частота и фаза) вычисляются

при помощи выражений (4), (5). Полоса пропускания фильтра масштабируется в

соответствии с частотным контуром Ω�� �� , что позволяет выделять периодиче-

ские составляющие с быстрым изменением частоты и оценивать их параметры бо-

лее точно. При анализе вокализованного речевого сигнала использование данного

подхода позволяет выделять гармоники высоких порядков, неразличимые в спек-

тре Фурье из-за сильных частотных модуляций (рисунок 1). Аналогичного эффек-

та повышения частотного разрешения анализа можно достичь путем использова-

ния фиксированных фильтров в сочетании с временным масштабированием рече-

вого сигнала. Такая схема анализа является намного более эффективной с вычис-

лительной точки зрения, так как позволяет разделять гармоники и оценивать их

изменяющиеся параметры при помощи быстрого преобразования Фурье (БПФ).

Предложен соответствующий способ эффективного вычисления выражения (6),

13

а

б

а – преобразование Фурье (окно анализа 64 мс);

б – оценка мгновенных параметров синусоидальной модели, согласованная с контуром

частоты основного тона (окно анализа 5,69 периодов основного тона)

Рисунок 1.Оценка изменяющихся параметров синусоидальной модели речевого

сигнала при помощи узкополосных фильтров, согласованных с контуром частоты

основного тона

который делает развиваемый подход применимым в практических приложениях

обработки речевых сигналов.

Выполнено практическое сравнение изложенных способов оценки парамет-

ров синусоидальной модели в терминах точности реконструкции квазипериодиче-

ской части сигнала. Для сравнения использованы синтетические сигналы, состоя-

щие из смеси квазипериодической и стохастической составляющих с заданным

соотношением гармоники/шум. Полученные в ходе экспериментов результаты

свидетельствуют о том, что для обработки вокализованных звуков разработанный

метод является наиболее предпочтительным в большинстве практических ситуа-

ций. Для соотношений гармоники/шум ≥ 30 дБ разработанный метод анализа

обеспечивает более точную реконструкцию по сравнению с существующими ме-

тодами (для чистого сигнала соотношение сигнал/шум реконструированной ква-

зипериодической части превышает 51 дБ).

В третьей главе рассматриваются способы оценки параметров синусои-

дальной модели квазипериодических нестационарных сигналов на основе нели-

нейных преобразований. Изложен существующий метод оценки нестационарных

точки ��0 при помощи экспоненциального ряда �� �� ≈

параметры которого ℎ�� и ���� также вычисляются из производных функции в точке

��0. Производные функции ��(��) порядка n в точке ��0 имеют вид

��

��

��

14

параметров на основе нелинейного оператора энергии Тайгера–Кайзера (TEO –

Teager–Kaiser energy operator). Показаны основные ограничения метода: обработка

только действительных сигналов, невозможность обобщения метода на случай

смеси произвольного числа периодических составляющих, низкая устойчивость к

аддитивным шумам. Представлен существующий метод оценки нестационарных

параметров квазипериодических сигналов на основе метода Прони. Показаны ос-

новные ограничения метода: предположение о стационарности сигнала на протя-

жении окна анализа, низкая устойчивость к аддитивным шумам, обработка только

дискретных последовательностей.

Разработан метод аппроксимации аналитических функций затухающими

комплексными экспонентами, основанный на использовании модифицированного

метода Прони, который в отличие от оригинального, выполняющего аппроксима-

цию по точкам, выполняет аппроксимацию по производным функции в заданной

точке. Известным методом моделирования локального поведения функции на ос-

нове производных, применяемым в цифровой обработке сигналов, является ряд

Тейлора. Его использование позволяет аппроксимировать заданную действитель-

ную непрерывную функцию �� �� в окрестности точки ��0 при помощи степенного

ряда �� �� ≈

���� �� - ��0

�� с действительными коэффициентами ����, которые

вычисляются из производных функции в точке ��0. Для получения нестационарных

параметров синусоидальной модели сигнала в разработанном методе выполняется

аппроксимация заданной комплексной функции �� ��

в некоторой окрестности

�� �� �� =

ℎ�� ����-��0

=

ℎ�� ���� + ������

������-��0,

��=1

��=1

��

�� �� ��0 =

ℎ�� ����,

��=1

(7)

где �� �� �� = ������(��)/������, ���� = ���� + ������

�� = ����(ln ���� +��arg (����)) – комплексная

экспонента с коэффициентом затухания ���� ����

arg(����).

и нормированной угловой частотой

Искомое решение можно получить при помощи системы уравнений, вычис-

лив производные функции ��(��) в точке ��0:

��

��

��=0

��

��

��=1

ℎ�� ����-��0, комплексные

��

��

��

��(��0)

��(��0)

��(��-1)(��0)

=

,

(8)

����

где ���� = ���� + ������ и �� �� = ����(��)/����.

Предложенный метод аппроксимации представлен в виде следующего алго-

ритма:

1) решение системы линейных уравнений относительно коэффициентов

�� 1, �� 2, …, �� �� :

��(��-1)(��0)

��(��-2)(��0)

��(��)(��0)

��(��-1)(��0)

��(2��-2)(��0)

��(2��-3)(��0)

��(��)(��0)

��(��+1)(��0)

��(2��-1)(��0)

�� 1

�� 2

�� ��

��(0)(��0)

��(1)(��0)

��(��-1)(��0)

15

ℎ1

ℎ2

ℎ��

;

(9)

2) нахождение комплексных экспонент ��1, ��2, …, ���� путем вычисления кор-

ней характеристического полинома:

��

(10)

�� �� =

�� �� ����-�� ;

��=0

3) подстановка полученных значений ��1, ��2, …, ���� в систему (8) и решение ее

относительно ℎ1, ℎ2, …, ℎ��;

4) вычисление искомых параметров ����, ����, ���� и ���� по формулам

���� = ℎ��,

���� = arctg

,

���� = ����(����),

���� = ����(����).

(11)

Метод обеспечивает частотно-временное описание непрерывной функции в

терминах мгновенных параметров, так как их оценка выполняется из производных

функции в заданной точке. Его особенностью является возможность обработки не

только действительных, но и комплексных данных. По сравнению с рядом Тейло-

ра разработанный метод обеспечивает более продолжительный интервал аппрок-

симации квазипериодических функций, используя то же число производных (ри-

сунок 2).

= -

0

��1

��2

1

��1

��2

0

1

0

����

1

����

��-1

��-1

��1

��-1

��2

����(ℎ��)

����(ℎ��)

16

Рисунок 2. Аппроксимация функции �� �� = ���� �� + �� + ������(����), ���� = ��

Предложенный способ аппроксимации аналитических функций использован

для вывода алгоритма оценки мгновенных параметров действительной затухаю-

щей синусоиды. Получены дискретные версии алгоритма путем замены производ-

ных конечными разностями дискретного сигнала (две версии алгоритма обозначе-

ны «DIPA1» и «DIPA2»). Учтено влияние ошибки, вносимой конечными разно-

стями. Показана связь полученного алгоритма с известным алгоритмом разделе-

ния энергии на основе TEO. Путем практического сравнения с известными дис-

кретными алгоритмами оценки мгновенных синусоидальных параметров (для

сравнения использовались методы на основе TEO – «DESA1» и «DESA2», ориги-

нальный метод Прони – обозначен «Prony», уточненный метод Прони – обозначен

«Prony.m») показано, что предложенный алгоритм является более устойчивым к

аддитивному белому шуму в терминах грубых и негрубых ошибок (обозначены

«GE» и «FE» соответственно). Полученные средние значения ошибок приведены в

таблице 1.

В отличие от известного алгоритма разделения энергии разработанный ме-

тод анализа легко обобщается на случай суммы произвольного числа синусоид.

Предложена комбинированная схема анализа с использованием узкополосной

фильтрации и модифицированного метода Прони, позволяющая выполнять раз-

дельную оценку параметров гармоник основного тона и использовать полиномы

пониженной степени для вычисления параметров многокомпонентных нестацио-

нарных сигналов. На рисунке 3 показан пример использования предложенной

схемы анализа.

фильтрация

DESA1

DESA2

Prony

Prony.m

DIPA1

DIPA2

DESA1

DESA2

Prony

Prony.m

DIPA1

DIPA2

DESA1

DESA2

Prony

Prony.m

DIPA1

DIPA2

нет

да

нет

да

нет

да

нет

да

Чистые квазипериодические сигналы

0

0

0

0

0

0

0

0

0

0

0

0

0,19

0,18

0,22

0,20

0,22

0,22

0,08

0,08

0,38

0,21

0,15

0,15

0

0

0

0

0

0

0,25

0,21

0,28

0,23

0,99

0,99

-

-

-

-

0,36

0

0

0

9,86

0,19

3,21

0,17

0,90

1,26

1,97

Квазипериодические сигналы с шумом, сигнал/шум 40 дБ

0,01

0

0

0

1,5

0,68

2,04

1,09

3,48

1,56

4,85

2,72

3,79

1,84

0,58

0,36

0

0,02

3,12

0

0

0,20

1,71

2,70

4,12

2,49

0,02

8,40

0,89

2,76

0,20

0

0

17

Таблица 1. – Ошибка оценки параметров

Медианная

GE частота, %

FE частота, %

GE амплитуда, % FE амплитуда, %

-

-

-

-

6,49

0,12

9,68

0

0

0,59

3,72

0,46

7,69

8,43

9,28

Квазипериодические сигналы с шумом, сигнал/шум 15 дБ

45,8

23,1

8,68

7,30

58,3

34,7

9,50

7,97

74,3

56,3

9,24

7,85

82,5

76,5

10,23

9,93

76,3

51,2

9,52

8,56

12,6

2,70

6,99

4,88

53,7

30,3

9,08

66,2

40,9

9,92

73,9

47,1

9,70

-

-

-

-

57,6

27,7

9,46

8,88

11,6

4,25

8,35

6,27

В четвертой главе решается задача оценки нестационарных речевых харак-

теристик на основе модели квазипериодических сигналов с нестационарными па-

раметрами. Изложены разработанные методы оценки основных речевых характе-

ристик из параметров синусоидальной модели, позволяющие выполнять высоко-

уровневое параметрическое описание речевых сигналов в системах мультимедиа.

Показано, что данный подход обеспечивает более высокую точность описания по

сравнению с традиционными методами анализа. Подход может использоваться в

различных системах обработки речевых сигналов, таких как кодирование речи,

модификация голоса, изменение просодики, обработка певческого голоса и синтез

речи. Разработан метод оценки мгновенной частоты основного тона на основе си-

нусоидальной модели сигнала, позволяющий выделять контур основного тона с

высоким частотно-временным разрешением и обладающий устойчивостью к час-

тотным модуляциям основного тона (допустимое приращение основного тона ±2

Гц/мс). Алгоритм оценки имеет следующие особенности: 1) генератор кандидатов

искомого периода основного тона вычисляется на основе мгновенных гармониче-

ских параметров синусоидальной модели сигнала, что позволяет оценить перио-

дичность применительно к отдельному моменту времени, а не к целому фрейму

18

а

б

а – преобразование Фурье (окно анализа 64 мс);

б – субполосный модифицированный метод Прони, согласованный с контуром основ-

ного тона (окно анализа 5,69 периодов основного тона, число комплексных экспонент 2)

Рисунок 3. Оценка изменяющихся параметров синусоидальной модели речевого

сигнала при помощи узкополосной фильтрации и модифицированного метода Прони

сигнала; 2) функция генератора кандидатов нечувствительна к частотным модуля-

циям основного тона; 3) на стадии постобработки выполняется уточнение основ-

ного тона путем временного масштабирования сигнала и более точной оценки па-

раметров модели. Алгоритм оценки мгновенной частоты основного тона состоит

из следующих шагов:

– понижение частоты дискретизации для уменьшения числа требуемых вы-

числений; при обработке речевого сигнала новая частота дискретизации составля-

ет примерно 6 кГц;

– вычисление нестационарных параметров синусоидальной модели сигнала;

– вычисление оценки периодичности с использованием полученных мгно-

венных параметров; каждый из локальных максимумов функции периодичности

является кандидатом периода основного тона для соответствующего момента вре-

мени;

– поиск контура частоты основного тона, соединяющего найденных канди-

датов периода при помощи динамического программирования с последующим

формированием предварительной оценки основного тона;

(12)

19

– масштабирование сигнала во временной области для обеспечения его ста-

ционарности с использованием контура полученной частоты основного тона;

– вычисление мгновенных параметров синусоидальной модели масштабиро-

ванного сигнала;

– вычисление уточненной оценки основного тона на основе полученных па-

раметров.

Оценка мгновенных параметров синусоидальной модели выполняется путем

узкополосной фильтрации, описанной во второй главе. При условии, что оконная

функция ��(��) имеет конечную длину (равна нулю за пределами некоторого ко-

нечного интервала) и полосы пропускания фильтров Ωc распределены равномерно

во всем частотном диапазоне, выражение (3) вычисляется при помощи БПФ. Оп-

ределение изменяющейся частоты основного тона выполнено на основе специаль-

ной функции периодичности сигнала, вычисляемой из параметров его синусои-

дальной модели:

Особенностью функции ���������� ��, �� является то, что в отличие от традицион-

но применяемой нормированной кросс-корреляционной функции (НККФ) задерж-

ка p не обязательно должна соответствовать целому числу отсчетов и, таким обра-

зом, можно получить оценку для любого вещественного периода. Вторым важным

отличием является то, что предлагаемая функция нечувствительна к любым изме-

нениям частоты основного тона в окрестности отсчета n при условии, что гармо-

нические параметры получены точно. НККФ подвержена «эффекту ступенек», в

то время как ���������� ��, �� формирует непрерывный контур кандидатов периода ос-

новного тона. Учитывая то, что после первоначальной оценки основного тона и

выполнения временного масштабирования каждый узкополосный аналитический

сигнал соответствует одной гармонике основного тона, можно уточнить частоту

основного тона при помощи взвешенного среднего:

��0 ��

Выполнена экспериментальная оценка производительности алгоритма и его

сравнение с известными алгоритмами оценки частоты основного тона в терминах:

1) GPE (gross pitch error) – процент грубых ошибок; 2) MFPE (mean fine pitch error)

– средний процент негрубых ошибок. Сравнение выполнено с использованием

2��

����

��2(��)

��

��=1

��

���������� ��, �� =

��2 �� cos

���� �� ��

��

��=1

��

.

���� �� ����(��)

(13)

��

���� (��)

��=1

��

��

=

.

�� =1

20

синтетических сигналов с известной мгновенной частотой основного тона и нату-

ральной речи. Использовано три известных алгоритма оценки основного тона:

RAPT, YIN, SWIPE’ и две версии разработанного алгоритма: одна без уточнения

частоты основного тона (обозначена «IRAPT 1»), вторая с уточнением частоты ос-

новного

тона

путем

временного

масштабирования

сигнала

(обозначена

«IRAPT 2»). На основании практических результатов показано, что по сравнению

с известными методами предложенный алгоритм имеет существенное преимуще-

ство в условиях частотных модуляций (рисунок 4) и, кроме того, является устой-

чивым к аддитивному шуму (допустимое соотношение сигнал/шум до 5дБ). Экс-

перименты с натуральной речью показали, что предложенный алгоритм применим

к приложениям обработки речи в реальном масштабе времени, где допускается

постоянная алгоритмическая задержка в 50–90 мс.

Рисунок 4. Ошибка оценки изменяющейся частоты основного тона

Разработан метод оценки коэффициентов линейного предсказания из неста-

ционарных параметров синусоидальной модели. Показано, что он обеспечивает

более точную локальную оценку, так как не усредняет параметры на интервале

наблюдения. Особенностью метода является возможность оценки линейного

предсказателя высоких порядков, обеспечивающего более точную аппроксимацию

огибающей амплитудного спектра по сравнению с известными методами.

Выполнено сравнение разработанного метода оценки коэффициентов ли-

нейного предсказания с автокорреляционным методом, широко применяемым в

обработке речи. Использованы синтетические сигналы с известными стационар-

ными параметрами, моделирующие гласные звуки с разной частотой основного

тона в пределах от 80 до 400 Гц. Сравнение осуществлено путем вычисления

линейными

Таблица 2. – Оценка огибающей амплитудного спектра сигнала

предсказателями высоких порядков (среднеквадратичная ошибка, дБ)

Порядок предсказателя

10

14

20

28

38

50

64

80

Метод оценки

Автокорреляционный

Оценка из параметров

синусоидальной модели

0,28

0,28

0,17

0,13

0,11

0,14

0,26

0,39

0,52

0,16

0,10

0,08

0,06

0,06

0,05

0,05

21

среднеквадратичного отклонения амплитудно-частотной характеристики фильтра-

предсказателя от действительной огибающей амплитудного спектра сигнала. Для

автокорреляционного метода использовались кадры сигнала в 4096 отсчетов с

частотой дискретизации 16 кГц. Для разработанного метода применялись сину-

соидальные параметры сигнала. Полученные средние значения приведены в таб-

лице 2. Результаты свидетельствуют о том, что разработанный метод оценки ко-

эффициентов линейного предсказания является более предпочтительным по срав-

нению с автокорреляционным методом, так как позволяет достигать высокой точ-

ности описания огибающей амплитудного спектра сигнала путем увеличения по-

рядка предсказателя.

Пятая глава вместе с шестой и седьмой составляют вторую часть работы,

направленную на применение параметрической обработки речевых сигналов в ак-

туальных приложениях мультимедиа. В пятой главе описана разработанная сис-

тема параметрического анализа/синтеза речевого сигнала на основе его гибридно-

го представления, позволяющая описывать речь в виде набора изменяющихся во

времени параметров. Система использует разделение сигнала на квазипериодиче-

скую и стохастическую составляющие и выполняет декомпозицию квазипериоди-

ческой части на отдельные узкополосные компоненты, которые описываются не-

стационарными синусоидальными параметрами. Оценка параметров выполняется

в измененном масштабе времени, что позволяет разделить периодические состав-

ляющие и выполнить их анализ более точно. В результате формируется парамет-

рическое описание сигнала в виде мгновенных гармонических параметров, ампли-

тудной огибающей, шумовой составляющей, классификации регионов спектра по

признаку периодичности и типа возбуждения (рисунок 5).

Разработанная система обеспечивает высокое качество реконструкции и по-

зволяет выполнять изменение просодики речевого сигнала с низким уровнем

слышимых искажений. Система применима во многих практических приложени-

ях, таких как конверсия голоса, синтез речи, изменение интонации и создание зву-

ковых эффектов. Решена задача изменения контура частоты основного тона речи в

реальном масштабе времени на основе гибридной модели речевого сигнала.

22

Рисунок 5. – Параметрическое представление речевого сигнала гибридной моделью

с изменяющимися параметрами

Обработка вокализованной составляющей выполняется с использованием

временного масштабирования, что позволяет реализовать точное разделение гар-

моник и оценивать их мгновенные параметры при помощи узкополосной фильт-

рации. Для снижения вычислительной сложности используется полифазная реали-

зация ДПФ-модулированного банка фильтров. Выполнена оценка качества работы

системы в цифровых каналах связи с использованием кодеков GSM и G.711. Об-

разцы сигналов, обработанные четырьмя различными эффектами, прослушивались

группой экспертов, которые оценивали натуральность речи по 5-балльной шкале

(5 – натуральная речь; 4 – речь звучит натурально, заметны отдельные артефакты;

3 – синтетическая речь, имеются артефакты; 2 – ненатуральное звучание, отдель-

ные слова не воспринимаются; 1 – полная потеря разборчивости). Полученные ре-

зультаты свидетельствуют о применимости предложенного решения в широкопо-

лосных и узкополосных каналах связи с использованием кодирования по стандар-

там GSM и G.711. Средние оценки приведены в таблице 3.

Образец

Без

обработки

Повышение

Понижение

тона x1.2

тона x1.2

Эффект

Эффект

cycle

sinus

4,80

4,75

4,30

3,95

4,15

4,20

3,85

3,70

4,05

4,15

3,85

3,75

4,00

4,10

3,80

3,60

Широкополосная речь

5

Речь после

кодека GSM

Речь после

кодека G.711

Речь после

кодеков G.711 и GSM

4,25

4,15

4,10

23

Таблица 3. – Оценка натуральности образцов речи, обработанных в системе

реального времени

Звуковой эффект

Реализована система автоматической коррекции певческого голоса, позво-

ляющая изменять исполненную вокальную партию в соответствии с заданной (це-

левой) мелодией музыкального произведения. Кодирование мелодии и дополни-

тельных звуковых эффектов выполняется при помощи интерфейса MIDI (Musical

Instruments Digital Interface), распространенного в музыкальной индустрии. Осо-

бенностью системы является высокая естественность синтезированного голоса по

сравнению с существующими решениями. Для оценки качества работы системы

коррекции певческого голоса применялись средние оценки субъективных мнений

экспертов MOS (Mean Opinion Score). Рассматривались три различные записи пе-

сен, исполненных непрофессиональными вокалистами. Для формирования более

натуралистичного контура использовалось сглаживание и добавление эффекта

вибрато. В результате обработки формировались образцы певческого голоса с

коррекцией частоты основного тона и добавлением искусственной полифонии.

Полифонический эффект достигался путем смешивания нескольких выходных

сигналов с разными целевыми контурами основного тона.

Выполнена субъективная оценка натуральности и гармонии (точность ис-

полнения целевых нот) полученных образцов по пятибалльной шкале от 1 до 5

(5 – отлично, 4 – хорошо, 3 – удовлетворительно, 2 – неудовлетворительно, 1 –

плохо). Из обработанного голоса были выделены фрагменты с глоттализацией и

участники прослушивания оценивали их отдельно. Полученные средние оценки

представлены в таблице 4. Как показывают результаты экспериментов, предло-

женная модель обработки является весьма эффективной для коррекции певческого

голоса (в том числе и голоса с глоттализацией) и обеспечивает высокое субъек-

тивное качество синтеза.

Обычное пение

Глоттализация

Натуральность

Гармония

Натуральность

Гармония

Исходное пение

5

2,9

-

-

Пение после коррекции

4,5

5

4,2

4,5

В шестой главе рассматриваются методы параметрического моделирования

голоса диктора с использованием средств машинного обучения. Предлагается спо-

соб конверсии голоса, использующий гибридную параметрическую модель сигна-

ла и интерпретирующий сигнал как совокупность коротких фрагментов (кадров),

каждый из которых может быть одним из трех типов: периодическим, шумовым и

смешанным. В отличие от традиционных моделей, где спектральные огибающие

представляются с помощью вектора мел-кепстральных коэффициентов, предлага-

ется использовать вектор субполосных логарифмических значений энергии. Такое

представление сохраняет изначальную корреляцию между компонентами исход-

ных и целевых огибающих и упрощает задачу поиска соответствия. Второе пре-

имущество заключается в независимости спектральных значений и позволяет лег-

ко разбить нейронную сеть на несколько независимых сетей меньшей емкости и

упростить процедуру обучения, а также легко адаптировать функцию конверсии

для входных и выходных речевых сигналов с разной частотой дискретизации.

Предложена ИНС, использующая кусочно-линейную функцию активации, которая

учитывает временные состояния говорящего для ослабления эффекта усреднения

преобразованных спектральных огибающих. Предложенный способ конверсии яв-

ляется масштабируемым в том смысле, что он позволяет обрабатывать сигналы с

различной частотой дискретизации. Используется состояния дикторов, которые

описываются векторами ���� = ��0,��

, ��0,��, ���� и ���� = ��0,��

, ��0,��, ���� для исходного

и целевого диктора соответственно. Значения векторов вычисляются независимо

друг от друга для каждого фрагмента сигнала, используя допустимые максималь-

ные и минимальные значения основного тона, определяемые статистически:

24

Таблица 4. – Средние субъективные оценки качества обработки певческого голоса

(14)

(15)

min

max

min

max

1 - ���� ��,

��0,�� �� ����min

��0,�� �� - ����max

����min - ����max

1 - ���� ��,

����min ≤ ��0,�� �� ≤ ����min,

0,

��0,�� �� ����max

��0,��

�� = 1 - ��0,��

��

1 - ���� ��,

m

��0,��in �� =

max

min

����(��1�� + ��������1)

�� = ��5���� ��4

��2����

+ ��������4

��3����

+ ��������5,

(16)

где квадратные скобки означают конкатенацию; ��1-5 и ��������1-5 – весовые коэф-

фициенты и смещения соответствующих сигналов сети.

Отдельно взятый фрагмент речевого сигнала не содержит достаточной кон-

текстной информации для качественной конверсии спектральной огибающей, по-

этому выполняется декомпозиция временной последовательности огибающих ам-

плитудного спектра на низкочастотную и высокочастотную составляющие, ис-

пользуя фильтр нижних частот с частотой среза 4–9 Гц. Низкочастотные модуля-

ции спектральных амплитуд содержат параметры, специфические для диктора, в

то время как высокочастотные модуляции содержат преимущественно фонетиче-

скую и артикуляторную информацию. Выполнено сравнение предложенного ме-

тода с наиболее используемыми методами конверсии на основе модели гауссовой

смеси (МГС) и масштабирования частотной шкалы (МЧШ). Показано, что пред-

ложенный метод является предпочтительным, так как обеспечивает конверсию го-

лоса с высокими показателями субъективной узнаваемости целевого диктора и на-

туральности звучания. Для оценки узнаваемости целевого диктора и натурально-

сти звучания обработанной речи использовались средние значения оценок экспер-

тов MOS. Двадцать слушателей оценивали (по шкале от 1 до 5) узнаваемость и ка-

чество звучания конвертированного сигнала. Усреднение оценок выполнялось

раздельно по четырем группам в зависимости от направления конверсии: мужчи-

на–мужчина, мужчина–женщина, женщина–мужчина, женщина–женщина (обо-

значенных, как «мм», «мж», «жм» и «жж» соответственно) для каждого из мето-

дов конверсии. Поиск функции конверсии для каждого метода выполнялся при

помощи обучающего множества из 26 фраз общей продолжительностью примерно

в одну минуту, поскольку такая длительность наиболее вероятна в практическом

приложении. Полученные средние оценки показаны на рисунке 6.

25

где x означает исходного либо целевого диктора; ����min – минимально допустимое

значение основного тона; ����max – максимально допустимое значение основного

тона; ��0,��(��) – текущее значение основного тона; ����(��) – признак невокализован-

ности, который равен 1, если фрагмент n невокализованный, и равен 0 в против-

ном случае. Векторы ���� и ���� содержат нормированные значения в диапазоне от 0

до 1. Нейронная сеть выполняет следующую функцию отображения:

26

Рисунок 6. Субъективная оценка узнаваемости и натуральности

конвертированной речи – средние значения оценок экспертов

На основании прослушивания и анализа полученных оценок можно сделать

вывод, что метод на основе МГС является наихудшим с точки зрения субъектив-

ного качества выходной речи из-за усреднения конвертированных спектральных

огибающих, однако он ощутимо превосходит метод на основе МЧШ по показате-

лю субъективной узнаваемости целевого диктора. Предложенный метод на основе

ИНС обеспечивает более высокую узнаваемость по сравнению с МГС, а по каче-

ству речевого сигнала приближается к уровню МЧШ. Слушатели в среднем оха-

рактеризовали общее качество конвертированной речи как «почти естественное».

Предложен способ формирования модели голоса заданного диктора на осно-

ве записей образцов его голоса с транскрипцией при помощи ИНС, построенной

по принципу автоматического кодера и устанавливающей соответствие между

пространством речевых параметров и унифицированным пространством возмож-

ных фонетических состояний. Получены результаты экспериментального приме-

нения данного подхода к решению задачи конверсии голоса с текстонезависимым

обучением. Показано, что формирование унифицированных состояний в виде ко-

дов пониженной размерности позволяет установить соответствие между различ-

ными голосами, и может использоваться в системах синтеза речи по тексту и кон-

версии голоса. Особенностью полученной модели является относительная инвари-

антность к характеру произношения, что достигается за счет привязки внутренних

состояний к фонетическому содержанию и может использоваться в различных

системах обработки речи, таких как системы автоматического распознавания и

кодирования. В ходе экспериментов получены средние значения оценок экспертов

MOS, позволяющие сделать вывод о том, что метод на основе автоматического

кодера обеспечивает несколько более высокую узнаваемость целевого диктора,

однако немного уступает по натуральности звучания. Повышение средней узна-

ваемости обусловлено ослаблением эффекта усреднения спектральной огибаю-

щей, характерного для систем с текстозависимым обучением. Некоторое пониже-

непрерывно

рисунке 7.

изменяется. Предлагаемое решение схематически показано на

27

ние натуральности обусловлено ошибками полуавтоматической сегментации ре-

чевого корпуса и использованием упрощенной модели сегментации.

В седьмой главе исследуется возможность применения параметрического

описания квазипериодических сигналов с нестационарными параметрами для очи-

стки речевых сигналов от нестационарных помех и повышения разборчивости.

Предлагается использование методов параметрического моделирования для по-

давления специальных шумов (помех), представляющих собой смесь нестацио-

нарных периодических и стохастических составляющих, зависящих от скорости

источника шума, которые создаются различными вращательными механизмами

(например, турбинами и двигателями внутреннего сгорания). Описан разработан-

ный способ подавления шума, основанный на спектральном вычитании, позво-

ляющий учитывать нестационарную природу шума. Общепринятый метод спек-

трального вычитания для таких шумов имеет ограниченную применимость, так

как спектральная плотность мощности (СПМ) связана со скоростью вращения и

Рисунок 7. Предложенная схема обработки сигнала для подавления

нестационарных помех

Алгоритм шумоподавления состоит из следующих шагов: 1) получение текущей

скорости вращения, используя внешний источник либо оценку основного тона

шума из зашумленного сигнала; 2) временное масштабирование сигнала с учетом

полученной скорости вращения; 3) определение тональных компонент и их подав-

ление путем узкополосной фильтрации; 4) определение голосовой активности и

выделение фрагментов без полезного сигнала, оценка СПМ широкополосных

компонент шума; 5) спектральное вычитание широкополосных компонент шума;

6) обратное временное масштабирование обработанного сигнала и возвращение

его в линейный временной масштаб.

28

При отсутствии возможности физического измерения скорости вращения с

помощью внешних датчиков необходима ее оценка непосредственно из зашум-

ленного сигнала. Для этой цели используется алгоритмическая основа определи-

теля мгновенной частоты основного тона, представленного в четвертой главе. На

рисунке 8 показан результат оценки изменяющейся частоты основного тона шума

из зашумленного сигнала.

а

б

а – зашумленный сигнал; б – полученный контур изменяющейся частоты основного тона

Рисунок 8. – Оценка частоты основного тона шума из зашумленного сигнала

Выполнено практическое сравнение описанного метода спектрального вы-

читания для нестационарных шумов вращающихся механизмов с известным мето-

дом апостериорного анализа MAP (Maximum a posteriori method). На рисунке 9

показан результат обработки сигнала с шумом движущегося автомобиля (шум за-

писан в кабине болида Формулы 1) при помощи метода MAP и разработанного

метода спектрального вычитания для нестационарных шумов.

а

б

а – результат шумоподавления методом MAP;

б – результат шумоподавления спектральным вычитанием

Рисунок 9. – Сравнение метода MAP и разработанного метода спектрального вычитания

для нестационарных шумов

Разработанный метод обеспечивает хорошее ослабление шума (18 дБ), чем

несколько превосходит метод MAP (17 дБ). Кроме того, в полосе высоких частот

29

(более 2 кГц) обеспечивается заметно меньший шумовой остаток. По сравнению с

MAP также лучше сохраняется гармоническая структура речевого сигнала. Одна-

ко из-за полностью автоматического определения тональных шумовых компонент

некоторая часть (практически незаметная для восприятия) периодического шума

сохранилась в сигнале после спектрального вычитания. Получены субъективные

оценки качества. Оценивалось повышение качества сигнала из пар исход-

ный/обработанный по шкале от –3 до +3, где –3 соответствует существенному

ухудшению качества, 0 – отсутствию изменений, +3 – значительному повышению

качества. В прослушивании участвовала группа из 10 слушателей. В каждом тесте

слушатель оценивал три пары речевых образцов и оценивал изменение качества.

Общая средняя оценка для MAP составляет 1,62, в то время как для метода спек-

трального взвешивания – 1,71. Необходимо учитывать, что MAP использует

внешний источник для оценки скорости вращения, в то время как для предложен-

ного метода спектрального вычитания скорость вращения оценивалась непосред-

ственно из зашумленного сигнала.

Разработан биоинспирированный метод очистки речевого сигнала от шума,

основанный на фильтрации нестационарных параметров сигнала в модуляционной

области, который позволяет подавлять широкий класс акустических помех. Высо-

кий потенциал подхода модуляционной фильтрации для повышения разборчиво-

сти речи в шумах объясняется его физиологической мотивацией и тесной связью с

психоакустикой. Практическим достоинством метода является универсальность и

автоматическая адаптивность к помехам разных типов. На основании результатов

практических экспериментов показано, что разработанный метод обеспечивает

более высокий коэффициент ослабления шума и меньшую степень деградации по-

лезного речевого сигнала в сравнении с известным алгоритмом. Выполнена субъ-

ективная оценка качества очистки речевых сигналов предложенным методом. В

процессе эксперимента использовались записи мужского голоса продолжительно-

стью 3 мин, зашумленные помехами различных типов. Четырем слушателям была

предложена субъективная оценка по 5-балльной шкале качества подавления шума

в обработанных сигналах по следующим показателям: 1) разборчивость (точность

восприятия речевого сообщения: 5 – полная, 4 – почти полная, 3 – неполная, 2 –

частичная, 1 – отсутствует); 2) субъективное зашумление (степень зашумления: 5

– высокий уровень зашумления, ощущается сильный дискомфорт при прослуши-

вании; 4 – умеренный дискомфорт при прослушивании; 3 – сохраняется средняя

комфортность прослушивания; 2 – сохраняется высокая комфортность прослуши-

вания; 1 – нет зашумления); 3) качество реконструкции (естественность звучания

обработанного речевого сигнала: 5 – абсолютно натуральное звучание, 4 – почти

Субъективное

Качество

зашумление

реконструкции

Разборчивость

Тип шума

исх.

МФ1

МФ2

исх.

МФ1

МФ2

исх.

МФ1

МФ2

4,25

4,0

3,5

2,5

4,25

4,25

4,25

3,75

2,75

4,25

4

3

4,5

2,5

4,75

3

2,75

2,25

2,5

4,25

1,25

-

-

-

-

-

2,75

3,5

3

3,25

3,5

3

3,75

3,25

3,25

3,75

Белый шум

4,0

Сетевая

помеха

Шум

пылесоса

Фоновая

музыка

Реверберация

3,25

2,75

2

4

30

натуральное звучание с небольшим уровнем артефактов, 3 – средний уровень ар-

тефактов, 2 – высокий уровень артефактов, 1 – речь полностью неестественна).

Полученные средние оценки приведены в таблице 5.

4,5

4,25

3

1,5

Результаты свидетельствуют о применимости предложенного метода для

обработки речевых сигналов, зарегистрированных в различных акустических ус-

ловиях. Основным достоинством метода является более низкий уровень слыши-

мых артефактов и более высокое качество реконструкции речевого сигнала по

сравнению с существующими методами, что достигается за счет более точного

восстановления спектральных огибающих речевого сигнала. Алгоритм наиболее

хорошо применим для очистки речевого сигнала от тональных шумов высокой

интенсивности (например, сетевая помеха) и реверберации.

В приложениях приведены акты внедрения результатов диссертационной

работы.

ЗАКЛЮЧЕНИЕ

Основные научные результаты диссертации

Совокупность выдвинутых и обоснованных в диссертационной работе по-

ложений образует новое перспективное научное направление, развивающее мето-

дологические основы обработки нестационарных квазипериодических сигналов

для проектирования систем цифровой обработки речи с высоким качеством ре-

конструкции, включающее теоретические методы и алгоритмические средства из-

влечения, интерпретации и обработки речевой информации.

Основными результатами диссертационной работы являются разработанные

методы обработки речевых сигналов на основе моделей с нестационарными пара-

метрами, создающие широкие возможности для создания новых и совершенство-

Таблица 5.  Результаты субъективной оценки качества очистки речевых сигналов

31

вания существующих систем обработки речевой информации, включая системы

кодирования, моделирования просодики, изменения голоса, синтеза речи по тек-

сту, повышения разборчивости и шумоподавления.

1. Предложена и обоснована концепция создания систем обработки речевой

информации, базирующаяся на представлении речи в виде суммы непрерывных

квазипериодических сигналов с ограниченным спектром и их параметрического

описания в терминах синусоидальных функций с нестационарными параметрами,

согласно которой возможен синтез выходного речевого сигнала без эффекта на-

ложения спектров [1, 3, 4, 6, 15, 16, 19, 26, 34, 39, 40, 44].

2. Разработан метод декомпозиции речевого сигнала на квазипериодические

составляющие, позволяющий разделять гармоники основного тона и выполнять их

локальное описание в виде периодических функций с изменяющимися параметра-

ми, отличающийся повышенной устойчивостью к быстрым изменениям частоты

основного тона и возможностью использования продолжительных интервалов на-

блюдения без усреднения оцениваемых параметров [1, 3, 6, 5, 7, 21, 30].

3. Разработан метод оценки нестационарных синусоидальных параметров

сигнала из его производных в заданный момент времени, представляющий сигнал

в виде суммы комплексных затухающих экспонент, отличающийся тем, что он по-

зволяет выполнять анализ смеси периодических составляющих без предваритель-

ной фильтрации [22, 23, 34, 38].

4. Разработан алгоритм оценки контура мгновенной частоты основного тона

на основе синусоидальной модели сигнала с изменяющимися параметрами, отли-

чающийся высокой точностью оценки (грубых ошибок  2,6 %, мелких ошибок

 1,3 %), устойчивостью к быстрым изменениям частоты основного тона (до

2 Гц/мс) и аддитивным шумам (соотношение сигнал/шум до 5 дБ) [13, 27, 33, 37].

5. Разработан метод оценки кратковременной огибающей амплитудного

спектра речевого сигнала на основе синусоидальной модели сигнала с изменяю-

щимися параметрами, отличающийся тем, что он позволяет аппроксимировать

форму огибающей амплитудного спектра нестационарных сигналов при помощи

линейных предсказателей высоких порядков [1, 15, 26, 29].

6. Разработан метод параметрической обработки сигнала, включающий

оценку, модификацию и синтез нестационарных параметров модели, позволяю-

щий создавать высококачественные звуковые эффекты, такие как изменение про-

содики речевого сигнала и коррекция певческого голоса, отличающийся тем, что

обработка выполняется согласованно с контуром частоты основного тона при по-

мощи временного масштабирования [5, 7, 15, 16, 30, 34, 37, 43, 47, 50, 52].

32

7. Разработан метод конверсии голоса с текстозависимым способом обуче-

ния функции конверсии на основе ИНС с кусочно-линейной функцией активации,

отличающийся высоким субъективным качеством реконструкции сигнала (сред-

ние оценки экспертов по шкале от 1 до 5: узнаваемость 4 и разборчивость 3,5)

за счет использования изменяющихся состояний фонации и разделения парамет-

ров речевого сигнала на статические и динамические [7, 11, 18, 31, 35, 36, 42].

8. Разработан метод конверсии голоса с текстонезависимым способом обу-

чения функции конверсии на основе ИНС с кусочно-линейной функцией актива-

ции, построенной по принципу автоматического кодера, отличающийся тем, что

обучение происходит путем формирования персональной модели голоса диктора,

использующей коды пониженной размерности с фонетической привязкой

[11, 20, 49].

9. Разработан метод подавления шумов роторных машин, обеспечивающий

возможность речевой коммуникации в условиях агрессивных нестационарных по-

мех, отличающийся тем, что квазипериодические и стохастические составляющие

помехи обрабатываются согласованно с частотой вращения ротора, причем часто-

та вращения оценивается непосредственно из зашумленного сигнала без вспомо-

гательных внешних измерителей [9, 12, 24, 25, 28].

10. Разработан биоинспирированный метод очистки и повышения разборчи-

вости зашумленных речевых сигналов, основанный на обработке нестационарных

параметров модели сигнала в модуляционной области, отличающийся возможно-

стью подавления широкого класса помех и высоким качеством реконструкции ре-

чевого сигнала [2, 8, 10, 14, 17, 32, 41, 45, 46, 48].

Рекомендации по практическому использованию результатов

Практическая значимость выполненных исследований заключается в разра-

ботке новых методов нестационарного параметрического моделирования для ре-

шения различных задач обработки звуковой информации, в том числе задач рас-

познавания, классификации, кодирования, создания мобильных аудиосистем кор-

рекции слуха и голоса, создания слуховых и голосовых протезов и других систем

мультимедиа [17, 24, 25, 41, 45].

Разработаны и внедрены на предприятиях Республики Беларусь и Россий-

ской Федерации следующие способы обработки звуковой информации и про-

граммные средства:

1. Метод оценки

параметров аддитивных полигармонических/стохасти-

ческих помех и их подавления путем гибридной фильтрации. Метод подавления

33

сложных помех на основе антропоморфической обработки зашумленного сигнала.

Метод отличается расширенной универсальностью и позволяет выделять разбор-

чивую речь на фоне быстро изменяющихся, частотно-модулированных помех. –

ООО «МИКРОСИСТЕМЫ», г. Москва, Российская Федерация.

2. Метод обработки речевого сигнала, выполняющий изменение контура

частоты основного тона в реальном масштабе времени. – ООО «БИФРИ», г.

Санкт-Петербург, Российская Федерация.

3. Технология параметрического моделирования речевого сигнала, вклю-

чающая в себя методы анализа, модификации и синтеза речи. Технология внедре-

на и используется в продуктах конверсии голоса «CloneVoice» и «CloneBook». –

ЗАО «Ай-Ти Мобайл», Москва, Российская Федерация.

4. Технология обработки певческого голоса, предназначенная для мобиль-

ных вычислительных платформ и персональных компьютеров. Технология вне-

дрена и используется в программных продуктах «Vocal Transformer» и «SPOY

karaoke». – ЗАО «АйТиФо Ю», Москва, Российская Федерация.

5. Технология обработки речевого сигнала в реальном масштабе времени

для улучшения восприятия сигнала удаленным абонентом путем изменения про-

содических характеристик и компенсации потери слуха. Технология внедрена и

используется в программных продуктах «PETRALEX Speech Communication»,

«Petralex Hearing Aid» и «Urbandenoiser Player». – ЗАО «АйТиФо Ю», Москва,

Российская Федерация.

6. Метод повышения разборчивости звуковых сигналов с учетом персональ-

ных слуховых особенностей пользователя и окружающей шумовой обстановки.

Система повышения разборчивости звуковых сигналов, позволяющая пользовате-

лю воспринимать звуковую информацию в условиях интенсивных звуковых помех

и частичной патологической потери слуха. Внедрены и используются «НТ Лаб-

системы», Минск, Республика Беларусь.

7. Способы очистки речевого сигнала от сложных аддитивных помех. Учеб-

но-методическое пособие для магистрантов специальности 1-40 80 01 «Элементы

и устройства вычислительной техники и систем управления». – УО БГУИР,

Минск, Республика Беларусь.

Внедрение результатов диссертационной работы подтверждает практиче-

ское достижение поставленной цели – создание теоретических основ, методов и

средств проектирования систем параметрической обработки речевых сигналов для

приложений мультимедиа.

34

СПИСОК ПУБЛИКАЦИЙ СОИСКАТЕЛЯ УЧЕНОЙ СТЕПЕНИ

Монографии

1. Азаров, И.С. Мгновенный гармонический анализ. Обработка звуковых и

речевых сигналов в системах мультимедиа / И.С. Азаров, А.А. Петровский. – LAP

LAMBERT Academic Publishing, 2011. – 163 c.

2. Вашкевич, М.И. Косинусно-модулированные банки фильтров с фазовым

преобразованием:

реализация

и

применение

в

слуховых

аппаратах

/

М.И. Вашкевич, И.С. Азаров, А.А. Петровский. – М. : Горячая линия – Телеком,

2014. – 210 c.

Главы в монографиях

3. Азаров, И.С. Мгновенный гармонический анализ звуковых и речевых

сигналов / И.С. Азаров // Анализаторы речевых и звуковых сигналов: методы, ал-

горитмы и практика (с MATLAB примерами) / А.А. Петровский, И.С. Азаров ; под

4. Азаров, И.С. Применение гибридного параметрического описания для

кодирования звуковых и речевых сигналов / И.С. Азаров // Анализаторы речевых

и звуковых сигналов: методы, алгоритмы и практика (с MATLAB примерами) /

А.А. Петровский, Ал.А. Петровский, И.С. Азаров ; под ред. А.А. Петровского. –

Минск : Бестпринт, 2009. – С. 190–210.

Статьи в рецензируемых научных журналах

5. Azarov, E. High-Quality Time Stretch and Pitch Shift Effects for Speech and

Audio Using the Instantaneous Harmonic Analysis / E. Azarov, A. Petrovsky, M. Par-

6. Petrovsky, Al. Hybrid signal decomposition based on instantaneous harmonic

parameters and perceptually motivated wavelet packets for scalable audio coding / Al.

1489–1504.

7. Azarov, E. Text to speech synthesis system with multi voice capability based

on instantaneous voice conversion / E. Azarov, A. Petrovsky, P. Zubrycki // Elektronika,

ред. А.А. Петровского. – Минск : Бестпринт, 2009.  С. 115–133.

fieniuk // EURASIP Journal on Advances in Signal Processing.  2010.  Article ID

712749.  P. 1–10.

Petrovsky, E. Azarov, A. Petrovsky // Signal Processing.  2011.  Vol. 91, iss. 6.  P.

PAN. – 2011. – № 5.  P. 111116.

35

8. Лихачев, Д.С. Применение мгновенного гармонического анализа для ан-

тропоморфической обработки речевых сигналов / Д.С. Лихачев, И.С. Азаров,

А.А. Петровский // Информатика. – 2011. – № 4. – C. 59–70.

9. Петровский, А.А. Фильтрация речи на фоне полигармонических и сто-

хастических помех / А.А. Петровский, И.С. Азаров, Д.С. Лихачѐв, Ю.Н. Ромаш-

10. Вашкевич, М.И. Подавление эффекта акустической обратной связи в

слуховых аппаратах с использованием неравнополосного банка фильтров /

C. 50–60.

11. Азаров, И.С. Система конверсии голоса в реальном масштабе времени с

текстонезависимым обучением на основе гибридного параметрического описания

речевых сигналов / И.С. Азаров, А.А. Петровский // Цифровая обработка сигна-

12. Шумоподавление на основе перцептуальных алгоритмов спектрального

вычитания и обработки сигналов в подпространствах / А.А. Петровский, И.С. Аза-

ров, Д.С. Лихачѐв, Ю.Н. Ромашкин, Ю.Н. Жигулѐвцев, А.А. Харламов // Речевые

13. Азаров, И.С. Алгоритм оценки мгновенной частоты основного тона ре-

чевого сигнала / И.С. Азаров, М.И. Вашкевич, А.А. Петровский // Цифровая обра-

14. Азаров, И.С. Алгоритм очистки речевого сигнала от сложных помех пу-

тем фильтрации в модуляционной области / И.С. Азаров, М.И. Вашкевич,

15. Петровский, А.А. Обработка речевых сигналов в приложениях мульти-

медиа на основе периодической модели с нестационарными параметрами /

А.А. Петровский, И.С. Азаров // Доклады БГУИР. – 2014. – № 2 (80). – C. 113–126.

16. Изменение частоты основного тона речевого сигнала на основе гармони-

ческой модели с нестационарными параметрами / И.С. Азаров, М.И. Вашкевич,

Д.С. Лихачев, А.А. Петровский // Труды СПИИРАН. – 2014. – № 1(32). – C. 5–26.

17. Азаров, И.С. Система коррекции слуха на мобильной вычислительной

2014. – № 2(42). – С. 5–24.

18. Азаров, И.С. Конверсия голоса в реальном масштабе времени при помо-

щи искусственной нейронной сети с кусочно-линейной функцией активации /

ботка сигналов.  2012.  Вып. 4.  С. 4957.

кин, Ю.Н. Жигулѐвцев, А.А. Харламов // Речевые технологии.  2012.  Вып. 3. 

С. 4557.

М.И. Вашкевич, И.С. Азаров, А.А. Петровский // Информатика. – 2012.  № 2. –

лов. – 2012.  № 2. – С. 15–23.

технологии.  2012.  Вып. 4.  С. 415.

А.А. Петровский // Цифровая обработка сигналов.  2013. – № 4.  С. 25–31.

платформе / И.С. Азаров, М.И. Вашкевич, А.А. Петровский // Информатика. 

36

И.С. Азаров, М.И. Вашкевич, А.А. Петровский // Нейрокомпьютеры. – 2014. –

№ 5. – С. 10–18.

19. Petrovsky, A. Instantaneous harmonic analysis: techniques and applications to

speech signal processing / A. Petrovsky, E. Azarov // Speech and computer, Lecture

20. Азаров, И.С. Формирование персональной модели голоса диктора с уни-

версальным фонетическим пространством признаков на основе искусственной

нейронной сети / И.С. Азаров, А.А. Петровский // Труды СПИИРАН. – 2014. –

№ 5(36). – C. 128–150.

21. Анализаторы речевых и звуковых сигналов: методы, алгоритмы и реали-

зации

/

А.А. Петровский,

И.С. Азаров,

Ал.А. Петровский,

М.И. Вашкевич,

Н.А. Петровский // Наука – инновационному развитию общества. Беларуская на-

22. Azarov, E. Estimation of the instantaneous signal parameters using a modified

Prony’s method / E. Azarov, M. Vashkevich, A. Petrovsky // Automatic Control and

23. Азаров, И.С. Оценка мгновенных параметров сигнала при помощи мо-

дифицированного метода Прони / И.С. Азаров, М.И. Вашкевич, А.А. Петровский

// Автоматика и вычислительная техника. – 2015. – № 2. – С. 65–80.

24. Азаров, И.С. Повышение качества слухового восприятия в шумовой об-

становке на основе частотной декомпозиции и адаптивной компрессии динамиче-

ского диапазона сигнала / И.С. Азаров, М.И. Вашкевич, А.А. Петровский // Циф-

25. General-Purpose Listening Enhancement Based on Subband Non-Linear Am-

plification with Psychoacoustic Criterion / E. Azarov, M. Vashkevich, V. Herasimovich,

26. Azarov, E. Speech Analysis Based on Sinusoidal Model with Time-Varying

2015. – 8 p.

27. A Low-Delay Algorithm for Instantaneous Pitch Estimation / E. Azarov, M.

28. Azarov, E. Speech enhancement in quasi-periodic noises using improved

spectral subtraction based on adaptive sampling / E. Azarov, M. Vashkevich,

notes in computer science. Springer. – 2014.  Vol. 8773.  P. 24–33 (invited paper).

вука. – 2014. – С. 93129.

Computer Sciences.  2015.  Vol. 49, № 2.  P. 110–121.

ровая обработка сигналов.  2015. – № 1.  С. 3–10.

A. Petrovsky // AES Convention paper 9265.  2015. – 10 p.

Parameters / E. Azarov, M. Vashkevich, A. Petrovsky // AES Convention paper 9267. 

Vashkevich, D. Likhachov, A. Petrovsky // AES Convention paper 9268.  2015. – 9 p.

A. Petrovsky // Speech and computer, Lecture notes in computer science. Springer. 

2015.  Vol. 9319.  P. 405–412.

37

Статьи в сборниках материалов научных конференций,

включенных в системы международного цитирования

(Scopus, Web of Knowledge и IEEE Xplore digital library)

29. Azarov, E. Linear prediction of deterministic components in hybrid signal re-

presentation / E. Azarov, A. Petrovsky // Proceedings of 2010 IEEE International Sym-

10.1109/ISCAS.2010.5537055.

30. Azarov, E. Multi voice text to speech synthesis based on the instantaneous pa-

rametric voice conversion / E. Azarov, P. Zubrycki, A. Petrovsky // Proceedings of IEEE

Signal Processing Algorithms, Architectures, Arrangements, and Applications Confe-

Xplore digital library.

31. Azarov, E. Real-time voice conversion based on instantaneous harmonic pa-

rameters / E. Azarov, A. Petrovsky // Proceedings of IEEE International Conference on

10.1109/ICASSP.2011.5947514.

32. Azarov, E. Low-delay hearing aid based on cochlear model with nonuniform

subband acoustic feedback cancellation / M. Vashkevich, E. Azarov, A. Petrovsky //

Proceedings of IEEE European Signal Processing Conference (EUSIPCO'12), Buchar-

brary.

33. Azarov, E. Instantaneous pitch estimation based on RAPT framework /

E. Azarov, M. Vashkevich, A. Petrovsky // Proceedings of IEEE European Signal

2012. – P. 2787–2791, база IEEE Xplore digital library.

34. Azarov, E. Instantaneous Harmonic Representation of Speech Using Multi-

component Sinusoidal Excitation / E. Azarov, M. Vashkevich, A. Petrovsky // Proceed-

ings of Annual Conference of the International Speech Communication Association

SCOPUS.

35. Real-time Voice Conversion Using Artificial Neural Networks with Rectified

Linear Units / E. Azarov, M. Vashkevich, D. Likhachov, A. Petrovsky // Proceedings of

Annual Conference of the International Speech Communication Association (INTERS-

posium on Circuits and Systems (ISCAS’10), Paris, May 30 – June 2, 2010.  Paris,

2010.

P.

2662–2665,

база

IEEE

Xplore

digital

library:

DOI:

rence (SPA), Poznan, September 23–25, 2010.  Poznan, 2010.  P. 78–82, база IEEE

Acoustics, Speech, and Signal Processing (ICASSP'11), Prague, May 22–27, 2011. 

Prague,

2011.

P.

5140–5143,

база

IEEE

Xplore

digital

library:

DOI:

est, August 27–31, 2012.  Bucharest, 2012. – P. 514–518, база IEEE Xplore digital li-

Processing Conference (EUSIPCO'12), Bucharest, August 27–31, 2012.  Bucharest,

(INTERSPEECH'13), Lyon, August 25–29, 2013.  Lyon, 2013.  P. 1697–1701, база

38

SCOPUS.

36. Real-time and Non-real-time Voice Conversion Systems with Web Interfaces /

E. Azarov, M. Vashkevich, D. Likhachov, A. Petrovsky // Proceedings of Annual Con-

ference of the International Speech Communication Association (INTERSPEECH'13),

37. Azarov, E. Guslar: a framework for automated singing voice correction /

E. Azarov, M. Vashkevich, A. Petrovsky // Proceedings of IEEE International Confe-

rence on Acoustics, Speech, and Signal Processing (ICASSP'14), Florence, Italy, May

10.1109/ICASSP.2014.6855142.

38. Azarov, E. Instantaneous parameters estimation algorithm for noisy AM-FM

oscillatory signals / E. Azarov, M. Vashkevich, A. Petrovsky // The 22nd European Sig-

nal Processing Conference (EUSIPCO'14) 2014, Lisbon, Portugal, September 1–5,

Статьи в сборниках материалов научных конференций

39. Исследование связи между квазигармоническими составляющими рече-

вого сигнала / И.С. Азаров, В.И. Воробьев, А.Г. Давыдов, А.А. Петровский // Сес-

сия Научного совета РАН по акустике и XXIV сессия Российского акустического

40. Азаров, И.С. Оценка мгновенных гармонических параметров речевых

сигналов на основе узкополосной фильтрации / И.С. Азаров, А.А. Петровский //

ИИ–2011. Искусственный интеллект. Интеллектуальные системы : материалы XI

Междунар. науч.-практ. конф., Кацивели, АР Крым, Украина, 19 – 23 сентября,

2011 г. – Кацивели, 2011.

41. Вашкевич, М.И. Слуховой аппарат на основе кохлеарной модели с суб-

полосным подавлением эффекта обратной связи / М.И. Вашкевич, И.С. Азаров,

А.А. Петровский // Цифровая обработка сигналов и ее применение : труды 15-й

42. Voice conversion systems with web interface / E. Azarov, M. Vashkevich, D.

Likhachov, A. Petrovsky // Science. Innovation. Production : Proceedings of the 2nd Be-

larus-Korea Forum, Minsk, November 19–20, 2013. – Minsk, 2013.

PEECH'13), Lyon, France, August 25–29, 2013.  Lyon, 2013.  P.1032–1036, база

Lyon, August 25–29, 2013.  Lyon, 2013.  P. 2662–2663, база SCOPUS.

4–9, 2014.  Florence, 2014. – P. 7969–7973, база IEEE Xplore digital library: DOI:

2014.  Lisbon, 2014.  P. 989–993, база IEEE Xplore digital library.

общества : сб. трудов науч.-техн. конф., Саратов, 12–15 сентября, 2011.  Саратов,

2011.  С. 16–20.

Междунар. конф., Россия, Москва, 2729 марта, 2013 г. : в 2 т. – Москва, 2013. – Т.

1.  С. 132–135.

39

43. Изменение основного тона речевого сигнала в реальном масштабе вре-

мени / И.С. Азаров, М.И. Вашкевич, Д.С. Лихачев, А.А. Петровский // Междуна-

родная научно-техническая конференция, приуроченная к 50-летию МРТИ-

БГУИР : материалы конф., Минск, 18–19 марта, 2014 г. : в 2 т. – Минск, 2014. – Т.

44. Передискретизация речевого сигнала, согласованная с частотой основно-

го тона / М.И. Вашкевич, И.С. Азаров, Д.С. Лихачев, А.А. Петровский // Между-

народная научно-техническая конференция, приуроченная к 50-летию МРТИ-

БГУИР : материалы конф., Минск, 18–19 марта, 2014 г. : в 2 т. – Минск, 2014. – Т.

45. Азаров, И.С. Реализация слухового аппарата на мобильной вычисли-

тельной платформе / И.С. Азаров, М.И. Вашкевич, А.А. Петровский // Цифровая

обработка сигналов и ее применение : труды 16-й Междунар. конф., Россия, Мо-

46. Азаров, И.С. Исследование возможности использования мобильной вы-

числительной платформы iPhone для коррекции слуха / И.С. Азаров, М.И. Вашке-

вич, А.А. Петровский // Цифровая обработка сигналов и ее применение : труды

16-й Междунар. конф., Россия, Москва, 26–28 марта, 2014 г. : в 2 т. – Москва,

47. Singing voice correction system with smartphone interface / E. Azarov, M.

Vashkevich, D. Likhachov, A. Petrovsky // The 39th International Conference on

Acoustics, Speech and Signal Processing (ICASSP'14) 2014, Florence, Italy, May 4–9,

48. Реализация слухового протеза на современных мультимедийных плат-

формах для коррекции тугоухости легкой и средней степени / М.И. Вашкевич,

И.С. Азаров, Д.С. Лихачев, А.А. Петровский // Средства медицинской электрони-

ки и новые медицинские технологии (МЕДЭЛЕКТРОНИКА’14) : сб. науч. ст. 8-й

С. 147–150.

49. Азаров, И.С. Раздельное моделирование речевого сообщения в виде го-

лосовых, фонетических и просодических параметров / И.С. Азаров, А.А. Петров-

ский // Открытые семантические технологии проектирования интеллектуальных

систем (OSTIS’2015) : материалы Междунар. науч.-техн. конф., Минск, 19–21

50. Азаров, И.С. Повышение комфорта и качества работы оператора. Систе-

ма автоматической коррекции голоса и слуха / И.С. Азаров // Международный

1.  С. 274–275.

1.  С. 308–309.

сква, 26–28 марта, 2014 г. : в 2 т. – Москва, 2014. – Т. 1.  С. 151–155.

2014. – Т. 1.  С. 155–159.

2014.  Florence, 2014.

Междунар. науч.-техн. конф., Минск, 10–11 декабря, 2014г.  Минск, 2014. –

февраля, 2015 г.  Минск, 2015. – С. 513–518.

40

бизнес-форум Call Center World Forum (CCWF'15) : материалы конф., Москва, 24–

51. Анализаторы сигналов для мультимедийных приложений: методы, алго-

ритмы и реализация / И.С. Азаров, М.И. Вашкевич, А.А. Петровский, Д.С. Лиха-

чев // Цифровая обработка сигналов и ее применение : труды 17-й Междунар.

52. Real-time pitch modification system for speech and singing voice / E. Azarov,

M. Vashkevich, D. Likhachov, A. Petrovsky // Proceedings of Annual Conference of the

International Speech Communication Association (INTERSPEECH'15), Dresden, Ger-

25 марта, 2015 г.  Москва, 2015.

конф., Россия, Москва, 25–27 марта, 2015 г. : в 2 т. – Москва, 2015. – Т. 1.  С. 17.

many, September 6–10, 2015.  Dresden, 2015. – P. 1070–1071.

41

РЭЗЮМЭ

Азараў Ілья Сяргеевіч

МЕТАДЫ АНАЛІЗУ І СІНТЭЗУ КВАЗІПЕРЫЯДЫЧНЫХ СІГНАЛАЎ З

НЕСТАЦЫЯНАРНЫМІ ПАРАМЕТРАМІ ДЛЯ АПРАЦОЎКІ МАЎЛЕНЧАЙ

ІНФАРМАЦЫІ Ў СІСТЭМАХ МУЛЬТЫМЕДЫЯ

Ключавыя словы: гарманічная (сінусаідальная) мадэль квазіперыядычнага

сігналу з нестацыянарнымі параметрамі, аналіз гуку і маўленчага сігналу,

гібрыднае параметрычнае апісанне сігналу, змена асноўнага тону, тэмбру і

маштабу часу, сінтэз маўлення па тэксце, канверсія голасу, шумападаўлення.

Мэта работы: распрацоўка спецыяльных метадаў і алгарытмаў для аналізу і

сінтэзу квазіперыядычных сігналаў з нестацыянарнымі параметрамі і пабудова на іх

аснове новых сістэм апрацоўкі маўленчай інфармацыі.

Метады даследавання: у працы выкарыстоўваліся метады матэматычнага

мадэліравання,

лічбавай

апрацоўкі

сігналаў,

спектральнага

аналізу,

параметрычнага мадэліравання сігналаў, метады лічбавага мадэліравання на ЭВМ.

Атрыманыя вынікі і іх навізна: распрацоўка метадалагічных асноў апрацоўкі

нестацыянарных квазіперыядычных сігналаў для праектавання сістэм лічбавай

апрацоўкі маўлення з высокай якасцю рэканструкцыі, у якія ўваходзяць

тэарэтычныя метады і алгарытмічныя сродкі здабывання, інтэрпрэтацыі і

апрацоўкі маўленчай інфармацыі. Распрацаваныя метады апрацоўкі маўленчых

сігналаў на аснове мадэляў з нестацыянарнымі параметрамі даюць шырокія

магчымасці для праектавання новых і ўдасканальвання існуючых сістэм апрацоўкі

маўленчай інфармацыі, у якія ўваходзяць сістэмы кадзіравання, мадэліравання

прасодыкі, змянення голасу, сінтэзу маўлення па тэксце, павышэння выразнасці і

шумападаўлення.

Ступень выкарыстання: метады апрацоўкі гукавых і маўленчых сігналаў,

праграмныя сродкі ўкаранѐны на прадпрыемствах Рэспублікі Беларусь і Расійскай

Федэрацыі: ТАА «МИКРОСИСТЕМЫ», г. Масква, РФ; ТАА «БИФРИ», г. Санкт-

Пецярбург, РФ; ЗАТ «Ай-Ти Мобайл», Масква, РФ; ЗАТ «АйТиФо Ю», Масква,

РФ «НТ Лаб-сістэмы», Мінск, РБ.

Вобласць

прымянення:

распрацаваныя

метады

параметрычнага

мадэліравання

квазіперыядычных

нестацыянарных

сігналаў

могуць

выкарыстоўвацца для вырашэння розных задач апрацоўкі маўленчай інфармацыі,

у тым ліку для распазнавання, класіфікацыі, кадзіравання і сінтэзу.

42

РЕЗЮМЕ

Азаров Илья Сергеевич

МЕТОДЫ АНАЛИЗА И СИНТЕЗА КВАЗИПЕРИОДИЧЕСКИХ СИГНАЛОВ С

НЕСТАЦИОНАРНЫМИ ПАРАМЕТРАМИ ДЛЯ ОБРАБОТКИ РЕЧЕВОЙ

ИНФОРМАЦИИ В СИСТЕМАХ МУЛЬТИМЕДИА

Ключевые слова: гармоническая (синусоидальная) модель квазипериодиче-

ского сигнала с нестационарными параметрами, анализ звука и речи, гибридное

параметрическое описание сигнала, изменение частоты основного тона, тембра и

временного масштаба, синтез речи по тексту, конверсия голоса, шумоподавление.

Цель работы: разработка специальных методов и алгоритмов для анализа и

синтеза квазипериодических сигналов с нестационарными параметрами и по-

строение на их основе новых систем обработки речевой информации.

Методы исследования: в работе использовались методы математического

моделирования, цифровой обработки сигналов, спектрального анализа, парамет-

рического моделирования сигналов, методы цифрового моделирования на ЭВМ.

Полученные результаты и их новизна: развитие методологических основ об-

работки нестационарных квазипериодических сигналов для проектирования сис-

тем цифровой обработки речи с высоким качеством реконструкции, включающих

теоретические методы и алгоритмические средства извлечения, интерпретации и

обработки речевой информации. Разработаны методы обработки речевых сигна-

лов на основе моделей с нестационарными параметрами, создающие широкие

возможности для проектирования новых и совершенствования существующих

систем обработки речевой информации, включая системы кодирования, модели-

рования просодики, изменения голоса, синтеза речи по тексту, повышения разбор-

чивости и шумоподавления.

Степень использования: методы обработки звуковых и речевых сигналов,

программные средства внедрены на предприятиях Республики Беларусь и Россий-

ской Федерации: ООО «МИКРОСИСТЕМЫ», г. Москва, РФ; ООО «БИФРИ»,

г. Санкт-Петербург, РФ; ЗАО «Ай-Ти Мобайл», Москва, РФ; ЗАО «АйТиФо Ю»,

Москва, РФ «НТ Лаб-системы», Минск, РБ.

Область применения: разработанные методы параметрического моделиро-

вания квазипериодических нестационарных сигналов могут использоваться для

решения различных задач обработки речевой информации, в том числе для распо-

знавания, классификации, кодирования и синтеза.

43

SUMMARY

Elias Azarov

METHODS FOR ANALYSIS AND SYNTHESIS OF QUASIPERIODIC SIGNALS

WITH NONSTATIONARY PARAMETERS FOR SPEECH INFORMATION

PROCESSING IN MULTIMEDIA SYSTEMS

Key words: harmonic (sinusoidal) model of a quasiperiodic signal with nonstatio-

nary parameters, analysis of audio and speech, hybrid parametric representation of a sig-

nal, pitch, timbre and time scale modifications, text to speech synthesis, voice conver-

sion, noise reduction.

Objective: developing of special methods and algorithms for analysis/synthesis of

quaiperiodic signals with nonstationary parameters and designing new speech

processing systems.

Research methods: the methods used in the paper are of theoretical and experi-

mental nature including methods of mathematical modeling, digital signal processing,

spectral analysis, parametric modeling, digital modeling on PC.

Results and their novelty: developing of methodological basis for processing of

quasiperiodical signals for design digital signal processing systems with high reconstruc-

tion quality, including theoretical methods and algorithmic means of extraction, interpre-

tation and processing of speech information. Some methods were developed for speech

processing based on models with nonstationary parameters, that create wide possibilities

for designing new and developing existent speech processing systems including coding,

prosody modeling, voice changing text to speech synthesis, increasing intelligibility and

noise reduction.

Efficiency: the methods of audio and speech processing, the software are inte-

grated into the products at the enterprises of the Republic of Belarus and the Russian

Federation: JSC «MICROSYSTEMS», Minsk, RB; JSC «BIFRI», Saint–Petersburg,

RF; JSC «IT-Mobile», Moscow, RF; JSC «ITForYou», Moscow, RF, PRPUE «NTLab

system», Minsk, RB.

Field of application: developed methods of parametric modeling of quaiperiodic

nonstationary signals can be applied to different problems of speech processing includ-

ing recognition, classification, coding and synthesis.

44

Научное издание

Азаров Илья Сергеевич

МЕТОДЫ АНАЛИЗА И СИНТЕЗА КВАЗИПЕРИОДИЧЕСКИХ

СИГНАЛОВ С НЕСТАЦИОНАРНЫМИ ПАРАМЕТРАМИ ДЛЯ

ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ В СИСТЕМАХ

МУЛЬТИМЕДИА

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

доктора технических наук

по специальности 05.13.17 – Теоретические основы информатики

Подписано в печать

Формат 60x84 1/16

Бумага офсетная.

Гарнитура «Таймс».

Отпечатано на ризографе.

Усл. печ. л.

Уч.-изд. л.

Тираж 60 экз.

Заказ

Издатель и полиграфическое исполнение: учреждение образования

«Белорусский государственный университет информатики и радиоэлектроники»

Свидетельство о государственной регистрации издателя, изготовителя,

распространителя печатных изданий № 1/238 от 24.04.2014,

№ 2/113 от 07.04.2014, № 3/615 от 07.04.2014.

ЛП № 02330/264 от 14.04.2014.

220013, Минск, П. Бровки, 6



 




 
© 2015 www.z-pdf.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.