авторефераты диссертаций www.z-pdf.ru
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
 

На правах рукописи

АЛИМУРАДОВ Алан Казанферович

АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД

ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННО-

ИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ

Специальность 05.11.16 – Информационно-измерительные

и управляющие системы (приборостроение)

А в т о р е ф е р а т

диссертации на соискание ученой степени

кандидата технических наук

ПЕНЗА 2015

Работа выполнена на кафедре «Информационно-измерительная тех-

ника и метрология» Федерального государственного бюджетного образова-

тельного учреждения высшего профессионального образования «Пензен-

ский государственный университет».

Научный руководитель

доктор технических наук, профессор

Чураков Петр Павлович

Официальные оппоненты:

Иосифов Валерьян Павлович,

доктор технических наук, доцент,

Институт сервиса и технологий (филиал)

ФГБОУ ВПО «Донской государственный

технический университет» (г. Пятигорск),

профессор кафедры «Информационные

системы, технологии и связь»;

Доросинский Антон Юрьевич,

кандидат технических наук,

ФГБОУ ВПО «Пензенский государственный

технологический университет», доцент

кафедры «Информационные технологии

и системы»

Ведущая организация

ФГАОУ ВО «Самарский государственный

аэрокосмический университет имени

академика С. П. Королева (национальный

исследовательский университет)»

Защита диссертации состоится 22 декабря 2015 г., в 14 часов, на засе-

дании диссертационного совета Д212.186.02 в ФГБОУ ВПО «Пензенский

государственный университет» по адресу: 440026, г. Пенза, ул. Красная, 40.

С диссертацией и авторефератом можно ознакомиться в библиотеке

ФГБОУ ВПО «Пензенский государственный университет» и на сайте:

http://dissov.pnzgu.ru/ecspertiza/alimypadov

Автореферат разослан «____» __________ 2015 г.

Ученый секретарь

диссертационного совета

2

Светлов Анатолий Вильевич

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы. Применение голосового управления в качестве

интерфейса взаимодействия получило широкую популярность в информа-

ционно-измерительных и управляющих системах (ИИУС). Голосовое

управление основано на технологии распознавания речи, представляющей

собой обработку речевых сигналов с целью фильтрации и подавления шу-

ма, сегментации на информативные участки, определения информативных

параметров, отражающих уникальные свойства речи. Корректное распозна-

вание речи – одна из самых интересных и сложных задач голосового

управления.

Значительную роль в создание и развитие технологии распознавания

речи внесли российские и зарубежные ученые: Б. М. Лобанов, Т. К. Винцюк,

А. В. Фролов, Г. В. Фролов, М. А. Сапожников, В. Г. Михайлов, Л. В. Зла-

тоусова, Л. Р. Рабинер, Р. В. Шафер, У. А. Ли, Д. Х. Клетт, Xuedong D.

Huang, Hsiao-Wuen Hon, Alex Acero и др. Их научные труды позволили ре-

шить множество фундаментальных и прикладных задач в области обработ-

ки речевых сигналов. Однако это не стало причиной снижения интереса

к проблеме повышения эффективности обработки речевых сигналов, и ра-

бота в данной области в настоящее время ведется очень активно.

На сегодняшний день существует достаточное количество систем го-

лосового управления (СГУ). 97 % этих систем представляют собой про-

граммные продукты для управления компьютеризированной техникой,

и 3 % - это устройства голосового управления. Среди производителей сле-

дует отметить зарубежные компании Google, Apple, Microsoft, Nuance,

Linguatec, IBM и российские Insyte, Home Sapiens, Центр речевых технологий.

Наибольший интерес в СГУ представляют алгоритмы и узлы обра-

ботки речевых сигналов. Из-за низкой эффективности традиционных мето-

дов обработки речевых сигналов использование существующих алгоритмов

и узлов в специализированных условиях становится непродуктивным, что

существенно ограничивает применение голосового управления в специали-

зированных ИИУС.

По этой причине актуальным представляется усовершенствование

существующих и разработка новых алгоритмов и узлов с применением ме-

тодов обработки речевых сигналов, обеспечивающих повышение эффек-

тивности голосового управления.

Объектом исследования являются системы и подсистемы голосово-

го управления ИИУС специального назначения.

Предметом исследования являются алгоритмы построения и струк-

туры узлов фильтрации и сегментации, выделения информативных пара-

метров и анализа метрологических характеристик СГУ.

Целью диссертационного исследования является совершенствование

существующих и разработка новых алгоритмов и узлов обработки нели-

нейных и нестационарных речевых сигналов на основе метода комплемен-

3

тарной множественной декомпозиции на эмпирические моды (КМДЭМ),

обеспечивающих повышение эффективности подсистем голосового управ-

ления ИИУС.

Задачи исследования:

1. Классификация и сравнительный анализ основных технических ха-

рактеристик существующих СГУ с целью определения путей их совершен-

ствования.

2. Классификация и сравнительный анализ методов адаптивной обра-

ботки нелинейных и нестационарных речевых сигналов, основанных на де-

композиции на эмпирические моды (ДЭМ), создание верифицированной

базы данных речевых сигналов.

3. Разработка алгоритма и узла фильтрации нестационарных фоновых

шумов с использованием метода КМДЭМ на основе анализа шумовых

и энергетических характеристик эмпирических мод (ЭМ).

4. Разработка алгоритма и узла сегментации сигнал/пауза с использо-

ванием метода КМДЭМ на основе анализа логарифма энергетических ха-

рактеристик ЭМ.

5. Разработка алгоритма и узла измерения частоты основного тона

(ЧОТ) с использованием метода КМДЭМ на основе анализа логарифма

энергетических характеристик и частотно-временного анализа ЭМ.

6. Разработка алгоритма и узла определения и распознавания мел-

частотных кепстральных коэффициентов (МЧКК) с использованием метода

КМДЭМ на основе анализа информационных и кепстральных характери-

стик ЭМ.

7. Реализация, исследование и внедрение подсистемы голосового

управления ИИУС на основе разработанных алгоритмов и узлов.

Методы исследования. В работе использовались методы обработки

речевых сигналов КМДЭМ, спектрального и статистического анализа, ма-

тематического моделирования и теории распознавания образов. Для прове-

дения исследований применялось программирование в средах MATLAB,

LabVIEW, QT и C#.

Научная новизна работы:

1. Усовершенствованы алгоритм и узел фильтрации нестационарных

фоновых шумов, основанные на методе КМДЭМ и анализе шумовых и

энергетических характеристик ЭМ, определении моды, содержащей основ-

ной шум, с последующим компонентным анализом.

2. Разработаны оригинальные алгоритм и узел сегментации сиг-

нал/пауза, основанные на методе КМДЭМ и анализе логарифма энергети-

ческих характеристик ЭМ и пороговой обработке кратковременных фраг-

ментов с определением границ сигнала и пауз с учетом физиологического

аспекта формирования речи.

3. Усовершенствованы алгоритм и узел измерения ЧОТ, основанные

на методе КМДЭМ и анализе логарифма энергетических характеристик ЭМ

4

с определением и частотно-временным анализом моды, содержащей основ-

ной тон (ОТ), и использованием функции оператора Тигра для измерения

частоты.

4. Разработаны оригинальные, обладающие повышенной точностью

алгоритм и узел определения и распознавания МЧКК, основанные на мето-

де КМДЭМ и анализе информационных кепстральных характеристик ЭМ.

5. Предложена и реализована методика обработки речевых команд

подсистемы голосового управления ИИУС в виде оптимизированной по-

следовательности фильтрации нестационарных фоновых шумов, сегмента-

ции сигнал/пауза, измерения ЧОТ, определения и распознавания МЧКК.

6. Программно и структурно реализована подсистема голосового

управления ИИУС на языках объектно-ориентированного программирова-

ния QT и C# для голосового управления ИИУС домашней автоматизации

по беспроводному протоколу передачи данных Z-Wave.

Практическую значимость работы представляют:

1. Методика и узлы обработки речевых команд подсистем голосового

управления ИИУС, позволяющие улучшить характеристики фильтрации

нестационарные фоновых шумов, сегментации границ сигнала и паузы, из-

мерения ЧОТ, определения и распознавания МЧКК.

2. Верифицированная база данных речевых сигналов.

3. Аппаратная реализация подсистемы голосового управления ИИУС

на миникомпьютере Raspberry Pi Model B.

4. Структурная и электрическая схема соединений узлов аппаратно-

программной реализации подсистемы голосового управления ИИУС до-

машней автоматизации по беспроводному протоколу передачи данных

Z-Wave.

На защиту выносятся:

1. Классификация и результаты сравнительного анализа существую-

щих СГУ и применяемых в них методов обработки речевых команд. Ре-

зультаты анализа методов ДЭМ, их преимуществ и недостатков, пути

их преодоления применительно к задачам обработки речевых команд

в СГУ.

2. Технологический процесс обработки речевых команд подсистемы

голосового управления ИИУС.

3. Основанные на методе КМДЭМ методика, алгоритмы и узлы об-

работки речевых команд, выполняющие задачи фильтрации нестационар-

ных фоновых шумов, сегментации сигнал/пауза, измерения ЧОТ, опреде-

ления и распознавания МЧКК.

4. Методика оценки эффективности алгоритмов построения и узлов

обработки речевых команд, позволяющая провести объективный анализ ре-

зультатов.

5

5. Результаты исследований в средах программирования Matlab,

LabVIEW, подтверждающие эффективность разработанных алгоритмов и

узлов обработки в сравнении с известными методами и системами.

6. Аппаратно-программная реализация методики обработки речевых

команд в подсистеме голосового управления ИИУС домашней автоматиза-

ции по беспроводному протоколу передачи данных Z-Wave.

Реализация и внедрение результатов исследования. Результаты

теоретических и экспериментальных исследований использовались при

выполнении работы по грантам:

управления "Умным домом"» - грант правительства Пензенской области

по программе «Развитие инновационной деятельности в Пензенской облас-

ти» по соглашению № 380 о предоставлении из бюджета Пензенской об-

ласти субсидии малого (среднего) предпринимательства на создание собст-

венного бизнеса в сфере инноваций от 20 января 2012 г.;

ки речевых сигналов при патологических отклонениях в работе системы

органов дыхания и разработка программного модуля контроля и прогнози-

рования заболеваний органов дыхания по речи говорящего для терминала

здоровья «Health Point» - грант Федерального государственного бюджет-

ного учреждения «Фонд содействия развитию малых форм предприятий в

научно-технической сфере» по договору № 20963 от 1 апреля 2013 г. о пре-

доставлении гранта на проведение научно-исследовательских работ;

нического назначения для людей с ограниченными возможностями» -

грант Федерального государственного бюджетного учреждения «Фонд со-

действия развитию малых форм предприятий в научно-технической сфере»

по договору № 01/17249 от 5 апреля 2013 г о предоставлении гранта на

проведение научно-исследовательских работ;

зации для людей с ограниченными возможностями» - грант Федерального

агентства по делам молодежи в рамках всероссийского конкурса молодеж-

ных проектов 2013 г. в номинации «Инновации» (приказ № 2359-р от 16 де-

кабря 2013 г. Министерства образования и науки РФ);

ми» - грант Федерального агентства по делам молодежи в рамках всерос-

сийского конкурса молодежных проектов 2014 г. в номинации «Инновации

и научно-техническое творчество» (приказ № 2262-р от 14 ноября 2014 г.

Министерства образования и науки РФ);

ботки речевых сигналов и разработка программного обеспечения голосово-

го управления системой домашней автоматизации Z-Wave» - грант Феде-

рального государственного бюджетного учреждения «Фонд содействия

развитию малых форм предприятий в научно-технической сфере» по дого-

6

«Разработка и организация производства системы голосового

«Исследование методов, способов и средств эффективной обработ-

«Разработка и исследование системы управления средствами тех-

«Устройство голосового управления системой домашней автомати-

«Система "Умный дом" для людей с ограниченными возможностя-

«Исследование методов, алгоритмов и средств эффективной обра-

вору (соглашению) № 0006792 ГС1/6792 от 23 января 2015 г. о предостав-

лении гранта на проведение научно-исследовательских и опытно-конст-

рукторских работ.

Результаты исследования используются в подсистемах обработки ре-

чевых команд систем голосового управления (проходят испытания в ООО

МИП «Центр коммерциализации речевых технологий», г. Пенза). Докумен-

ты о внедрении представлены в приложении В.

Результаты

теоретических

и

экспериментальных

исследований

внедрены в учебный процесс кафедры «Информационно-измерительная

техника и метрология» ФГБОУ ВПО «Пензенский государственный уни-

верситет» для подготовки бакалавров по направлениям 12.03.01 – «Прибо-

ростроение»: профиль подготовки 1 «Информационно-измерительная тех-

ника и технологии»; профиль подготовки 2 «Приборы и оборудование для

нефтегазового комплекса».

Апробация работы. Основные положения и результаты работы док-

ладывались и обсуждались на всероссийских и международных конферен-

циях, на инновационных и инвестиционных форумах: МНПК студентов

и молодых ученых «Модели, системы, сети в экономике, технике, природе

и обществе» (Пенза, 2012–2015); НТК с международным участием «Пер-

спективные информационные технологии в научных исследованиях, проек-

тировании и обучении ПИТ» (Самара, 2013, 2015); МНТК «Проблемы ав-

томатизации и управления в технических системах» (Пенза, 2013–2015);

Всероссийская НТК «Информационные технологии в науке и производст-

ве», (Самара, 2013); региональный молодежный форум «Открытые иннова-

ции – вклад молодежи в развитие региона» (Пенза, 2013); МНПК «Инже-

нерные и научные приложения на базе технологий NI NIDays - 2014»

(Москва, 2014); МНПК «Современные научные исследования: инновации

и опыт» (Екатеринбург, 2014); Международная молодежная научная кон-

ференция «Молодежь и XXI век - 2015»; (Курск, 2015), International

Siberian Conference on Control and Communications (SIBCON-2015) (Omsk,

2015).

Публикации. По материалам диссертационной работы опубликовано

47 печатных работ, в том числе 6 статей в ведущих журналах перечня ВАК

РФ и 6 статей в зарубежных изданиях, индексируемых в базах Scopus

и Web of Science. Исследования и разработки отражены в 7 отчетах по

НИОКР, получены 2 свидетельства о государственной регистрации про-

грамм для ЭВМ и 1 свидетельство о государственной регистрации базы

данных.

Структура и объем работы. Диссертационная работа состоит

из введения, четырех глав, выводов, списка использованной литературы

из 241 наименования и 3 приложений. Диссертация изложена на 222 стра-

ницах машинописного текста и содержит 98 рисунков, 36 таблиц.

7

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность работы, сформулированы цель

и основные задачи исследования, показаны научная новизна и практиче-

ская ценность работы, приведены основные положения, выносимые на за-

щиту.

В первой главе проводится анализ предметной области и рассматри-

ваются особенности, параметры и характеристики речевого сигнала. Рече-

вой сигнал - это нелинейный и нестационарный сигнал сложной формы,

образуемый артикуляционным отделом речевого аппарата человека с це-

лью передачи информации. Как любой сигнал, речевой сигнал характери-

зуется измерительными параметрами, которые должны быть учтены при

совершенствовании и разработке алгоритмов и узлов обработки речевых

команд для СГУ. Голосовое управление - это способ взаимодействия поль-

зователя с ИИУС с помощью управляющих речевых команд, который сво-

дится к задаче распознавания отдельных слов или словосочетаний.

Проведен обзор современного состояния СГУ и представлена их

классификация по основным параметрам. В настоящее время существует

достаточное количество СГУ, основным параметром которых является

точность распознавания речи при различных отношениях сигнал/шум.

Проведенный анализ существующих систем показал необходимость уве-

личения точности распознавания за счет повышения помехоустойчи-

вости.

Наибольший интерес в СГУ представляют применяемые в них алго-

ритмы и узлы обработки речевых сигналов. Однако в силу коммерческой

тайны производители не предоставляют данную информацию.

Рассмотрены особенности обработки речевых команд в СГУ, и пред-

ставлено подробное описание основных методов обработки, классификация

которых представлена на рисунке 1. Каждая задача обработки речевых сиг-

налов может быть решена только с помощью определенных методов. Дан-

ная классификация демонстрирует многообразие методов обработки рече-

вых сигналов.

Из приведенной классификации следует, что повышения эффектив-

ности СГУ можно достичь путем улучшения характеристик узлов, решаю-

щих конкретные задачи обработки речевых сигналов. Одним из перспек-

тивных методов решения этих задач является метод ДЭМ. Суть этого

метода состоит в том, что сигналы, используемые в обработке в качестве

опорных, формируются из самого исходного сигнала. Это предопределило

выбор направления работы и задач, решаемых в ней.

8

Рисунок 1 – Классификация методов обработки речевых сигналов

Во второй главе рассмотрен технологический процесс обработки ре-

чевых команд в СГУ (рисунок 2), включающий регистрацию (1) – аудиозах-

ват речевой команды в режиме реального времени и преобразование ее

в цифровой вид; фильтрацию (2) – выделение информативных состав-

ляющих, подавление шумов и устранение естественных искажений, возни-

кающих при формировании команды; определение информативных

участков (3) – выделение определенных частей сигнала, содержащих ин-

формацию об уникальных свойствах речи; определение информативных

параметров (4) – выявление амплитудно-частотных, спектрально-времен-

ных и кепстральных характеристик речевых команд; формирование базы

данных шаблонов (5) и данных сигнала (6) – объединение всех видов ин-

формативных параметров в один вектор; распознавание (7) – сравнение

поступившей в систему речевой команды с шаблоном из базы данных, по-

лученным в ходе обучения СГУ.

Результаты анализа СГУ и применяемых в них методов обработки,

показали, что повышения эффективности обработки речевых сигналов

можно достичь формированием адаптивного, функционально зависимого

от содержания самого сигнала базиса. Такой подход реализуется в матема-

тическом аппарате, называемом методом ДЭМ, являющимся новой техно-

логией обработки нелинейных и нестационарных сигналов. В результате

ДЭМ из исходного речевого сигнала извлекается конечное число ЭМ и ре-

зультирующий остаток:

i1

где x(t) – речевой сигнал; I – количество ЭМ, полученных в результате де-

композиции; i – номер ЭМ; IMFi(t) – ЭМ, rI(t) – результирующий остаток.

9

I 1

x(t) 

IMFi(t)  rI (t),

(1)

(2)

(3)

Рисунок 2 – Технологический процесс обработки речевых команд в СГУ

Сравнительный анализ существующих методов декомпозиции вы-

явил два основных метода: множественной декомпозиции на эмпирические

моды (МДЭМ) и комплементарной множественной декомпозиции на эмпи-

рические моды (КМДЭМ). Особенностью методов МДЭМ и КМДЭМ явля-

ется многократное добавление к исходному речевому сигналу бесконечно

малой амплитуды белого шума и вычислении среднего значения получен-

ных ЭМ как конечного результата:

y (t)  x(t)  wj (t),

j

J

j1

IMFji (t)

IMFi(t) 

,

J

где yj(t) – зашумленный речевой сигнал; wj(t) – добавленный белый шум;

IMFji(t) rjI(t – ЭМ и остаток, полученные при различных декомпозициях,

j = 1, 2, …, J

лого шума).

10

,

)

– количество циклов декомпозиций (добавлений к сигналу бе-

J

j1

rjI (t)

,

(4)

J

rI (t) 

Добавление белого шума позволяет устранить эффект смешивания

ЭМ, состоящих из разных участков сигнала, отличающихся по частотному

и амплитудному масштабам.

Выявлено, что наиболее применимым для обработки речевых сигна-

лов является метод КМДЭМ, реализуемый добавлением к исходному рече-

вому сигналу белого шума с прямым и инверсным значениями:

где yj(t) – сумма зашумленного речевого сигнала с белым шумом; yj(t)*

сумма зашумленного речевого сигнала с инверсным по знаку белым шумом.

Среднее значение полученных ЭМ обеспечивает полное удаление оста-

точного белого шума за счет взаимного подавления пары прямых и инверс-

ных значений, независимо от того, сколько сигналов шума использовалось.

На основе метода КМДЭМ разработаны усовершенствованные алго-

ритм и узел фильтрации нестационарных фоновых шумов (рисунок 3).

Рисунок 3 – Блок-схема алгоритма узла фильтрации на основе метода КМДЭМ

Утолщенной линией отмечены блоки, введенные автором. Суть алго-

ритма узла фильтрации заключается в анализе шумовых и энергетических

характеристик ЭМ (блоки 5, 6):

11

x(t)

(5)

(t)

1

,

1

wj

y (t)

j

1

y (t)* 1

j

где LEi,ther – пороговые значения логарифмов энергии ЭМ.

Далее, используя пороговую обработку, выполняется сравнение зна-

чений логарифмов энергии ЭМ остальных фрагментов с пороговыми зна-

чениями и проверка условия LEi LEi,ther (блоки 9-11). В случае если усло-

вие выполняется, то фрагмент является полезным сигналом s = ssignal,

а если условие не выполняется, то - паузой s = ssilence.

12

(9)

Eiei

2

S S

ns

a

,

(6)

S

где ans,i – весовой шумовой коэффициент; S – общее количество фрагмен-

тов ЭМ; Sns – количество шумовых фрагментов в ЭМ;

ae,i

,

(7)

Ei

где ae,i – весовой энергетический коэффициент; Ei – значение энергии ЭМ;

ei – среднее значение энергии первых 200 мс сигнала ЭМ.

Человек перед произношением голосовой команды делает кратко-

временную паузу - обычно 200 мс или более. Этот участок не содержит ре-

чи и соответствует тишине с фоновым шумом.

По результатам анализа, используя пороговую обработку, определя-

ется мода, содержащая основной шум (блоки 7-9). Если коэффициенты

ans,i, ans,i приближаются к минимальному значению, то соответствующая

ЭМ считается модой с основным шумом.

Далее, применяя независимый компонентный анализ (блок 11) к ис-

ходному сигналу и ЭМ с основным шумом, осуществляется непосредст-

венная фильтрация шума.

Разработаны оригинальные алгоритм и узел сегментации сиг-

нал/пауза с использованием метода КМДЭМ (рисунок 4). Суть алгоритма

узла сегментации заключается в анализе логарифма энергетических харак-

теристик ЭМ кратковременных фрагментов (блок 7):

N

LEi,s  log2

IMFi,s (n) ,

(8)

n1

где LEi,s – логарифм энергии ЭМ кратковременного фрагмента; N – количе-

ство отсчетов во фрагменте; s – номер фрагмента.

По результатам анализа, используя физиологический аспект форми-

рования речи, определяются пороговые значения логарифмов энергии ЭМ

(блок 8).

Используя усредненные значения логарифмов энергии ЭМ, форми-

руются пороговые значения логарифмов энергии для обнаружения границ

полезного сигнала и фонового шума паузы:

ns,i

10

s1

LEi,s,

1

10

LEi,thres

Рисунок 4 - Блок-схема алгоритма узла сегментации на основе метода КМДЭМ

Разработаны усовершенствованные алгоритм и узел измерения ЧОТ

с использованием метода КМДЭМ (рисунок 5).

Рисунок 5 – Блок-схема алгоритм узла измерения ЧОТ на основе метода КМДЭМ

13

(10)

где LEthers.min и LEthers.max – пороговые значения, соответствующие мини-

мальному и максимальному значению логарифма энергии ЭМ с ОТ соот-

ветственно; LEi – текущее значение логарифма энергии ЭМ.

Определение ЭМ с ОТ основано на предположении, что моды, со-

держащие вокализованную речь, имеют большую энергию, чем моды с не-

вокализованной речью. По этой причине для дальнейшего анализа будут

использоваться ЭМ, содержащие большую энергию.

Используя фильтр Чебышева, осуществляется фильтрация (блок 9).

Далее, применяя функцию оператора Тигра, производится измерение ЧОТ

(блоки 9-11):

(11)

где Ф[IMFi,ОТ(n)] – функция оператора Тигра; IMFi,ОТ(n) – дискретное зна-

чение ЭМ с ОТ в n-м отсчете;

LEthres.min  LEiLEthers.max ,

Утолщенной линией отмечены блоки, введенные автором. Суть алго-

ритма узла измерения ЧОТ заключается в анализе логарифма энергетиче-

ских характеристик ЭМ (блок 5) по формуле 7, в соответствии с ранее

представленным алгоритмом.

По результатам анализа, используя пороговую обработку, определя-

ется ЭМ с ОТ (блок 8):

[IMFi,ОТ(n)]  IMFi,ОТ(n)2  IMFi,ОТ(n 1)IMFi,ОТ(n 1),

 maxi

fd

,

(12)

где fЭМi,ОТ – ЧОТ ЭМ, Фmaxi+1, Фmaxi – максимумы функции оператора

Тигра; i, i + 1 – номера максимумов функции оператора Тигра; fd – частота

дискретизации.

Разработаны оригинальные алгоритм и узел определения и распозна-

вания МЧКК с использованием метода КМДЭМ (рисунок 6).

Суть алгоритма узла определения и распознавания МЧКК заключает-

ся в анализе информативности ЭМ и формирования набора информативных

сигналов (блок 5):

22



i0

i0

где xab,i(n) – информативный сигнал; x(n) – исходный сигнал речевой

команды; a, b – коэффициенты, определяющие участие ЭМ в формирова-

нии набора информативных сигналов сигнала.

По результатам анализа, используя кестральные характеристики ЭМ,

осуществляется вычисление, нормализация и приращение МЧКК (блок 7).

Далее определяется наиболее приемлемый информативный сигнал, обеспе-

чивающий наилучшую точность распознавания (блоки 9, 10).

14

xab,i (n)  x(n)  (a

IMFi1(n)  b

IMFI i (n),

(13)

 maxi1

fЭМi,ОТ 

Рисунок 6 - Блок-схема алгоритма узла определения и распознавания МЧКК

с использованием метода КМДЭМ

В третьей главе предложена и реализована методика оценки эффек-

тивности узлов обработки речевых команд, позволяющая провести объек-

тивный анализ результатов работы алгоритмов. Создана верифицированная

база данных, состоящая из 2000 чистых речевых сигналов (звуков, слов

и словосочетаний), произнесенных 200 людьми (мужчинами и женщинами)

по 10 раз, длительностью записи не менее 10 000 мс с частотой дискретиза-

ции 8000 Гц и разрядностью квантования 16 бит.

В пакете прикладных программ проведены исследование и анализ

критериев оценки эффективности разработанных алгоритмов и узлов.

Окончательные результаты исследования сравнивались с известными алго-

ритмами и методами.

Эффективность фильтрации нестационарных фоновых шумов оцени-

валась посредством анализа выходного значения отношения сигнал/шум:

Aout.signal

Aout.noise ,

SNROUT  20log10

(14)

где Asignal, Anoise - амплитудное значение полезного сигнала и шума.

На рисунке 7,а представлены результаты фильтрации в сравнении

с известными методами: метод на основе дискретного косинусного преоб-

разования (Discrete Cosine Transform, DCT) с мягкой пороговой обработкой

(SDCT); метод на основе двухэтапного повышения разборчивости речи

15

(Two-Stage Speech Enhancement, TSSE); метод на основе жесткой и мягкой

пороговой обработки (Hard and Soft Thresholding, HST); метод на основе

взвешенного вычитание шума и слепого разделения сигнала (Weighted

Noise Subtraction and Blind Signal Separation, WNS+BSS).

а)

б)

в)

г)

Рисунок 7 – Результаты работы разработанных узлов в сравнении

с известными методами:

а - фильтрация нестационарных фоновых шумов; б - сегментация сигнал/пауза;

в - изменение ЧОТ; г - определение и распознавание МЧКК

Как видно из результатов, разработанный узел обеспечивает мини-

мальное значение остаточного шума и имеет наилучший результат SNROUT

в среднем: на 24 % лучше, чем метод SDCT; на 23 % лучше, чем метод

TSSE; на 16 % лучше, чем метод HST; на 25 % лучше, чем метод WNS+BSS.

Эффективность сегментации сигнал/пауза осуществлялась посредством

анализа значений коэффициента действительных обнаружений сигнала:

Scor.speech

DRspeech

100 %,

(15)

где Scor.speech - действительный фрагмент сигнала; Sn.cor.speech - мнимый фраг-

мент сигнала.

На рисунке 7,б представлены результаты сегментации сигнал/пауза

в сравнении с известными методами: метод на основе кратковременной

энергии (Short-time Energy, STE) и количества переходов сигнала через

нуль в короткие промежутки времени (Short-time Zero-crossing Rate, ZCR);

метод на основе информационной энтропии (Information Entropy, IE); метод

16

Scor.speechSn.cor.speech

1

SFPE

MFPE

100 %,

(16)

fОТ,true(s)

SFPE

s1

на основе МЧКК (Mel-frequency cepstrum coefficients, MFCC). Как видно

из результатов, разработанный узел обеспечивает наилучший результат

DRspeech: в среднем на 17 % лучше, чем метод STE; на 14 % лучше, чем ме-

тод STE + ZCR; на 9 % лучше, чем метод IE; на 7 % лучше, чем метод

MFCC.

Эффективность измерения ЧОТ осуществлялась посредством анализа

значений коэффициента мелких ошибок:

где SFPE - количество вокализованных фрагментов без грубых ошибок;

fОТ,true - истинное значение ЧОТ; fОТ,est - оценочное значение ЧОТ; s - но-

мер вокализованного фрагмента.

На рисунке 7,в представлены результаты измерения ЧОТ в сравнении

с известными методами: метод на основе устойчивого алгоритма отслежи-

вания ОТ (Robust Algorithm for Pitch Tracking, RAPT); метод на основе ус-

тойчивого алгоритма отслеживания мгновенного значения ОТ (Instantane-

ous Robust Algorithm for Pitch Tracking, IRAPT); метод на основе алгоритма

измерения ОТ пилообразной формы (Sawtooth Waveform Inspired Pitch Es-

timator, SWIPE); метод на основе автокорреляционной функций и ее моди-

фикаций («YIN»). Как видно из результатов, разработанный узел обеспечи-

вает наилучший результат MFPE в среднем: на 32 % лучше, чем метод

RART; на 21 % лучше, чем метод IRART; на 29 % лучше, чем метод SWIPE;

на 34 % лучше, чем метод «YIN».

Эффективность определения и распознавания МЧКК осуществлялась

посредством анализа точности распознавания:

100 %,

(17)

где T - точность распознавания; Wtrue - правильно распознанные речевые

команды; Wtotal - общее количество речевых команд.

На рисунке 7,г представлены результаты определения и распознава-

ния МЧКК в сравнении с известными методами определения МЧКК, ис-

пользуемыми в готовых программных компонентах распознавания с от-

крытым исходным кодом: «CMU Sphinx», «RWTH ASR» (RASR), «Julius»

и «Simon». Как видно из результатов, разработанный узел обеспечивает

наилучшее значение точности распознавания T в среднем: на 4,4 % лучше,

чем метод «CMU Sphinx»; на 6,3 % лучше, чем метод «RWTH ASR»;

на 4,8 % лучше, чем метод «Julius»; на 5,5 % лучше, чем метод «Simon».

В четвертой главе разработана методика практической обработки

речевых команд для подсистемы голосового управления ИИУС, основан-

ная на ранее предложенных алгоритмах и узлах. Особенность методики об-

работки заключается в оптимизации повторяющихся в каждом их четырех

алгоритмов блоков обработки (рисунок 8).

17

fОТ,true(s)  fОТ,est (s)

Wtrue

Wtotal

T

Рисунок 8 – Методика обработки речевых команд подсистемы

голосового управления ИИУС

На базе регионального центра технологий National Instruments кафед-

ры «Радиотехника и радиоэлектронные системы» ФГБОУ ВПО «Пензен-

ский государственный университет» реализован виртуальный прибор под-

системы голосового управления в среде LabVIEW. Пример лицевой панели

виртуального прибора представлен на рисунке 9.

Рисунок 9 – Лицевая панель виртуального прибора подсистемы обработки

речевых команд

Лицевая панель представляет собой пример голосового управления

с помощью пяти речевых команд (вперед, назад, вправо, влево и стоп), по-

зволяет графически проиллюстрировать сигнал речевой команды до и по-

сле обработки, а также демонстрирует результат распознавания.

18

На рисунке 10 представлена разработанная структурная схема под-

системы голосового управления ИИУС домашней автоматизации, которая

состоит из следующих модулей: обработки, визуализации, регистрации,

питания, аудио и Z-Wave.

Рисунок 10 – Структурная схема подсистемы голосового управления ИИУС

домашней автоматизации

Разработана электрическая схема соединений подсистемы голосового

управления и проведены выбор и обоснование элементной базы: модуль

обработки реализован на базе миникомпьютера Raspberry Pi Model B; мо-

дуль визуализации на базе TFT-дисплея 2.8" USB TFT display for Raspberry

Pi; модуль регистрации на базе микрофона Мини USB 2.0 микрофон MIC;

модуль питания на AC/DC конвертора Traco Power TML 05105; модуль

аудио на базе динамической головки 26CR08FE.

Для обеспечения работы подсистемы обработки речевых команд СГУ

и совместимости с персональным компьютером на языке объектно-ориен-

тированного программирования C# разработано специальное программное

обеспечение, являющееся надстройкой над программным обеспечением

управления по беспроводному протоколу передачи данных Z-Wave.

В приложениях представлены:

в приложении А – листинг программы «Определение частоты ос-

новного тона речевого сигнала»;

в приложении Б – листинг программы «Подавления помех в ре-

чевых сигналах»;

в приложении В – документы о внедрении результатов диссер-

тационной работы.

19

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

1. Проведена классификация и сравнительный анализ существующих

СГУ и применяемых в них методов обработки речевых команд. Проведен

анализ методов ДЭМ, выявлены преимущества, недостатки и пути их пре-

одоления применительно к задачам обработки речевых команд.

2. Предложен технологический процесс обработки речевых команд

подсистемы голосового управления ИИУС. Разработана верифицированная

база данных, состоящая из 2000 речевых сигналов (звуков, слов и словосо-

четаний).

3. Предложены и разработаны усовершенствованный алгоритм и узел

фильтрации нестационарных фоновых шумов с использованием метода

КМДЭМ, улучшающие в среднем на 22 % отношение сигнал/шум SNROUT

по сравнению с известными методами.

4. Предложены и разработаны оригинальный алгоритм и узел сег-

ментации сигнал/пауза с использованием метода КМДЭМ, улучшающие

в среднем на 11 % коэффициент действительных обнаружений сигнала

DRspeech по сравнению с известными методами.

5. Предложены и разработаны усовершенствованный алгоритм и узел

измерения ЧОТ с использованием метода КМДЭМ, уменьшающие в сред-

нем на 29 % коэффициент мелких ошибок MFPE по сравнению с извест-

ными методами.

6. Предложены и разработаны оригинальный алгоритм и узел опре-

деления и распознавания МЧКК с использованием метода КМДЭМ, повы-

шающие в среднем на 9 % точность распознавания T по сравнению с из-

вестными методами.

7. Предложена методика обработки речевых команд подсистемы го-

лосового управления ИИУС, основанная на разработанных алгоритмах и

узлах обработки и представляющая собой оптимизированную последо-

вательность операций: фильтрации нестационарных фоновых шумов, сег-

ментации сигнал/пауза, измерения ЧОТ, определения и распознавания

МЧКК.

8. Разработаны структурная схема и схема электрическая соединений

подсистемы голосового управления ИИУС домашней автоматизации по

беспроводному протоколу передачи данных Z-Wave.

ОСНОВНЫЕ ПУБЛИКАЦИИ ПО ТЕМЕ ДИССЕРТАЦИИ

Публикации в изданиях, рекомендованных ВАК РФ

1. Алимурадов, А. К. Фильтрация речевых сигналов с использованием ме-

тода множественной декомпозиции и оценки энергии эмпирических мод /

А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Известия высших учебных за-

ведений. Поволжский регион. Технические науки. - 2012. - № 2 (22). - С. 50-61.

2. Алимурадов, А. К. Интеллектуальная обработка речевых сигналов в систе-

мах автоматического управления / А. К. Алимурадов, А. Ю. Тычков // Известия ка-

бардино-балкарского государственного университета. - 2012. - Т. 2. - № 5. - С. 66-67.

20

3. Алимурадов, А. К. Программная реализация алгоритма распознавания

речевых сигналов в графической среде программирования LabVIEW / А. Ю. Тыч-

ков, А. К. Алимурадов, М. В. Французов, П. П. Чураков // Метрология. - 2015. -

№ 3. - С. 17-25.

4. Алимурадов, А. К. Методы повышения эффективности распознавания

речевых сигналов в системах голосового управления / А. К. Алимурадов,

Ф. Ш. Муртазов // Измерительная техника. - 2015. - № 10. - С. 20-24.

5. Алимурадов, А. К. Помехоустойчивый адаптивный алгоритм сегмента-

ции «сигнал/пауза» для систем распознавания речи / А. К. Алимурадов, П. П. Чу-

раков // Известия высших учебных заведений. Поволжский регион. Технические

науки. - 2015. - № 2 (34). - С. 82-94.

6. Алимурадов, А. К. Исследование частотно-избирательных свойств ме-

тодов декомпозиции на эмпирические моды для оценки частоты основного тона ре-

чевых сигналов / А. К. Алимурадов // Труды МФТИ. - 2015. - Т. 7, № 3. - С. 56-68.

Публикации в других изданиях

7. Алимурадов, А. К. Определение частоты основного тона речевого сигна-

ла с использованием метода множественной декомпозиции на эмпирические мо-

ды / А. К. Алимурадов, П. П. Чураков, А. Ю. Тычков // Модели, системы, сети

в экономике, технике, природе и обществе. - 2012. - № 1 (2). - С. 121-126.

8. Алимурадов, А. К. Выбор оптимального набора информативных па-

раметров речевых сигналов для систем голосового управления / А. К. Алимура-

дов, П. П. Чураков, А. Ю. Тычков // Измерение. Мониторинг. Управление. Кон-

троль. - 2013. - № 1 (3). - С. 16-20.

9. Алимурадов, А. К. Применение преобразования Гильберта-Хуанга в за-

даче выделения информативных признаков речевых сигналов / А. К. Алимура-

дов, А. Ю. Тычков // Международный научно-исследовательский журнал. -

2013. - № 5-1 (12). - С. 57-58.

10. Алимурадов, А. К. Исследование и разработка верифицированной базы

звуков речи для анализа речевых сигналов / А. К. Алимурадов, А. Ю. Тычков,

Ю. С. Квитка, Д. А. Ярославцева // Современные проблемы компьютерных наук

(СПКН-2013) : сб. материалов I МНПК. - Пенза, 2013. - С. 156-159.

11. Алимурадов, А. К. Обзор параметров и классификация систем голо-

сового управления / А. К. Алимурадов // Открытые инновации - вклад молодежи

в развитие региона : сб. материалов регионального молодежного форума : в 2 т. -

Пенза : Изд-во ПГУ, 2013. - Т. 1. - С. 13-16.

12. Алимурадов, А. К. Обработка речевых команд в системах голосового

управления / А. К. Алимурадов // Измерение. Мониторинг. Управление. Конт-

роль. - 2014. - № 1 (7). - С. 50-57.

13. Чураков, П. П. Изучение методов анализа и обработки сигналов : учеб.

пособие : в 2 ч. / П. П. Чураков, А. Ю. Тычков, А. К. Алимурадов. - Пенза :

Изд-во ПГУ, 2014. - Ч. 1 : Современные методы обработки речевых сигналов. - 72 с.

14. Алимурадов, А. К. Применение комплементарной множественной де-

композиции на эмпирические моды для анализа речевых сигналов / А. К. Алиму-

радов, Ю. С. Квитка // Измерение. Мониторинг. Управление. Контроль. - 2014. -

№ 4 (10). - С. 69-75.

21

15. Чураков, П. П. Разработка виртуального устройства декомпозиции на

эмпирические моды для обработки биомедицинских сигналов / П. П. Чураков,

А. Ю. Тычков, А. К. Алимурадов, А. В. Кузьмин // Инженерные и научные при-

ложения на базе технологий NI NIDays-2014 : сб. тр. ХIII МНПК. - М. :

ДМК-пресс, 2014. - С. 173-175.

16. Алимурадов, А. К. Применение метода декомпозиции на эмпирические

моды в задачах обработки речевых сигналов / А. К. Алимурадов, А. Ю. Тычков //

Современные научные исследования: инновации и опыт : тр. VI МНПК. - Екате-

ринбург : Изд-во межотраслевого института «Наука и образование», 2014. -

С. 12-15.

17. Alimuradov, A. K. Speech signals filtering using the ensemble empirical

mode decomposition method and the intrinsic mode functions energy assessment /

A. K. Alimuradov // International Journal of Applied Engineering Research. - 2015. -

Vol. 10, N. 2. - P. 3175-3185.

18. Kuzmin, A. V. The development of effective noise biomedical signals proc-

essing method / A. V. Kuzmin, A. Yu. Tychkov, A. K. Alimuradov // International

Journal of Applied Engineering Research. - 2015. - Vol. 10, № 3. - P. 8527- 8531.

19. Алимурадов, А. К. Адаптивный алгоритм предварительной обработки

речевых сигналов для оценки частоты основного тона / А. К. Алимурадов // Про-

блемы автоматизации и управления в технических системах - 2015 : сб. тр.

XXXI МНТК. - Пенза : Изд-во ПГУ, 2015. - С. 103-106.

20. Alimuradov, A. K. Noise-robust speech signals processing for the voice

control system based on the complementary ensemble empirical mode decomposition,

2015 / A. K. Alimuradov, P. P. Churakov / International Siberian Conference on Con-

trol and Communications (SIBCON-2015), May 21-23, 2015, Russia. - Omsk,

2015. - 6 p.

21. Development of Virtual Device for Empirical Modes Decomposition of

Biomedical Signals, 2015 / P. P. Churakov, A. Yu. Tychkov, A. K. Alimuradov,

A. V. Kuzmin // International Siberian Conference on Control and Communications

(SIBCON-2015), May 21-23, 2015, Russia. - Omsk, 2015. - 3 p.

Свидетельства о государственной регистрации

22. Свидетельство

о

государственной

регистрации

базы

данных

№ 2013621400. Верифицированная база речевых сигналов / А. Ю. Тычков, А. К.

Алимурадов, Ю. С. Квитка, Д. А. Ярославцева // Программы для ЭВМ, базы дан-

ных, топологии интегральных микросхем ; заявл. 13.09.13 ; опубл. 06.10.2013.

23. Свидетельство о государственной регистрации программы для ЭВМ №

2012615470. Определение частоты основного тона речевого сигнала / А. К. Али-

мурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы данных, то-

пологии интегральных микросхем ; заявл. 26.04.12 ; опубл. 18.06.2012.

24. Свидетельство о государственной регистрации программы для ЭВМ №

2012615337.

Программа

подавления

помех

в

речевых

сигналах

/

А. К. Алимурадов, А. Ю. Тычков, П. П. Чураков // Программы для ЭВМ, базы

данных, топологии интегральных микросхем ; заявл. 26.04.12 ; опубл. 14.06.2012.

22

Научное издание

Алимурадов Алан Казанферович

АЛГОРИТМЫ И УЗЛЫ ОБРАБОТКИ РЕЧЕВЫХ КОМАНД

ПОДСИСТЕМ ГОЛОСОВОГО УПРАВЛЕНИЯ ИНФОРМАЦИОННО-

ИЗМЕРИТЕЛЬНЫХ И УПРАВЛЯЮЩИХ СИСТЕМ

Специальность 05.11.16 – Информационно-измерительные

и управляющие системы (приборостроение)

Редактор Е. Г. Акимова

Технический редактор Н. В. Иванова

Компьютерная верстка Н. В. Ивановой

Распоряжение № 21/76-2015 от 21.10.2015.

Подписано в печать 22.10.15. Формат 60×841/16.

Усл. печ. л. 1,16. Заказ № 924. Тираж 100.

_______________________________________________________

Издательство ПГУ.

440026, Пенза, Красная, 40.

Тел./факс: (8412) 56-47-33; e-mail: iic@pnzgu.ru

23

24



Похожие работы:

«Согрин Иван Юрьевич СОВЕРШЕНСТВОВАНИЕ ПЕРЕВОЗОК ГРУЗОВ ЧЕРЕЗ УЗЛОВЫЕ ТЕРМИНАЛЫ Специальность: 05.22.08 – Управление процессами перевозок АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2015 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Петербургский государственный университет путей сообщения императора Александра 1 (ФГБУ ВПО ПГУПС) на кафедре Логистика и...»

«Шумский Леонид Дмитриевич Методы и программные средства интеграции приложений с использованием внешней шины. Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей АВТОРЕФЕРАТ Диссертации на соискание ученой степени кандидата технических наук Автор: Москва – 2015 Работа выполнена в Национальном исследовательском ядерном университете МИФИ. Научный руководитель: доктор технических наук, профессор Вольфенгаген...»

«Полывяный Юрий Владимирович ИНТЕНСИФИКАЦИЯ СБИВАНИЯ СЛИВОЧНОГО МАСЛА РОТОРНО-ЛОПАСТНЫМ РАБОЧИМ ОРГАНОМ МАСЛОИЗГОТОВИТЕЛЯ ПЕРИОДИЧЕСКОГО ДЕЙСТВИЯ Специальность 05.20.01 – технологии и средства механизации сельского хозяйства АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата технических наук Пенза – 2015 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Пензенская государственная...»





 
© 2015 www.z-pdf.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.