авторефераты диссертаций www.z-pdf.ru
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
 

На правах рукописи

Будыльский Дмитрий Викторович

АВТОМАТИЗАЦИЯ МОНИТОРИНГА ОБЩЕСТВЕННОГО

МНЕНИЯ НА ОСНОВЕ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА

СООБЩЕНИЙ В СОЦИАЛЬНЫХ СЕТЯХ

Специальность 05.13.10 – «Управление в социальных

и экономических системах»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Брянск – 2015

ГКОУ

ВПО

Работа выполнена в ФГБОУ ВПО «Брянский государственный технический

университет»

Научный руководитель

Подвесовский Александр Георгиевич,

кандидат технических наук, доцент, заведующий

кафедрой

«Информатика

и

программное

обеспечение»

ФГБОУ

ВПО

«Брянский

государственный технический университет»

Официальные оппоненты

Камаев Валерий Анатольевич,

заслуженный

деятель

науки

РФ,

доктор

технических

наук,

профессор,

заведующий

кафедрой

«Системы

автоматизированного

проектирования и поискового конструирования»

ФГБОУ ВПО «Волгоградский государственный

технический университет»

Сазонов Михаил Анатольевич,

кандидат

технических

наук,

старший

«Академия

преподаватель

Федеральной

службы

охраны

Российской

федерации», г. Орел

Ведущая организация

ФГБОУ ВПО «Пензенский государственный

университет»

Защита состоится «15» декабря 2015 года в 14:00 на заседании диссертационного

совета Д 212.021.03 на базе ФГБОУ ВПО «Брянский государственный технический

университет» по адресу: г. Брянск, ул. Харьковская, д. 10-Б, учебный корпус № 4,

ауд. Б101.

С диссертацией можно ознакомиться в библиотеке ФГБОУ ВПО «Брянский

государственный технический университет» и по адресу в сети интернет

http://www.tu-bryansk.ru/content/nauka/zacsh.

Отзывы на автореферат присылать по адресу: 241035 г. Брянск, бульвар 50 лет

Октября, 7, ФГБОУ ВПО «Брянский государственный технический университет».

Автореферат разослан _______________.

Ученый секретарь

диссертационного совета

кандидат технических наук, доцент

М.Ю. Рытов

3

Общая характеристика работы

Актуальность темы исследования. Общественное мнение сегодня является

важным индикатором состояния социально-экономической системы, поскольку от-

ражает уровень социальной напряженности. Учет и контроль этого уровня позволя-

ет выстраивать стратегическое планирование для обеспечения устойчивого разви-

тия социально-экономической системы, будь то промышленное предприятие, субъ-

ект Российской Федерации или государство в целом. В связи с этим, мониторинг об-

щественного мнения является важным и актуальным инструментом управления, ак-

тивно применяемым социально-политическими, финансово-экономическими и об-

щественными структурами.

Активный рост аудитории социальных медиа в сети Интернет, таких как соци-

альные сети, форумы, блоги и интернет-СМИ, привел к становлению этих ресурсов

в качестве нового источника данных о мнении и настроении граждан. Специфика

работы с такими данными несет в себе целый ряд преимуществ и недостатков. К пре-

имуществам относится скорость доступа к информации, охват аудитории и спектр

выражаемых мнений. Одним из главных достоинств, как и серьезным препятствием,

является объем этих данных. Так, согласно статистике на 2015-й год, ежемесячно

в русскоязычных социальных сетях около 30 миллионов уникальных авторов пуб-

ликуют почти 580 миллиардов сообщений.

Миллиарды публикаций, оставляемых пользователями ежемесячно, невозмож-

но обработать вручную при проведении исследования общественного мнения.

Этот факт выдвигает на первый план потребность в методах автоматизированного

интеллектуального анализа текстовой информации, позволяющих за короткое вре-

мя обработать большие объемы данных и понять смысл пользовательских сообще-

ний. Именно понимание смысла сообщений является наиболее важным и сложным

элементом автоматизированной обработки.

Таким образом, актуальность диссертационной работы обусловлена необходи-

мостью развития методологического аппарата, который позволил бы использовать

большие объемы публикаций пользователей социальных сетей для решения ком-

плекса задач по автоматизации мониторинга общественного мнения.

Объектом исследования является процесс мониторинга общественного мнения

пользователей социальных сетей.

Предметом исследования является автоматизация мониторинга общественно-

го мнения на основе применения методов аспектного анализа тональности.

Целью диссертационной работы является разработка моделей, методов и ал-

горитмов аспектного анализа тональности текстовой информации, их применение

к публикациям в социальных сетях для совершенствования методов автоматизации

мониторинга общественного мнения.

Для достижения заданной цели необходимо решить следующие задачи:

разработать методику автоматизированного мониторинга социальных сетей,

позволяющую извлекать, хранить и анализировать пользовательские сообще-

ния;

4

выполнить исследование существующих подходов к аспектному анализу то-

нальности текстовой информации, определить наиболее эффективные методы

оценки тональности публикаций;

разработать методику автоматизации аспектного анализа тональности тексто-

вой информации на русском языке, полностью основанную на методах ма-

шинного обучения;

разработать программный комплекс, реализующий мониторинг публикаций

в социальных сетях и их аспектный анализ тональности на основе алгоритмов

машинного обучения;

провести экспериментальную проверку разработанных моделей аспектного

анализа тональности путем апробации на общедоступных наборах данных

и сравнения результатов с инженерно-лингвистическими и гибридными ме-

тодами;

провести экспериментальную проверку разработанного программного ком-

плекса в рамках прикладной задачи исследования общественного мнения.

Методы исследования. При выполнении работы использовались методы тео-

рии анализа социальных сетей (Social Network Analysis, SNA), методы обработки

естественного языка (Natural Language Processing, NLP), методы машинного обуче-

ния (Machine Learning), в том числе глубокого обучения (Deep Learning), а также

математический аппарат искусственных нейронных сетей. В ходе реализации про-

граммного комплекса были использованы методики построения высоконагружен-

ных распределенных систем с поддержкой хранения и обработки больших объемов

данных.

Соответствие диссертации паспорту специальности. Работа соответствует

паспорту специальности 05.13.10 «Управление в социальных и экономических си-

стемах»:

п. 5 – разработка специального математического и программного обеспечения

систем управления и механизмов принятия решений в социальных и экономи-

ческих системах;

п. 6 – разработка и совершенствование методов получения и обработки ин-

формации для задач управления социальными и экономическими системами;

п. 10 – разработка методов и алгоритмов интеллектуальной поддержки приня-

тия управленческих решений в экономических и социальных системах;

п. 12 – разработка новых информационных технологий в решении задач управ-

ления и принятия решений в социальных и экономических системах.

Научная новизна. В работе получены следующие результаты, характеризую-

щиеся научной новизной.

1. Предложена концептуальная модель автоматизированного анализа обще-

ственного мнения с использованием информации из социальных сетей. Мо-

дель основана на автоматизации процесса отслеживания текстовых публика-

ций в социальных сетях с их последующей автоматизированной интеллекту-

альной обработкой при помощи аспектного анализа тональности.

2. Предложен метод применения моделей глубокого обучения к задаче аспект-

ного анализа тональности текстовых данных на русском языке, использую-

Практическая значимость работы.

1. Разработана библиотека программных компонентов, позволяющая быстро

и гибко проектировать модели глубокого обучения различной сложности,

а также проводить эффективное обучение этих моделей на графических про-

цессорах.

2. Спроектирован и разработан программный комплекс мониторинга социаль-

ных сетей с поддержкой аспектного анализа тональности, ключевыми осо-

бенностями которого является отказоустойчивость и гибкая горизонтальная

масштабируемость.

3. На основе созданного программного комплекса формализован и упрощен

процесс анализа общественного мнения в социальных сетях для конечного

потребителя.

Достоверность исследований определяется использованием фундаментальных

методов машинного обучения при построении моделей, использовании общих ме-

тодов оценки эффективности моделей и алгоритмов глубокого обучения в задаче

аспектного анализа тональности русскоязычных текстов.

Реализация и внедрение результатов. Программный комплекс мониторинга

социальных сетей с поддержкой аспектного анализа тональности использовался

при исследовании общественного мнения граждан отдельных регионов ЦФО, про-

водимого Управлением информационного обеспечения деятельности Губернатора

Брянской области и Правительства Брянской области. Разработанная библиотека

программных компонентов внедрена в учебный процесс кафедры «Информатика

и программное обеспечение» ФГБОУ ВПО «Брянский государственный техниче-

ский университет» в рамках учебного модуля «Интеллектуальный анализ данных».

Основные положения, выносимые на защиту.

1. Концептуальная модель мониторинга информации в социальных сетях для

автоматизированного скрытого анализа общественного мнения.

2. Алгоритмы мониторинга текстовых публикаций в социальных сетях с под-

держкой аспектного анализа тональности.

3. Методика применения моделей глубокого обучения для решения задачи ас-

пектного анализа тональности текстовой информации на русском языке.

4. Архитектура созданного программного комплекса, основополагающие прин-

ципы ее построения: отказоустойчивость и гибкость при масштабировании.

5. Результаты сравнительной экспериментальной проверки реализованных ме-

тодов аспектного анализа тональности на корпусе русскоязычных текстов, ре-

зультаты апробации программного комплекса в решении прикладной задачи

оценки общественного мнения.

5

щий только алгоритмы машинного обучения, что позволяет исключить при-

влечение экспертов-лингвистов к задачам обработки текстов на естественном

языке.

3. Проведены экспериментальные исследования применимости методов вектор-

ного представления текстов на русском языке, оценены возможности этих

методов по автоматическому выявлению скрытых семантико-синтаксических

связей между словами.

6

Апробация работы. Основные научные и практические результаты работы

докладывались на научных конференциях: Creativity in Intelligent Technologies

& Data Science (Волгоград, 2015 г.); международная научно-практическая кон-

ференция «Современные концепции развития науки» (Уфа, 2015 г.); IV меж-

дународная научно-практическая конференция «Вопросы науки: современные

технологии и технический прогресс» (Воронеж, 2015 г.); XIX международная

научно-практическая конференция «Информационно-вычислительные технологии

и их приложения» (Пенза, 2015 г.); IV всероссийская научно-практическая конфе-

ренция студентов, аспирантов и молодых ученых «Актуальные проблемы совре-

менной науки: взгляд молодых» (Челябинск, 2015 г.); VI международная научно-

практическая конференция «Достижения молодых ученых в развитии инновацион-

ных процессов в экономике, науке, образовании» (БГТУ, Брянск, 2014); междуна-

родная молодежная научная конференция «Поколение будущего: взгляд молодых

ученых – 2013» (Курск, 2013 г.).

Результаты работы также были представлены на следующих конкурсах: конкурс

«УМНИК» («Участник молодежного научно-инновационного конкурса») – 1-е ме-

сто в номинации «Информационные технологии» (2014 г.); конкурс на лучшую на-

учную работу аспирантов, соискателей и молодых ученых Брянской области «Со-

временные научные достижения – 2015» – 3-е место.

Личный вклад автора. Представленные в рамках диссертационной работы об-

зоры, исследования и эксперименты являются результатами работы, проведенной

лично автором. Публикации, написанные вместе с соавторами, также отражают ре-

зультаты и положения, полученные непосредственно автором.

Основные результаты исследований отражены в 12 научных работах, из них 3 яв-

ляются публикациями в центральных рецензируемых журналах, рекомендованных

ВАК РФ, 1 статья опубликована в издании, индексируемом в международной биб-

лиографической базе данных Scopus.

Структура и объем работы. Диссертационная работа состоит из введения, пяти

глав, заключения, списка использованных источников, включающего 169 наимено-

ваний, и приложений. Основная часть работы изложена на 169 страницах машино-

писного текста, содержит 46 рисунков и 2 таблицы.

Содержание работы

Во введении приводится обоснование актуальности темы диссертации, ставятся

цель и задачи исследования, определяется научная новизна, теоретическая и прак-

тическая значимость работы, рассматривается структура работы, приводятся основ-

ные положения, выносимые на защиту.

В первой главе на основе работ Д.А. Новикова, О.В. Байдаловой, А.Ю. Бубнова,

И.Ф. Девятко, И.Н. Дементьевой, М.В. Дьяковой, Л.Ю. Землянской, Г.И. Козырева,

Е.А. Соловьевой, Е.П. Тавокина, Т.В. Усковой, Д.С. Хайруллова, О.К. Цапиевой

и др. показывается, что важной частью процесса управления социально-

экономической системой является мониторинг и анализ общественного мнения.

7

Утверждение особенно актуально при рассмотрении таких систем, как субъект

Российской Федерации (регион) или государство в целом.

Тенденция последних лет привела к адаптации методов сбора информации

об общественном мнении для специфики интернет-пространства. Особенно отме-

чается усиление роли онлайновых социальных сетей и других интернет-медиа в ка-

честве источников информации об отношении граждан к тем или иным событиям,

процессам и объектам. Согласно данным компаний ФОМ, TNS и Brand Analytics,

доля активной интернет-аудитории непрерывно растет, а также увеличивается ко-

личество пользователей социальных сетей.

Большие объемы данных, публично доступные в социальных сетях, требуют на-

личия методов автоматизированного сбора и, главное, интеллектуального анализа

информации. Обзор работ исследователей в области социологии и компьютерной

лингвистики позволяет выделить анализ тональности, как широко применяемый

и достаточно хорошо формализованный способ оценки мнений, выраженных в виде

текстовых сообщений.

Анализ тональности определяет отношение автора к обсуждаемому объек-

ту и, по своей сути, является задачей классификации. Это может быть би-

нарная («позитивный»-«негативный»), тернарная («позитивный»-«нейтральный»-

«негативный») или n-арная классификация (c введением таких промежуточных

классов тональности, как «умеренно позитивный», «сильно негативный» и др.).

Формальная постановка задачи имеет следующий вид. Пусть X – множество тек-

стовых фрагментов, Y – конечное множество классов тональности, φ : X Y –

целевая функция тональности, значения которой известны только на конечном под-

множестве сообщений обучающей выборки Xtrain = {(x1,y1),...,(xn,yn)}. Требует-

ся определить аппроксимирующую функцию тональности φ : X Y, способную

классифицировать произвольный текстовый фрагмент x ∈ X.

Однако, сообщения пользователей социальных сетей содержат, зачастую, сра-

зу несколько суждений в рамках одного текстового сообщения. Более полно ана-

лизировать отношение автора позволяет аспектный анализ тональности, который

выявляет эмоциональные оценки отдельно для каждого свойства объекта (аспекта).

Постановка задачи имеет следующие отличия:

Φ = {φaspect 1,..., φaspect m} – целевая функция аспектного анализа, представ-

ляющая собой композицию функций анализа тональности по каждому из ас-

пектов;

Φ = {φaspect 1,..., φaspect n} – аппроксимирующая функция аспектного анали-

за тональности;

Xtrain = {(x1,y1

1,...,y1

m),...,(xn,yn

1,...,yn

m)}.

Рассматривая, например, отзывы граждан о социально-экономическом положении

региона, в качестве аспектов можно выделить образование, здравоохранение, сферу

ЖКХ. Такой подход дает возможность не просто узнать положительное или отри-

цательное отношение гражданина, но и выявить проблемные сферы.

Среди методов, применяемых при решении задачи анализа тональности текстов

на русском языке, выделяются инженерно-лингвистические подходы, методы на ос-

нове машинного обучения и гибридные методы, включающие в себя элементы пер-

ˆ

ˆ

ˆ

ˆ

aspect

aspect

aspect

aspect

8

вых двух. Работы А.Ю. Антоновой, П. Блинова, В.Г. Васильева, Е.В. Котельникова,

А.Г. Пазельской, А. Пака, П. Паничевой, П.Ю. Полякова, Е.В. Тутубалиной и др.

показывают, что инженерно-лингвистические и гибридные методы на сегодняшний

день показывают лучшие результаты для русскоязычных текстов. Недостаток этих

методов заключается в необходимости привлечения экспертов-лингвистов, а так-

же в их неуниверсальности при переходе от одного языка к другому. Исследова-

тели, работающие с обработкой текстов на английском языке (Y. Kim, C. Manning,

T. Mikolov, J. Pennington, R. Socher, K. Tai) за последние 2 года предложили ряд

моделей машинного обучения, способных показывать результаты, превосходящие

другие группы методов. Отдельные алгоритмы, благодаря глубине производимых

нелинейных преобразований, относят к методам глубокого обучения.

Материалы первой главы обосновывают перспективность применения методов

глубокого обучения для аспектного анализа тональности, используемого при авто-

матизированном мониторинге общественного мнения на основе информации из со-

циальных сетей.

Вторая глава посвящена формализации процесса использования социальных

сетей при проведении анализа общественного мнения.

Рассматривая мониторинг как процесс непрерывного извлечения данных для по-

следующего анализа, отмечается, что ряд ограничений не позволяет собирать всю

поступающую в социальные сети информацию. Ввиду этого, мониторинг представ-

ляется в виде цикла по получению ограниченного множества сообщений w мощно-

стью m за интервал времени t. Выделить необходимые сообщения позволяет зада-

ние набора параметров запроса p (таких как ключевые слова или диапазон дат) и ука-

зание отдельных агентов (пользователей и сообществ) социальных сетей a ∈ A (A

множество всех агентов), публикации которых представляют интерес в рамках за-

дачи. Учитывая, что w может содержать «шумовые» сообщения (спам, сообщения-

ссылки и др.), необходимо предусмотреть набор правил f, который позволит ис-

ключить такие публикации из дальнейшего анализа. На основе описанных парамет-

ров, а также специфик и ограничений прикладных интерфейсов программирования

(API) каждой отдельно взятой социальной сети, строится концептуальная модель

мониторинга S:

S = w, m, t, a, p, f,

параметрами которой являются:

w = wfacebook ∪wvk ∪wtwitter ∪· · ·∪winstagram – совокупное множество сообще-

ний, извлекаемых из всех социальных сетей (Facebook, VK, Twitter, Instagram

и др.) за период времени t;

m = mfacebook + mvk + mtwitter + · · · + minstagram – общее число сообщений,

извлекаемых из социальных сетей за период времени t;

a = (afacebook ⊂ Afacebook) (avk ⊂ Avk) ∪ · · · ∪ (ainstagram ⊂ Ainstagram) –

совокупное множество агентов социальных сетей (отдельных пользователей,

сообществ), подверженных мониторингу;

p = pfacebook ∪pvk ∪ptwitter ∪· · ·∪pinstagram – совокупное множество параметров

запроса к прикладным интерфейсам программирования социальных сетей;

в сообщении, спам-фильтр и т.д.).

Мониторинг социальных сетей является лишь этапом получения и частичной об-

работки данных (применение фильтрационных правил). Полученные данные необ-

ходимо сохранить в системе с целью последующего интеллектуального анализа,

а затем провести необходимый анализ (согласно запросу пользователя) и предоста-

вить результаты. Схематически данный процесс изображен на рисунке 1.

Рисунок 1. Процесс мониторинга и анализа социальных сетей

Выделяется два типа тематик задач по прикладному исследованию обще-

ственного мнения. «Широкие» тематики характеризуется активным всесторонним

обсуждением, где буквально каждый пользователь может быть потенциальным

участником обсуждения, поскольку тема является повсеместно распространенной

(среди всех слоев населения во всех регионах). Примерами являются различные

социально-политические обсуждения: проблемы здравоохранения, общественного

9

f – набор фильтрационных правил (например, фильтр по количеству символов

10

порядка, предстоящие выборы и т.д. «Узкие» тематики, напротив, характеризуются

ограниченным сообществом участников обсуждения.

Для мониторинга социальных сетей можно использовать поиск по ключевым

словам (если такой функционал предоставляется социальной сетью), либо отсле-

живать публикации отдельного подмножества агентов. Поскольку мониторинг всех

агентов является нерациональным (и, зачастую, невозможным), необходимо опре-

делить способ отбора наиболее значимых пользователей и сообществ. В ходе рас-

смотрения методов теории анализа социальных сетей (с учетом ограничений API),

количество подписчиков заданного агента выделяется как наиболее эффективная

характеристика его значимости.

Материалы главы определяют следующие основные шаги процесса мониторин-

га социальных сетей с поддержкой аспектного анализа тональности:

выделение предметной области мониторинга, задание множества агентов со-

циальных сетей или ключевых слов для отслеживания;

автоматизированный мониторинг публикаций (включая комментарии, а так-

же отметки пользователей, характеризующие одобрение: «лайки», «репосты»,

«ретвиты»);

фильтрация извлеченных данных, подразумевающая исключение из дальней-

шего анализа сообщений, не представляющих интерес в рамках текущей зада-

чи;

аспектный анализ тональности текстовых сообщений;

предоставление результата анализа пользователю.

Важно заметить, что представленный процесс, обеспечивающий мониторинг ин-

формации в социальных сетях и ее последующий анализ, имеет некоторые ограни-

чения. Так, отдельные категории граждан (пожилые люди, малоимущие граждане)

могут не использовать социальные сети для выражения своих мнений. Однако, ди-

намика проникновения интернета в общество делает использование социальных се-

тям все более доступным. Также, ввиду естественных причин, доля представителей

пожилого поколения, использующих онлайн-ресурсы, с течением времени будет

увеличиваться.

Еще одним ограничением является обработка умышленно искаженной информа-

ции. Выявление информационных вбросов и подобного рода кампаний представля-

ет собой отдельную тему исследований, в то время как данная работа фокусируется

на мониторинге уже сформировавшегося мнения. В рамках представленной кон-

цептуальной модели можно предусмотреть исключение искаженной информации,

применяя отдельные фильтрационные правила, однако детальная проработка таких

правил выходит за рамки данной работы.

Третья глава фокусируется на исследовании методов машинного обучения,

применяемых для анализа тональности. Эти методы оперируют математическими

объектами, к которым не относится текст, поэтому начало главы посвящено спо-

собам представления текстовой информации в векторно-числовой форме. Подроб-

но рассмотрены передовые алгоритмы текстовой репрезентации word2vec и GloVe.

Они позволяют на основе больших объемов данных строить векторные представ-

ления, сохраняющие синтаксические и семантические связи между словами. При-

11

мер семантической связи – отношение слов «Россия» и «Москва». Эффективные

алгоритмы репрезентации, рассмотренные в главе, могут выявлять скрытую связь

«страна–столица» и корректно определять «Минск», если указано слово «Бела-

русь». Примерами синтаксических связей являются падежные формы существи-

тельных или сравнительные формы прилагательных.

GloVe и word2vec (включающий два подметода – CBOW и Skip-Gram) являются

алгоритмами машинного обучения без учителя, суть которых сводится к миними-

зации значения функции ошибки E.

CBOW: E = -

log∑

Skip-gram: E = -

log p(wt+j|wt).

V

t=1

-cjc,j=0

GloVe: E =

f(Xij)(wi wj + bi + b - log Xij)2.

CBOW основан на вероятности появления слова wt на основании контекстного окна

из 2 · c слов. Skip-gram, напротив, определяет окружающий контекст для заданного

слова. GloVe использует статистику взаимопоявлений слов в рамках ограниченного

контекста.

Второй важной особенностью анализа информации на естественном языке явля-

ется необходимость обработки последовательности слов (символов) произвольной

длины. Поскольку входные данные имеют нефиксированный формат, исключается

использование ряда методов машинного обучения. В главе детально рассматрива-

ются модели, эффективно применяющиеся в задаче анализа тональности:

рекуррентные нейронные сети (Recurrent Neural Networks, RNN);

сети GRU (Gated Recurrent Unit);

сети LSTM (Long Short-Term Memory);

сверточные нейронные сети (Convolution Neural Network);

рекурсивные нейронные сети (Recursive Neural Network).

Каждый метод хорошо зарекомендовал себя в задачах классификации, одна-

ко аспектный анализ тональности осложняется наличием произвольного количе-

ства свойств, каждое из которых необходимо оценивать отдельно от других. Ма-

териалы главы описывают подход, использующий слой независимых Softmax-

классификаторов в рамках единой модели. Например, однослойная рекуррентная

нейронная сеть, обеспечивающая классификацию m аспектов на n классов тональ-

ности, имеет следующий вид:

ŷaspect

Softmaxaspect (h(t))

Ŷ =

=

=

m

m

1

2

Softmax(W

tanh(W V

+ W h(t-1) + bh) + bc_aspect )

где Ŷ ∈ Rm×n – матрица, элементы ŷij которой определяют вероятность принад-

лежности i-го аспекта к j-му классу тональности, V

– векторное представление

̸

T

T

p(wt|wt-c,..., wt-1, wt+1,..., wt+c).

t=1

T

˜j

˜

i,j=1

1

ŷaspect2

Softmaxaspect (h(t))

Softmaxaspect (h(t))

hc_aspect1

hx

(t)

hh

hc_aspect2

hx

(t)

hh

...

hc_aspectm

hx

(t)

hh

(t)

1

2

...

...

ŷaspect

Softmax(W

tanh(W V

+ W h(t-1) + bh) + bc_aspect )

Softmax(W

tanh(W V

+ W h(t-1) + bh) + bc_aspect )

=

,

m

ляется по формуле

Для проведения более глубоких нелинейных преобразований, количество слоев

может быть увеличено. Обобщенная l-слойная рекуррентная модель представлена

на рисунке 2. Пунктирные стрелки обозначают возможное наличие двунаправлен-

ных связей в структуре модели. RNNl отражает слой вычисления скрытого состоя-

ния рекуррентной сети, который может вычисляться методами GRU или LSTM.

Рисунок 2. Обобщенная рекуррентная модель глубокого обучения для аспектного

анализа тональности

Исключив рекуррентную структуру и оставив только набор слоев для обработки

V

, можно моделировать сеть прямого распространения. Материалы главы обосно-

вывают исключение рекурсивных сетей из рассмотрения, поскольку они уступают

рекуррентным и сверточным в точности анализа и требуют больших трудозатрат.

В четвертой главе детально описываются архитектурные решения, принятые

при проектировании программного комплекса и реализованные при его создании.

12

последнего слова в тексте, h(t) и h(t-1) – скрытые состояния сети при обработке по-

следнего и предпоследнего слова текста соответственно. Функция Softmax опреде-

i

ex

Softmax(xi) =

.

j

ex

j

(t)

́

теки Theano.

Пятая глава разделена на три логические части. В первой части производится

апробация моделей векторного представления текстовой информации. Тестирова-

ние пяти алгоритмов (GloVe, word2vec CBOW-HS, word2vec CBOW-NEG, word2vec

SG-HS, word2vec SG-NEG) подтвердило их способность выявлять скрытые взаимо-

связи между словами русского языка. Критерий оценки – точность решения зада-

чи словесной аналогии, которая заключается в определении слова D при заданных

словах A, B и C, учитывая, что пары A,B и C,D имеют общую синтакси-

ческую или семантическую взаимосвязь. Например, при заданных словах «Россия»,

«Москва» и «Беларусь» выходным значением должно быть слово «Минск». Резуль-

таты точности определения 3580 аналогий представлены в таблице 1.

Таблица 1. Общая (семантическая / синтаксическая) точность моделей в задаче

определения словесной аналогии, %

Размер окна

5

10

15

Модель

Размер вектора

50

12,3 (15,5 / 11,0)

15,6 (17,7 / 14,8)

17,1 (20,0 / 16,1)

150

7,8 (17,3 / 4,1)

11,4 (21,9 / 7,3)

12,1 (23,2 / 7,8)

300

3,1 (8,9 / 0,8)

4 (11,1 / 1,3)

5,1 (12,9 / 2,1)

50

10,9 (13,9 / 9,7)

10 (14,5 / 8,3)

8,4 (12,9 / 6,7)

150

5,4 (9,9 / 3,6)

5,4 (9,0 / 3,9)

4,6 (7,3 / 3,6)

300

1,6 (1,6 / 1,6)

1,7 (2,1 / 1,6)

1,4 (2,0 / 1,2)

500

0,5 (0,8 / 0,4)

0,4 (0,5 / 0,4)

0,4 (0,5 / 0,3)

50

23,5 (24,7 / 23,1)

20,3 (21,5 / 19,9)

19,1 (21,9 / 18,1)

150

18,7 (26,7 / 15,6)

16,6 (23,4 / 14,0)

13,7 (22,4 / 10,3)

300

8,7 (14,6 / 6,5)

7,8 (12,6 / 6,0)

6,1 (10,6 / 4,3)

500

2,9 (5,5 / 1,9)

2,5 (4,1 / 1,8)

2,2 (3,4 / 1,7)

50

14,9 (17,4 / 14,0)

9,3 (14,9 / 7,1)

6,7 (12,2 / 4,5)

150

13,3 (23,7 / 9,3)

10,8 (20,1 / 7,2)

9,0 (18,8 / 5,2)

300

7,9 (21,0 / 2,9)

8,2 (22,0 / 2,9)

7,2 (19,9 / 2,3)

500

4,4 (13,1 / 1,1)

5,0 (15,6 / 0,9)

4,8 (15,4 / 0,8)

50

23,4 (28,8 / 21,4)

18,9 (26,1 / 16,1)

15,5 (24,4 / 12,1)

150

13,8 (26,0 / 9,1)

12,3 (25,0 / 7,4)

11,2 (23,3 / 6,6)

300

5,7 (14,6 / 2,2)

5,6 (14,8 / 2,1)

4,9 (14,0 / 1,4)

500

1,5 (4,4 / 0,4)

1,9 (5,8 / 0,4)

1,7 (5,5 / 0,2)

GloVe

CBOW–HS

CBOW–NEG

SG–HS

SG–NEG

13

В их основе лежит обеспечение отказоустойчивости и гибкой масштабируемости.

На рисунке 3 представлена общая схема разработанной архитектуры.

Выбор средств разработки производился согласно следующим критериям: бес-

платное использование, распространенность и охват документации, эффективность

в решении поставленных задач. Так, основными языками программирования яв-

ляются Python (с библиотеками Flask и Theano) и JavaScript (платформа Node.js,

библиотеки Sails.js и AngularJS). Системами управления базами данных являются

MongoDB и MySQL, в качестве балансировщика нагрузки выступает Nginx. Отдель-

но рассматривается построение моделей глубокого обучения при помощи библио-

14

Рисунок 3. Общая схема архитектуры программного комплекса мониторинга

социальных сетей с поддержкой аспектного анализа тональности

15

Вторая часть посвящена экспериментальному тестированию четырех моделей

глубокого обучения в задаче аспектного анализа тональности: RNN –рекуррентная

нейронная сеть, сеть GRU, сеть LSTM, CNN –сверточная нейронная сеть.

В качестве исходных данных взят общедоступный набор отзывов с семинара

SentiRuEval-2015. Задача, поставленная перед исследователями в рамках семинара –

определить тональность отзывов ресторанной тематики согласно следующим ас-

пектам: кухня, интерьер, сервис, цена и «объект в целом». Следует отметить, что вы-

бор данной предметной области обусловлен тем, что SentiRuEval-2015 является пер-

вым семинаром, посвященным аспектному анализу тональности текстовой инфор-

мации на русском языке, и ввиду этого на сегодняшний день не имеется лучшего

корпуса данных с открытыми результатами решения задачи аспектного анализа то-

нальности, полученными другими исследователями.

Критерием оценки является F-мера, представляющая собой объединение инфор-

мации о точности и полноте классификации: F = 2P +R, где P – точность (Precision),

R – полнота (Recall). Учитывая наличие нескольких аспектов и классов тонально-

сти, используется макро-усреднение значения F-меры по классам и аспектам.

В таблице 2 представлено базовое значение классификации (baseline), получен-

ное путем сопоставления наиболее частого класса тональности всем отзывам. Ввиду

сложности задачи аспектного анализа тональности, свои результаты представили

лишь четверо участников SentiRuEval-2015. Полученные ими значения помечены

как Run id. Результаты, полученные в рамках диссертационной работы, представле-

ны в четырех последних строках таблицы.

Таблица 2. Сравнение результатов апробации моделей с результатами участников

SentiRuEval-2015

Модель

Кухня

Интерьер

Цена

Сервис

В целом

Усреднение

baseline

0.2789

0.2845

0.2439

0.2736

0.2789

0.2720

Run 4_1

0.4527

0.4862

0.4540

0.5109

0.3867

0.4581

Run 10_1

0.4188

0.3657

0.3401

0.4598

0.2798

0.3728

Run 12_1

0.2052

0.2836

0.2477

0.3111

0.2108

0.2517

Run 6_1

0.1670

0.1191

0

0.1277

0.0906

0.1009

CNN

0.2737

0.2344

0.1714

0.4389

0.5098

0.3256

RNN

0.3741

0.2110

0.1476

0.4149

0.3729

0.3041

GRU

0.4022

0.2694

0.1111

0.4750

0.5303

0.3576

LSTM

0.4451

0.2695

0.1751

0.4670

0.4957

0.3705

Реализованные модели несколько уступают лучшему результату в общем усред-

ненном значении F-меры, однако, в целом доказана их способность успешно решать

задачу аспектного анализа тональности. Лучшая из разработанных моделей (LSTM)

лишь на 0.2% уступает инженерно-лингвистическому методу, занявшему 2-е место.

Двое из четырех участников семинара не смогли преодолеть базовую отметку, од-

нако это удалось всем разработанным в рамках диссертационной работы моделям.

Важным результатом является 15-процентное превосходство над лучшим результа-

том SentiRuEval при оценке тональности объекта в целом.

P ·R

16

Полученные результаты доказали применимость предложенных моделей для ас-

пектного анализа тональности в рамках мониторинга социальных сетей. Более того,

перспективной является дальнейшая работа над представленным классом моделей.

Разработанные модели глубокого обучения были внедрены в программный ком-

плекс мониторинга социальных сетей «АСМА» (Автоматизированная Система Мо-

ниторинга и Анализа) в качестве модуля анализа тональности сообщений. Послед-

няя часть главы посвящена демонстрации работы программного комплекса с пози-

ции конечного пользователя. Внешний вид панели управления отчетами представ-

лен на рисунке 4.

Рисунок 4. Экран сводного отчета программного комплекса

В рамках прикладной апробации исследовалось отношение граждан четырех от-

дельных регионов центрального федерального округа (Брянской, Орловской, Смо-

ленской и Калужской областей) к ряду финансовых организаций в условиях эконо-

мического кризиса 2014-2015 гг. Результат показал невысокий уровень обсуждения

(до 80 сообщений в месяц), характеризующийся в целом нейтральными оценками.

Это позволяет судить об отсутствии социальной напряженности в сфере финансо-

вых услуг, поскольку признаками, характерными для всплесков социальной напря-

женности, являются сотни и даже тысячи сообщений в день по определенной теме

с достаточно большой долей негативных высказываний. Данный факт подтвержда-

ется результатами работ других исследователей, более подробно рассмотренными

в первой главе диссертации.

Прикладная апробация программного комплекса «АСМА» выявила ряд поже-

ланий со стороны конечных пользователей касательно функциональных возможно-

стей, что определило пути дальнейшего улучшения продукта перед началом ком-

мерческой эксплуатации.

теллектуального анализа публикаций.

2. Определены основные подходы к мониторингу социальных сетей с целью по-

следующего анализа пользовательских публикаций, и разработана методика

автоматизации указанного мониторинга.

3. Предложен и исследован метод отбора агентов социальной сети для последу-

ющего мониторинга, основанный на показателе входящей степени узла графа

социальной сети.

4. Обоснован выбор аспектного анализа тональности на основе глубокого обу-

чения в качестве инструмента автоматизированной интеллектуальной обра-

ботки сообщений из социальных сетей.

5. Разработана методика автоматизации аспектного анализа тональности, осно-

ванная на рекуррентных и сверточных нейронных сетях, использующих слой

независимых Softmax-классификаторов для определения тональности отдель-

ных аспектов.

6. Выполнена экспериментальная апробация разработанных моделей глубоко-

го обучения в задаче аспектного анализа тональности. Полученные результа-

ты апробации сопоставимы с результатами инженерно-лингвистических и ги-

бридных методов, представленных на последней конференции по компью-

терной лингвистике «Диалог 2015». В оценке общей тональности текстового

фрагмента удалось на 15% превзойти лучший из результатов, представлен-

17

Основные выводы и результаты работы

Основные выводы и результаты диссертационной работы заключаются в следу-

ющем.

1. Предложено решение задачи автоматизации мониторинга общественного

мнения пользователей социальных сетей на основе применения методов ин-

ных участниками SentiRuEval-2015.

7. Разработан программный комплекс «АСМА», автоматизирующий монито-

ринг и интеллектуальный анализ публикаций в социальных сетях.

8. Выполнен прикладной анализ мнений граждан отдельных регионов Цен-

трального федерального округа. Результаты анализа использованы Управле-

нием информационного обеспечения деятельности Губернатора Брянской об-

ласти и Правительства Брянской области в рамках исследования по оценке

состояния финансового сектора экономики Брянской области.

Публикации по теме диссертации

Публикации в изданиях, рекомендованных ВАК

1. Подвесовский А. Г., Будыльский Д. В. Проблемы и особенности автоматизации

мониторинга социальных сетей и интеллектуальной обработки пользователь-

ских сообщений // Вестник Брянского государственного технического универ-

ситета. – 2014. – № 4 (44). – С. 146-152.

18

2. Будыльский Д. В., Карпенко Е. В., Подвесовский А. Г. Методика отбора агентов

онлайновой социальной сети для мониторинга и анализа общественного мне-

ния // Информационные системы и технологии. – 2015. – № 6 (92). – С. 33-44.

3. Будыльский Д. В., Подвесовский А. Г. Исследование применимости моделей

глубокого обучения для задачи аспектного анализа тональности текстовых со-

общений // Вестник Брянского государственного технического университета. –

2015. – № 3 (47). – С. 117-126.

Публикации в изданиях, индексируемых в международной библиографиче-

ской базе данных Scopus

4. Hierarchical Deep Learning: A Promising Technique for Opinion Monitoring

and Sentiment Analysis in Russian-Language Social Networks / V. Averchenkov,

D. Budylskii, [et al.] // Creativity in Intelligent Technologies and Data Science

(CIT&DS 2015), Communications in Computer and Information Science. Vol. 535 /

ed. by A. Kravets, M. Kultsova, [et al.]. – Springer International Publishing, 2015. –

Pp. 583-592.

Публикации в других изданиях

5. Будыльский Д. В. Использование анализа тональности текстовых сообщений

для поддержки принятия решений // Поколение будущего: Взгляд молодых

ученых – 2013: материалы Международной молодежной научной конференции

(13-15 ноября 2013 года), в 6-х томах. Т. 4 / под ред. А. Горохова. – Курск : Юго-

Зап. гос. ун-т., 2013. – С. 93-97.

6. Будыльский Д. В. Разработка автоматизированной системы мониторинга и ана-

лиза текстовой информации в социальных сетях // Достижения молодых уче-

ных в развитии инновационных процессов в экономике, науке, образовании:

Материалы VI Международной научно-практической конференции / под ред.

О. М. Голембиовской. – Брянск : БГТУ, 2014. – С. 190-191.

7. Подвесовский А. Г., Будыльский Д. В. Особенности реализации программного

комплекса мониторинга социальных сетей с поддержкой анализа тональности

текстовых сообщений // Вопросы информационных технологий: Международ-

ный сборник научных статей. Выпуск I (Россия, Липецк, 25 июля 2014 г.) –

Липецк : Издательский центр «Гравис», 2014. – С. 23-31.

8. Будыльский Д. В. GRU и LSTM – современные рекуррентные нейронные сети //

Молодой учёный. – 2015. – № 15 (95). – С. 51-54.

9. Будыльский Д. В. Применение методов машинного обучения для анализа то-

нальности текстовой информации // Актуальные проблемы современной нау-

ки: взгляд молодых : сборник трудов IV Всероссийской научно-практической

конференции студентов, аспирантов и молодых ученых, 21 апреля 2015 г. – Че-

лябинск : Центр оперативной полиграфии «Violitprint», 2015. – С. 104-107.

19

10. Будыльский Д. В. Применение рекуррентных нейронных сетей в задачах обра-

ботки текстов на естественном языке // Вопросы науки: Современные техноло-

гии и технический прогресс: сборник статей по материалам IV международной

научно-практической конференции (22 июля 2015 г., г. Воронеж). – Воронеж :

Издательство «Научно-исследовательские публикации», 2015. – С. 7-10.

11. Будыльский Д. В. Сверточные нейронные сети: история развития и современное

состояние // Современные концепции развития науки: сборник статей Между-

народной научно-практической конференции (1 августа 2015 г., г. Уфа). в 2 т.

Т. 1. – Уфа : АЭТЕРНА, 2015. – С. 39-43.

12. Будыльский Д. В., Подвесовский А. Г. Векторное представление текстовой ин-

формации на русском языке // XIX Международная научно-техническая кон-

ференция «Информационно-вычислительные технологии и их приложения». –

Пенза, 2015. – С. 12-16.

Будыльский Дмитрий Викторович

Автоматизация мониторинга общественного мнения на основе интеллектуального анализа

сообщений в социальных сетях

Специальность 05.13.10 – «Управление в социальных и экономических системах»

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Подписано в печать __________. Формат 60х84 1/16.

Бумага офсетная. Офсетная печать. Печ. л. 1. Т.100 экз. Заказ №_____. Бесплатно.

Брянский государственный технический университет,

241035, г. Брянск, бульвар 50-летия Октября, 7.

Лаборатория оперативной полиграфии БГТУ, ул. Институтская, 16.



Похожие работы:

«БЕШЕНОВ МАКСИМ ЕВГЕНЬЕВИЧ ОРГАНОМИНЕРАЛЬНАЯ КОМПОЗИЦИЯ С ИСПОЛЬЗОВАНИЕМ ПРОДУКТА УТИЛИЗАЦИИ НЕФТЕШЛАМА ДЛЯ ПРЕДОТВРАЩЕНИЯ МОРОЗНОГО ПУЧЕНИЯ В ДОРОЖНОМ СТРОИТЕЛЬСТВЕ Специальность 05.23.05 Строительные материалы и изделия Автореферат диссертации на соискание ученой степени кандидата технических наук Казань – 2015 ДОБРОВ Эдуард Михайлович, доктор технических наук, профессор, ФГБОУ ВПО Московский автомобильно дорожный государственный технический университет (МАДИ), профессор...»

«Филатова Елена Геннадьевна ОЧИСТКА И ДООЧИСТКА СТОЧНЫХ ВОД ОТ ИОНОВ ТЯЖЕЛЫХ МЕТАЛЛОВ, ОСНОВАННЫЕ НА ИНТЕНСИФИКАЦИИ ФИЗИКО-ХИМИЧЕСКИХ ПРОЦЕССОВ Специальность: 05.23.04 – Водоснабжение, канализация, строительные системы охраны водных ресурсов АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Самара – 2015 2 Работа выполнена в ФГБОУ ВО Иркутский национальный исследовательский технический университет на кафедре общеобразовательных дисциплин Научный...»

«Муллин Виктор Валентинович ФИЗИЧЕСКИЕ ПРОЦЕССЫ В ВАКУУМНЫХ ДУГОГАСИТЕЛЬНЫХ КАМЕРАХ И ТЕХНИЧЕСКИЕ РЕШЕНИЯ ИХ РАЗРАБОТКИ, ПРОИЗВОДСТВА И ЭКСПЛУАТАЦИИ Специальность 05.27.02 – Вакуумная и плазменная электроника Автореферат диссертации на соискание ученой степени доктора технических наук Саратов – 2015 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Саратовский государственный технический университет имени...»





 
© 2015 www.z-pdf.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.