авторефераты диссертаций www.z-pdf.ru
БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
 

1

На правах рукописи

Шоуман Марва Ахмед Элшахат

МНОГОЯЗЫКОВЫЙ ИНФОРМАЦИОННЫЙ

ПОИСК С ИСПОЛЬЗОВАНИЕМ

МУЛЬТИАГЕНТНОЙ ПЛАТФОРМЫ

Специальность 05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Москва - 2015

ОБЩАЯ ХАРАКТЕРИТИКА РАБОТЫ

Актуальность темы

Объем специальной информации, относящейся к самым разным областям

науки и техники, в интернете постоянно растет. Использование этой информа-

ции невозможно без эффективного инструмента поиска во всем доступном объ-

еме данных. Такой инструмент должен искать интересующие пользователя-

специалиста данные не только в специально структурированных, но и в не-

структурированных документах на всех известных пользователю языках, т.е.

осуществлять многоязыковый информационный поиск (МИП).

МИП ориентирован на представителей научного сообщества, знающих

иностранные языки, а также иностранных студентов, обучающихся по самым

разным направлениям.

Основным критерием качества для систем МИП в силу особенности их

применения для поиска научной или учебной информации на нескольких язы-

ках являются не столько быстродействие, точность, полнота, как для обычных

поисковых систем, сколько высокая релевантность первых полученных резуль-

татов. Под релевантностью при этом понимается семантическое соответствие

поискового запроса и найденного документа.

Ведущие универсальные поисковые системы, такие как Google, Yandex и

др. обеспечивают высокое быстродействие, точность и полноту поиска на языке

запроса, но для получения результатов на заданных языках требуют изменения

региона поиска и, следовательно, ввода отдельного запроса для поиска на каж-

дом языке, а также не предполагают объединения и качественного ранжирова-

ния полученных результатов.

Немногочисленные существующие специализированные системы много-

языкового информационного поиска имеют существенные недостатки. Так,

например система, предлагаемая Chandra Mohan, Sadanandam, Raju Korra (ан-

глийский – французский – немецкий – хинди, 2013), имеет значительное время

поиска и не предполагает ранжирования результатов, а в системе, разработан-

ной Leyla Zhuhadar, Olfa Nasraoui, Robert Wyatt, Elizabeth Romero (английский –

испанский, 2010) используются сложные методы ранжирования найденных до-

кументов, применение которых дополнительно увеличивает и так существенное

время отклика системы. Также не существует многоязыковых поисковых си-

стем, ориентированных на арабский и русский языки.

Следовательно, проблема создания методики многоязыкового информаци-

онного поиска с ранжированием полученных результатов по степени релевант-

ности остается актуальной.

Вместе с этим практика последних лет показала, что при создании распре-

деленных систем целесообразно использовать мультиагентную технологию.

Это связано с тем, что мультиагентные системы обладают высокой гибкостью,

хорошей масштабируемостью и повышенной надежностью. Указанные свой-

ства явились решающими при выборе мультиагентной реализации системы

3

МИП. При этом эффективная реализация мультиагентной системы предполага-

ет обоснованный выбор ее архитектуры, а потому выполнения соответствую-

щих исследований.

Объектом исследования настоящей работы является система МИП, пред-

метом исследования – релевантность результатов поиска поисковому запросу.

Цель работы

Повышение релевантности первых результатов многоязыкового ин-

формационного поиска в рамках применения мультиагентного подхода.

Задачи работы:

1. Анализ процесса МИП и выявление операций, которые должны быть

выполнены в процессе поиска на заданных языках для получения ре-

зультатов, ранжированных по степени релевантности запросу.

2. Выбор критерия качества МИП, дополнительного к традиционным:

быстродействию, точности, полноте и др., который позволит оценить

качество ранжирования результатов поиска.

3. Разработка архитектуры и реализации мультиагентной системы

МИП.

4. Разработка структурной модели МИП, учитывающей мультиагент-

ную реализацию поисковой системы.

5. Построение формальной процедуры оценки релевантности найден-

ного документа по качественно заданным весам терминов в запросе

и документе.

6. Разработка методики МИП, включающей ранжирование результатов

поиска по степени релевантности документов.

7. Выполнение экспериментальных исследований и оценка их резуль-

татов.

Методы исследования

В работе использованы алгоритмы анализа текста (лексемизация –

фильтрация – лемматизация), метод ранжирования документов на основе

векторной оценки, структурная модель процесса МИП в виде нечеткого

метаграфа, системы нечеткого логического вывода Сугено и Мамдани.

Научная новизна работы заключается в следующем:

1. Получена модель одно- и многоязыкового информационного поис-

ка с использованием мультиагентной реализации в виде нечеткого

метаграфа, выявляющая составляющие процесса поиска, их последо-

вательность, а также возможности их комплексирования.

2. Разработана методика МИП, включающая предварительную обра-

ботку текстов, получение оценок релевантности с применением не-

четкого логического вывода и ранжирование найденных документов.

3. Разработана многоагентная архитектура системы МИП, определены функции

агентов и передаваемые сообщения, что позволило получить реализа-

цию системы МИП с минимальным объемом передаваемых данных.

4

ранжирования результатов поиска.

5. Предложено выполнять ранжирование результатов информацион-

ного поиска в случае одного или нескольких языков с использовани-

ем алгоритмов нечеткого логического вывода Мамдани и Сугено,

что увеличило вероятность нахождения требуемых документов сре-

ди первых найденных по сравнению с существующими поисковыми

системами.

Практическая ценность заключается в создании мультиагентной си-

стемы информационного поиска для трех языков: русского, арабского и

английского. Разработанная система расширяет возможности поиска в Ин-

тернете и повышает его эффективность за счет сокращения количества вводи-

мых запросов и ранжирования получаемых результатов.

Достоверность результатов работы обеспечена адекватностью ис-

пользуемых моделей, корректностью математических преобразований и

подтверждена результатами проведенных экспериментов.

Внедрение результатов работы

Результаты работы в виде методики, а также аналитических и про-

граммных средств использованы в ряде хоздоговорных разработок НПЦ

«ИНТЕЛТЕК ПЛЮС», а также в учебном процессе кафедры Компьютер-

ные системы и сети МГТУ им. Н.Э. Баумана.

Апробация работы. Основные положения и результаты диссертаци-

онной работы представлялись и докладывались на:

1. II-ой Международной научно-практической конференции «Акту-

альные проблемы и перспективы развития радиотехнических и инфоком-

муникационных систем «Радиоинфоком-2015», 14-18 апреля 2015 г., МИ-

4. Предложен способ формализации вербальной оценки релевантно-

сти документов, полученная оценка использована для последующего

РЭА. Москва.

2. Конференции Евразийского Союза Ученых (ЕСУ), Москва, 2015.

3. XI-ой Международной научно-практической конференции «ИН-

ФО-2013», 1-10 октября 2013 г., г. Сочи.

Публикации. Основные научные результаты диссертационной рабо-

ты отражены в 9 статьях, в том числе 3 статьи – в журналах, включенных

ВАК в Перечень ведущих.

Структура и объем диссертации. Диссертация состоит из введения,

четырех глав, заключения, и содержит 130 страниц текста, 31 рисунок и 14

таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении дана общая характеристика решаемой проблемы, обосно-

вана актуальность темы, определены цели, задачи и методы исследования,

5

найденных документов.

МИП предполагает: ввод поискового запроса, как правило, состоящего из

нескольких терминов, автоматический перевод поискового запроса на все за-

данные пользователем языки, извлечение тысяч веб-страниц, относящихся к

теме, фильтрацию релевантных и ранжирование полученных результатов по

степени релевантности запросу.

Из таблицы 1, в которой перечислены основные работы за последние

10 лет в области МИП и указаны их недостатки, следует, что основными

проблемами создания систем МИП являются:

 неточный перевод терминов вследствие их неоднозначности (кон-

текстной зависимости) и сложности грамматики естественного языка при

использовании систем машинного перевода, что приводит к нахождению и

обработке нерелевантных документов наряду с релевантными;

 отсутствие ранжирования или большая вычислительная сложность

получения оценок релевантности результатов, что приводит к недопустимо

большому времени ранжирования для большого количества найденных

документов.

Авторы

Jialun Qin,

Yilu Zhou,

Michael Chau,

Hsinchun Chen,

(2006)

Leyla Zhuhadar,

Olfa Nasraoui,

Robert Wyatt,

Elizabeth

Romero

(2010)

Chandra Mohan,

Sadanandam,

Raju Korra

(2013)

Таблица 1 – Анализ существующих систем МИП

Языки

Английский -

китайский

Английский -

испанский

Английский

– француз-

ский –

немецкий -

хинди

Особенности реализации

Перевод запроса «слово

– слово».

Перевод запроса по сло-

варю с ограниченным

набором научных тем.

Сложная оценка реле-

вантности по модели век-

торного пространства.

Перевод запроса «слово

Недостатки

Ошибки перевода запро-

са.

Дополнительные вре-

менные затраты на об-

работку нерелевантных

ссылок.

Отсутствие ранжирова-

ния документов.

Большие временные за-

траты на подсчет оценки

релевантности и удале-

ние нерелевантных до-

кументов.

Ошибки перевода запро-

са.

Отсутствие ранжирова-

ния документов.

отмечены научная новизна и практическая ценность работы, сформулирова-

ны положения, выносимые на защиту, приведены сведения по апробации,

внедрению результатов, публикациях, структуре и объему диссертации.

В первой главе выполнен анализ процесса МИП, выявлены проблемы

его реализации и определен критерий оценки качества ранжирования

– слово».

Сбор текстов на четырех

языках.

6

Основными критериями, по которым в настоящее время осуществля-

ется сравнение поисковых систем, являются быстродействие, точность

(precision), полнота (recall), а также F-мера, характеризующая точность и

полноту одной величиной. Однако перечисленные критерии не позволяют

оценить эффективность ранжирования результатов поиска. Поэтому в ра-

боте в качестве критерия системы МИП предложено использовать точ-

ность результатов для ограниченного количества первых документов из

перечня найденных, т.е. отношение количества релевантных документов

из некоторого множества первых документов в списке результатов к коли-

честву анализируемых документов (precision(n)). Мощность анализируемо-

го множества при этом должна определяться назначением системы.

В настоящее время существуют четыре типа моделей, используемых

при оценке релевантности найденных документов поисковому запросу: ло-

гическая, векторная, вероятностная и сеть логического вывода.

При этом наиболее распространенной является векторная модель, вы-

числение оценок ранжирования по которой имеет сравнительно неболь-

шую вычислительную сложность и которая хорошо сочетается с системой

нечеткого логического вывода, применяемой в настоящей работе для по-

лучения оценок релевантности документов на основе данных о повторяе-

мости терминов в документе.

Векторная модель предполагает, что текст рассматривается, как век-

тор слов. Релевантность измеряется подобием между вектором запроса

(так как запрос также является текстом и может быть преобразован в век-

, =, =

.

.

(1)

Далее в работе рассматривается наиболее перспективная мультиа-

гентная организация распределенных систем. Мультиагентная система –

это система, содержащая набор агентов, которые взаимодействуют между

собой во время решения задачи. Под агентом в этом случае понимается

программный модуль, имеющий возможности взаимодействия с другими

агентами и способный независимо выполнять отдельные, в том числе ин-

теллектуальные подзадачи.

В отличие от традиционной реализации построение поисковой систе-

мы на мультиагентной платформе позволяет существенно увеличить ее

гибкость, обеспечить масштабируемость и надежность. Перечисленные

достоинства с точки зрения решаемой задачи являются определяющими,

поэтому было принято решение строить модель многоязыкового поиска и

разрабатывать методику с учетом реализации системы на мультиагентной

платформе.

В выводах главы приведена неформальная постановка задачи иссле-

дования, определены его цель и задачи.

7

тор) и вектором документа :

⃗ ⃗

| |

Вторая глава посвящена исследованию процесса МИП, разработке

архитектуры мультиагентной системы МИП и построению модели МИП,

учитывающей мультиагентную реализацию поисковой системы.

Объектами поиска в данной работе являются документы. Различают

структурированные документы, частично структурированные документы и

неструктурированные документы. Извлечение полезной для поиска ин-

формации, т.е. оценка степени релевантности для огромного объема доку-

ментов с разной степенью структуризации является сложной задачей, ре-

шение которой невозможно без применения методов анализа текста.

Для увеличения точности оценки релевантности в работе предложено

документы предварительно обрабатывать, а именно для неструктуриро-

ванных текстов использовать следующие методы обработки: лексемиза-

цию, удаление «стоп-слов», лемматизацию.

Под лексемизацией при этом понимается разделение текста на от-

дельные слова с удалением пробелов и знаков препинания. Удаление

«стоп-слов» – это удаление HTML и XML тегов, которые могут присут-

ствовать в тексте, если анализируется текст, полученный из сети Интернет.

Далее из текста удаляются нейтральные слова, которые в большом количе-

стве могут встречаться в любом тексте, так для английского языка это ар-

тикли, союзы, предлоги, глагол «есть» (например, «a», «and», «of», «is») и

другие.

Лемматизация – определение происхождения слов – представляет со-

бой процесс идентификации корней слов, что позволяет отнести производ-

ные слова к той же группе, к которой отнесены их основные формы.

После указанной предобработки выполняется оценка нормализован-

ных с использованием длин текстов весов терминов в каждом документе.

Окончательный вес термина TF-IDF, учитывающий также частоту появле-

ния термина в документе и количество документов, в которых был обна-

ружен термин, вычисляется следующим образом:

= ×,

где – вес термина tj в документе di;

tf – частота появления термина tj в документе di;

– инвертированная частота документа, определяемая как

,

N – количество документов в коллекции,

число документов, в которых появился термин tj.

В первой главе для получения оценки релевантности документа с

применением выбрана косинусная мера близости запросу в векторном про-

странстве признаков (1), которая через веса TF-IDF определяется следую-

щим образом:

8

= log

,

(2)

×

где – вес термина tj в документе di;

– вес термина j в запросе q;

m – количество терминов в запросе.

Таким образом поисковая система для одного языка должна реализо-

вывать четыре основных этапа обработки:

 ввод запроса, состоящего из ключевых слов;

 поиск в Интернете по ключевым словам и возврат ссылок на

найденные веб-сайты в Интернете;

 извлечение текстов, в том числе большого количества различных

неструктурированных текстовых ресурсов, из Веб-источников, их

предварительный анализ и оценка весов терминов в каждом тексте;

 ранжирование результатов и сохранение выходных данных в базе.

В работе предлагается архитектура мультиагентной системы, в кото-

рой перечисленные выше действия осуществляются четырьмя агентами:

интерфейсным, поисковым, агентом извлечения информации и обработки

текстов, а также агентом ранжирования документов. В соответствии с

мультиагентной технологией все агенты общаются друг с другом с помо-

щью сообщений. Использование ограниченного количества агентов, вы-

полняющих умеренно связанные операции, позволяет сократить количе-

ство передаваемой между ними информации и, следовательно, уменьшить

суммарное время поиска.

МИП помимо рассмотренных выше операций предполагает автомати-

ческий перевод введенного на одном из языков запроса на остальные язы-

ки. Для улучшения качества перевода на этом этапе в работе решено ис-

пользовать словари терминов. В отличие от перевода с применением

обычных словарей перевод по словарю терминов позволяет учесть особен-

ности перевода устойчивых (терминологических) словосочетаний и, сле-

довательно, сократить количество извлекаемых нерелевантных докумен-

тов. Операция перевода является достаточно сложной, а потому ее целесо-

образно реализовывать в виде отдельного агента.

Также в виде отдельных агентов следует реализовать предваритель-

ную обработку текстов на разных языках. Это связано с тем, что для каж-

дого языка должны быть использованы свои, зависящие от языка алгорит-

мы разбора, стоповые слова и правила словообразования.

В отличие от операций перевода и анализа текстов операция поиска не

зависит от языка, а потому для выполнения операций поиска на различных

языках может использоваться один агент.

Таким образом в работе предлагается оригинальная архитектура

мультиагентной системы МИП с использованием семи агентов (рисунок 1).

9

cos, =

×

Рисунок 1 – Архитектура мультиагентной системы МИП

Реализация системы в виде совокупности программных агентов об-

легчает масштабирование и распараллеливание процесса поиска при нали-

чии соответствующих аппаратных средств.

Чтобы показать детализацию перечисленных обобщенных операций,

выполняемых отдельными агентами, модель, представляющая процесс по-

иска, должна позволять отображать отношения между отдельными объек-

тами (операциями), между объектом и группой объектов (обобщенной

операцией) и между группами объектов. В качестве такой модели в работе

используется ориентированный метаграф.

Ориентированный метаграф представляет собой четверку

где X – множество вершин, U – множество дуг uXX, V – множество ме-

тавершин vX или V2X, 2X – множество всех подмножеств множества X

(булеан), E – множество метадуг eVVVXXV. Таким образом, каж-

дая метавершина vV представляет собой множество, включающее одну

или более вершин множества Х, а метадуги eE соединяют метавершины

vV между собой или метавершины vV с вершинами xX или вершины

xX с метавершинами vV.

В метаграфе – модели одноязыкового информационного поиска: X

уточненное множество операции процесса поиска; V – множество обоб-

щенных операций, выполняемых агентами; U – множество связей между

базовыми операциями; E – множество сообщений, передаваемых между

агентами.

10

= (,,, ),

а для операции ранжирования – многозначность

ранжирования документов;

– множество функций принадлежности

вершин метаграфа

: X  [0,1];

V – множество метавершин, соответствующих подмножествам опера-

ций, выполняемых агентами;

U – множество дуг – множество связей между операциями (передача

управления и данных);

E – множество метадуг – множество сообщений, передаваемых между

агентами.

Для нечеткого метаграфа мультиагентной системы одноязыкового

информационного поиска (рисунок 2):

X  {xi,i  1,10} – операции одноязыкового поиска (см. таблицу 2);

V = {v , v , v }, где

v1  {x } – соответствует интерфейсному агенту;

x

v3  {x , x , x , x , x }– соответствует агенту извлечения документов

и предварительной обработки текстов;

Для отображения в модели неоднозначности с точки зрения результа-

тов выполняемых операций взвесим вершины xX. В качестве весов будем

использовать нечеткие оценки вида : X  [0,1]. Смысл этого веса для

каждой операции свой. Так для операции ввода запроса x1 вес 1x1 отоб-

ражает влияние выбранных пользователем для запроса терминов и их по-

рядка в запросе на множество получаемых при поиске ссылок, для опера-

ции поиска – неоднозначность, связанную с различными способами индек-

сирования документов,

оценки релевантности найденных документов по весам терминов в запросе

и документах.

Окончательно имеем модель процесса информационного поиска в ви-

де нечеткого метаграфа:

S  ( X , ,V ,U , E),

где X – множество вершин метаграфа, соответствующих множеству опе-

раций, которые осуществляются в процессе поиска, обработки и

релевантности

и

1

2

3

1

2

3

4

5

6

7

8

9

 

v2  {, x , x } – соответствует поисковому агенту;

    

v4  {x }

соответствует

агенту

оценки

ранжирования результатов поиска;

10

U  {u , j 1,9}, где u1  (x1, x2), u2  (x2, x3), u3  (x3, x4), u4  (x4, x5),

u5  (x5, x6),

u6  (x6, x7),u7  (x7, x8),

u8  (x8, x9),

u9  (x9, x10)

соответствуют передачам данных между операциями;

E  {e1,e2,e3}, где

e1  (v1,v2) – соответствует передаче запроса для выполнения поиска,

11

j

e3  (v3,v4) – соответствует передаче ссылок и оценок весов для

оценки релевантности и ранжирования.

Рисунок 2 Модель процесса информационного поиска для одного языка

в виде нечеткого метаграфа ( =,, = 1,10)

Таблица 2 – Соответствие вершин метаграфа операциям,

выполняемым при одноязыковом поиске

Вершина

Моделируемая операция

и их обработки,

Ввод поискового запроса

Передача запроса поисковой системе Google

Получение ссылок на документы

Сохранение ссылок

Извлечение текстов документов по ссылке

Лексемизация текста документа

Удаление нейтральных слов

Выделение основ слов в тексте документа

Вычисление весов терминов в документе

Оценка релевантности найденных документов

и их ранжирование

x1

x2

x3

x4

x5

x6

x7

x8

x9

x10

e2  (v2,v3) – соответствует передаче ссылок для извлечения текстов

Модель информационного поиска на трех языках (рисунок 3) строится

по тем же правилам. Соответствие операций многоязыкового поиска вер-

шинам метаграфа показано в таблице 3.

12

( )

Ввод ключевых слов на одном из языков:

русском, английском или арабском

Перевод запроса на остальные языки и фор-

мирование отдельных запросов на русском,

арабском и английском языках

Поиск ссылок в системе Google отдельно на

русском, арабском и английском языках

Извлечение документов Google на русском,

арабском и английском языках

Лексемизация текста документов на рус-

ском, арабском и английском языках

Удаление нейтральных слов в текстах на

русском, арабском и английском языках

Выделение основ слов в текстах на русском,

арабском и английском языках

Вычисление весов терминов в документах на

русском, арабском и английском языках

Оценка релевантности и ранжирование всех

найденных документов независимо от языка

x1

x2, x3, x4

x5, x6, x7

x8, x13, x18

x9, x14, x19

x10, x15, x20

x11, x16, x21

x12, x17, x22

x23

Рисунок 3 – Структура МИП для трех языков

Таблица 3 – Соответствие вершин метаграфа операциям,

выполняемым при многоязыковом поиске

Элемент

Моделируемая операция

множества

Полученная модель позволяет формально описать множество выпол-

няемых в процессе поиска операций и их распределение по конкретным

агентам, а также наличие или отсутствие связей между операциями и аген-

тами.

В третьей главе разрабатываются алгоритмы получения оценки релевант-

ности документа запросу с использованием систем нечеткого логического выво-

да (СНЛВ) Мамдани и Сугено, а также методика МИП в целом. Для этого в

работе вводится лингвистическая переменная (ЛП) «Вес термина».

13

ЛП называется пятерка (L, T(L), U, G, M), где L – имя переменной,

T(L) – терм-множество переменной L, U – универсум (числовое множе-

ство), G – множество синтаксических правил для образования новых зна-

чений L, M –множество семантических правил, позволяющих преобразо-

вать новое имя, образованное согласно G, в нечеткую переменную.

Терм-множество ЛП «Вес термина» определяется как T(L) ={«Очень

низкий», «Низкий», «Средний», «Высокий», «Очень высокий»}. Универ-

сум – U = [0,1]. Пример функции принадлежности для ЛП «Вес термина»

приведен на рисунке 4.

Рисунок 4 – Вид функции принадлежности ЛП «Вес термина»

Для оценки релевантности в работе использовались СНЛВ Мамдани и

Сугено. Первые две части процесса нечеткого вывода: фазификация вхо-

дов и применение нечеткого оператора для этих систем совпадают. Глав-

ное отличие между СНЛВ Мамдани и Сугено заключается в том, что вы-

ходные функции принадлежности Сугено являются линейными или кон-

стантами, что приводит к получению оценки в виде единственного (сред-

него) значения, в то время как при использовании СНЛВ Мамдани получа-

ется некоторое распределение, также оцениваемое, как правило, един-

ственным значением – центроидом.

В процессе нечеткого вывода для каждой пары входных ЛП (веса тер-

мина в документе и веса термина в запросе) применяются правила, осно-

ванные на произведении. Выбор произведения обусловлен тем, что при его

использовании выходное значение определяется всеми особенностями за-

данных условий, что справедливо для решаемой задачи.

Количество правил определяется количеством терминов в запросе.

Четким входом СНЛВ являются нормированные веса терминов в докумен-

тах, извлеченных из Интернета по запросу, и веса терминов в запросе.

В работе было выполнено сравнение оценок релевантности докумен-

тов, полученных с использованием СНЛВ Мамдани и Сугено.

В качестве примера рассмотрим сравнение на наборе документов, из-

влеченных мультиагентной поисковой системой по ключевому словосоче-

танию «Системы, управления, автоматические, энергия».

14

система определила веса терминов t1, t2, t3 и t4 –

w(di,t1), w(di,t2), w(di,t3) и w(di,t4).

При расчете оценки с применением СНЛВ Мамдани веса терминов в

документах, полученные после предварительной обработки текстов доку-

ментов, и веса терминов в запросе w(q,t1), w(q,t2), w(q,t3), w(q,t4), пересчи-

тывались с использованием функций принадлежности (см. рисунок 4) и

соответствующих правил. Были рассмотрены 100 документов. Расчет бал-

ла соответствия для документа, наиболее соответствующего запросу, пока-

зан на рисунке 5 (значение центроида 0,502).

Рисунок 5 – Результаты оценки соответствия документа запросу

с использованием системы нечеткого вывода Мамдани

(оценка для наиболее соответствующего документа)

При расчете оценки с применением СНЛВ Сугено также были рас-

смотрены 100 документов. Расчет балла соответствия для документа,

наиболее соответствующего запросу, показан на рисунке 6 (значение цент-

роида 0,8).

Проведенные на различных запросах эксперименты показали, что не-

смотря на различие получаемых значений порядки следования документов

после ранжирования по оценкам релевантности, полученным с использо-

ванием СНЛВ Мамдани и Сугено, практически совпадают. Следовательно,

для оценки балла ранжирования документа можно использовать оба типа

СНЛВ. Однако СНЛВ Сугено позволяет получить оценку в 50-60 раз быст-

рее, и потому использование СНЛВ Сугено предпочтительно.

15

diD

Таким образом, вектор запроса включал четыре термина:

(

)

("Системы","управления","автоматические","энергия").

С помощью мультиагентной системы были получено множество D

документов (примерно 1,5 млн.), содержащих заданные термины. Для каж-

дого документа

=,,, =

Извлечение

документов по

найденным

URL-адресам

Анализ текстов на

трех языках

Вычисление весов

терминов в

документах

Получение оценки

релевантности с

использованием

СНЛВ Cугено

Вычисление весов

терминов в

документах

Конец

Ввод запроса

на любом

языке

Перевод запроса

на остальные

языки

Найдены

ключевые слова в

словаре?

Да

Поиск URL-адресов

по запросам

на трех языках

Получены URL-

адреса?

Да

A

Нет

Нет

Рисунок 6 – Результаты оценки соответствия документа запросу

с использованием системы нечеткого вывода Сугено

(оценка для наиболее соответствующего документа)

Окончательная методика МИП с ранжированием результатов по сте-

пени релевантности представлена алгоритмом, показанным на рисунке 7.

Начало

A

Рисунок 7 – Методика МИП на трех языках: английском, арабском и русском

В отличие от существующих методик поиска данных на нескольких

языках предлагаемая методика предусматривает использование системы

16

Framework и RapidMiner.

В соответствии с разработанной архитектурой система включает семь

агентов: интерфейсного агента, агента-переводчика, поискового агента,

трех агентов обработки текстов на разных языках для получения весов

терминов и агента оценки релевантности и ранжирования. Поисковый

агент формирует необходимые данные для передачи запроса и его пара-

метров системе Google для поиска на английском, русском и арабском

языках и сохраняет результаты поиска для дальнейшей обработки. Поэто-

му основные критерии качества экспериментальной поисковой системы,

такие как точность, полнота, выпадение и др. определяются поисковой си-

нечеткого вывода Сугено для получения оценок релевантности найденных

документов и выполнения ранжирования результатов по этим оценкам.

В четвертой главе описана мультиагентная система, построенная в

соответствии с предлагаемой методикой, и приведены результаты экспе-

риментальных исследований.

В качестве программной платформы для реализации системы МИП

были

использованы

программные

среды

Java

Agent

Development

Оценка качества ранжирования результатов выполнялась по выбран-

ному критерию – точности результатов для N первых документов:

где – точность поиска по первым N документам; – количество реле-

вантных документов из N первых найденных документов.

Критерий рассчитывался до и после ранжирования результатов. В

экспериментах значение N=100, т.е. просматривались первые 100 докумен-

тов. Выбор N определялся максимальным количеством ссылок, просматри-

ваемых научным работником или студентом при наличии серьезной моти-

вации для поиска нужной информации. (При отсутствии серьезной моти-

вации пользователь обращает внимание на 1-3 страницы, т.е. примерно 20-

30 документов.)

Результаты статистической обработки запросов с разным количеством

ключевых слов представлены на рисунке 8.

В результате проведения экспериментов было получено, что при ко-

личестве найденных ссылок порядка десятков и сотен тысяч ранжирование

увеличивает точность поиска для первых ста документов на 94 %.

Опытная эксплуатация разработанной системы в НПЦ «ИНТЕЛТЕК

ПЛЮС» подтверждает, что вероятность получения предложенной систе-

мой нерелевантных ссылок среди первых результатов поиска ниже, чем у

существующих поисковых систем.

17

стемой Google.

=

,

Результат Google

После ранжирования

RU

AR

EN

Объединение

Рисунок 8 – Диаграмма оценки точности первых результатов МИП

до и после ранжирования документов по степени релевантности

Заключение

Диссертационная работа содержит новое решение актуальной науч-

ной задачи – задачи повышения качества многоязыкового информацион-

ного поиска.

В работе получены следующие результаты:

1. Выполнен анализ работ, посвященных МИП. Сформулированы тре-

бования к качеству многоязыкового поиска и системе информационного

поиска для нескольких языков. Выбран критерий качества ранжирования

результатов МИП.

2. На основе проведенного анализа предложена модель одно- и МИП в

виде нечеткого метаграфа, которая учитывает неоднозначность результа-

1.2

P100

1

0.8

0.6

0.4

0.2

0

тов отдельных операций поиска.

3. Введена лингвистическая переменная «Вес термина», позволяющая

формализовать лингвистические оценки его важности при оценке реле-

вантности документа. Предложено использовать для ранжирования ре-

зультатов поиска СНЛВ Мамдани или Сугено. В результате эксперимен-

тального исследования показано, что для получения оценок релевантности

найденных документов следует использовать СНЛВ Сугено.

4. Разработана методика МИП, включающая предварительную обра-

ботку текстов для уточнения частоты появления терминов в тексте и экс-

пертную оценку релевантности найденных документов, а также последу-

ющее ранжирование полученных результатов.

5. Разработана архитектура мультиагентной системы МИП, определе-

ны функции агентов и сообщения, передаваемые между ними.

6. Разработана мультиагентная система многоязыкового поиска для

трех языков: русского, английского и арабского, которая доведена до

18

уровня исследовательского прототипа и в настоящее время проходит

опытную эксплуатацию.

7. Экспериментально получено, что при количестве полученных ссы-

лок порядка десятков и сотен тысяч реализованная система увеличивает

точность результатов поиска для первых ста документов на 94 %.

Список основных публикаций по теме диссертации

Публикации в виде статей в журналах, рекомендованных ВАК РФ

1. Иванова Г.С. Автоматический поиск информации с использованием

мульти-агентной системы. / Г.С. Иванова, А.М. Андреев, В.И.

Нефедов, М.А. Шоуман, Е.В. Егорова. // Электромагнитные волны

и электронные системы. 2015. № 2, Т. 20. С. 33–38.

2. Иванова Г.С., Андреев А.М., Шоуман М.А. Поиск и Ранжирование

документов

с

использованием

мультиагентной

системы.

//Фундаментальные исследования. 2015. № 10, часть 3. С. 489–494.

3. Шоуман М.А. Модель процесса многоязыкового интеллектуального

информационного поиска с учетом мультиагентной реализации.

//Фундаментальные исследования. 2015. № 12, часть 4. С. 724-728.

Публикации в виде статей

4. Shouman M.A., Attiya G., Mors I.Z. Static Workload

Distribution of

Parallel Applications in Heterogeneous Distributed Computing Systems

with Memory and Communication Capacity Constraints. // Interna-

tional Journal of Computer Applications. 2011. № 6, Т. 34. С. 18–24.

5. Shouman M.A., Attiya G., Mors I.Z. Two Heuristic Approaches for

Mapping Parallel Application on Distributed Computing Systems.

// Minufiya Journal of Electronic Engineering Research (MJEER). 2008.

№.2. Vol. 18. С. 85–98.

6. Шоуман М.А., Андреев А.М., Иванова Г.С., Ветрова В.В. Нечеткий

метаграф для моделирования автоматического многоагентного по-

иска информации. // Сборник научных трудов II-ой Международная

научно-практическая конференция «Актуальные проблемы и перспекти-

вы развития радиотехнических и инфокоммуникационных систем «Ра-

диоинфоком-2015», 14-18 апреля. М.: МИРЭА, 2015. С. 227–232.

7. Shouman M.A., Ivanova G.C., Andreev A.M. Comparison of fuzzy in-

terference system for documents ranking score. // Евразийский Союз

Ученых (ЕСУ). 2015. № 1(18), часть 1. С. 65–71.

8. Шоуман М.А. Использование интеллектуальных агентов в реали-

зации подсистемы многоязыкового информационного поиска //

Методы и средства обработки и хранения информации. Межвуз.

сб. науч. тр. – М.: Из-во Курс. 2015. С. 89-97.

9. Шоуман М.А. Метаграфовая модель многоязыкового информаци-

онного поиска // Методы и средства обработки и хранения инфор-

мации. Межвуз. сб. науч. тр. – М.: Из-во Курс. 2015. С. 210-213.

19



 
Похожие работы:

«БЕЛОРУССКИЙ НАЦИОНАЛЬНЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ УДК 621.789 МИЛЮКИНА Светлана Николаевна ТЕХНОЛОГИЯ ИЗГОТОВЛЕНИЯ ИЗДЕЛИЙ ИЗ СПЛАВОВ TiNi С ИСПОЛЬЗОВАНИЕМ ТЕРМИЧЕСКОЙ И УЛЬТРАЗВУКОВОЙ ОБРАБОТОК Автореферат диссертации на соискание ученой степени кандидата технических наук по специальности 05.02.07 – Технология и оборудование механической и физико-технической обработки Минск, 2015 Работа выполнена в УО Витебский государственный технологический университет и ГНУ Институт технической акустики НАН...»

«0 Учреждение образования БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАТИКИ И РАДИОЭЛЕКТРОНИКИ УДК 004.934 + 004.4’277 АЗАРОВ Илья Сергеевич МЕТОДЫ АНАЛИЗА И СИНТЕЗА КВАЗИПЕРИОДИЧЕСКИХ СИГНАЛОВ С НЕСТАЦИОНАРНЫМИ ПАРАМЕТРАМИ ДЛЯ ОБРАБОТКИ РЕЧЕВОЙ ИНФОРМАЦИИ В СИСТЕМАХ МУЛЬТИМЕДИА АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук по специальности 05.13.17 – Теоретические основы информатики Минск 2015 Белорусский государственный Научный консультант Петровский...»

«Баландин Глеб Владленович ПРИМЕНЕНИЕ НАНОЧАСТИЦ СЕРЕБРА ДЛЯ ОБЕСПЕЧЕНИЯ БИОЛОГИЧЕСКОЙ БЕЗОПАСНОСТИ В БРОДИЛЬНЫХ ПРОИЗВОДСТВАХ Специальность 05.18.07 Биотехнология пищевых продуктов и биологических активных веществ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва – 2015 доктор технических наук, профессор Ермолаева Галина Алексеевна доктор технических наук, профессор, заведующая кафедрой Технология бродильных производств и консервирования...»





 
© 2015 www.z-pdf.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.