Реферат: Обзор методов обработки естественного языка в задачах дистанционного обучения

Обзор методов обработкиестественного языка в задачах дистанционного обучения.

Задача обработки естественного языка при помощи ЭВМ с каждым днемстановится все актуальней и актуальней. Развитие научно-технического прогрессаво всем мире привело к тому, что объем новой информации постоянно растет состремительно увеличивающейся скоростью. Человек во многих случаях становится нев состоянии самостоятельно переработать всю необходимую для егопрофессиональной деятельности информацию. И тогда компьютерные системы,использующие новейшие алгоритмы обработки естественного языка, могут оказатьему реальную помощь.

В последнее время компьютеры стали активно внедряться в системуобразования /1,2,3/. Создано огромное количество программных продуктов,направленных на обучение различного рода предметам. Если раньше дисциплины,изучаемые с помощью компьютерных программ относились в основном к техническим,то теперь компьютер широко используется и при подготовке специалистов погуманитарным предметам, ведущую роль среди которых, бесспорно, занимаютиностранные языки. Повышение интереса к иностранным языкам, и в особенности канглийскому, за последние несколько лет легко объясняется изменениямиполитического и экономического характера, и как следствие, возрастанием ролизнания иностранного языка.

Потребности нашего общества в компьютеризации обучения языку сегоднярезко возросли в связи со следующими факторами:

-    невозможностьпрохождения специальных языковых курсов без отрыва от основной работы;

-    постоянный ростоснащенности персональными компьютерами населения России;

-    ориентацияучащейся молодежи на ЭВМ как на главное средство автоматизацииинтеллектуального труда;

-    острый дефициткадров педагогов языковых дисциплин;

и ряд других.

Стремительное развитие компьютерных и информационных технологийестественным образом отразились и на системе образования. Возможности, которыепоявились благодаря внедрению передовых сетевых технологий (Internet — технологий) на территории России,послужили поводом для начала серьезных проектов, связанных с новым типомобучения — дистанционным обучением (ДО). Под термином ДО понимается обучение,при котором преподаватель и обучаемый разделены пространственно.

Немного об истории и развитии ДО /1/. ДО возникло более века тому назад.Принято различать 4 поколения развития ДО.

Первое поколение ДО начало развиваться в конце 19, в начале 20 века.Самыми распространенными  тогда материалами были отпечатанные в типографияхучебники и сборники упражнений к ним. Взаимодействие обучаемого спреподавателем происходило с помощью обычной почтовой связи (обмен письмами).

Второе поколение ДО начало развиваться в 70-е годы. Был создан рядуниверситетов (в основном в Англии), цель которых была готовить студентов,которые по тем или иным причинам не имели возможности обучаться в очной форме.Учебные материалы давались с использованием местного телевидения и радио илипутем пересылки по почте аудио записей курсов.  Аудио-конференции сиспользованием телефонных систем, тоже являются частью второго поколенияразвития ДО.

Третье поколение ДО (начало 80-х годов) связывают с появлениемспутниковых технологий и развитием компьютерной техники. Доставка информациистала возможна с помощью компьютерных сетей в цифровом виде. К третьемупоколению развития ДО также относят видеоконференции и использование носителей CD-ROM.

Четвертое поколение ДО возникло с момента распространением Internet-технологии по всему миру. Internet намного облегчил доступ уинформации. Сделал возможным как синхронное (chat, видео и аудио конференции), так и асинхронное (e-mail) взаимодействие обучаемого с преподавателем.Использование в ДО технологий базирующихся на WEB дает возможность  применять во время учебногопроцесса не только текстовую информацию, но и звук и видео.

Как видно из выше сказанного, основным вопросом в организации ДО являетсяспособ доставки и организации учебного материала /1/. Одним из перспективныхспособов передачи информации при организации ДО является e-mail. За последние годы в различных университетах мирапроводилось обучение по экспериментальной методике, особенность которой была втом, что взаимодействие учащихся (студентов 2-ых и 3-их курсов) ипреподавателей, либо полностью, либо частично, происходило с помощью e-mail /2/. Курсовые материалы, использованные вэкспериментах, были хорошо структурированы и подготовлены для самостоятельногоосвоения. В результате было показано, что усвоение пройденного материаластудентами обучающимися с помощью e-mail, происходит не хуже, а на некоторыхкурсах лучше студентов, обучающихся традиционно. Так же преподавателями истудентами, участвующими в эксперименте, был отмечен ряд преимуществ такогоподхода к обучению /2/.

Преподавателями были отмечены следующие положительные качества этогометода:

-    студентпрактически не зависит от расписания;

-    доставка и“чтение” материалов курса регистрируется преподавателем (при открытии письмаучащимся, автоматически высылается письмо преподавателю);

-    работа с курсомпрактически не требует бумаги, что обеспечивает удобство работы и быстротукопирования материала;

-    однаждыподготовленный курсовой материал может быть использован в последующие годы.

Так же важно отметить ряд преимуществ использования e-mail, которые нашли для себя учащиеся:

-    использование e-mail не требует присутствия на лекциях курса;

-    возможностьработы с материалом в удобное для учащихся время;

-    весь курсовойматериал хорошо систематизирован и может быть легко воспроизведен в полномобъеме самостоятельно даже после окончания обучения.

Все перечисленные выше преимущества только малая часть того, что можетдать образованию использование информационных технологий и методов ДО посравнению с традиционными подходами.  

Какие новые возможности позволяет использовать ДО по сравнению с широкоизвестной заочной формой?

1.   Возможностьоперативного обмена информации по изучаемой проблеме, как с преподавателем, таки с другими участниками, изучающими курс.

2.   Доступ кразличным источникам информации, в том числе удаленным и распределенным базамданных, многочисленным конференциям по всему миру, огромному количествубиблиотек.

3.   Возможностьорганизации совместных международных конференций по изучаемой проблеме,возможность запроса и получение ответа на интересующие вопросы черезэлектронные конференции.

4.   Возможностьобучения в престижных зарубежных вузах, не покидая родного дома.

Из выше сказанного можно сделать вывод о необходимости и перспективностиразвития ДО. Важно сформулировать основные требования к создаваемым продуктам,ориентированным на применение для дистанционного обучения иностранному языку.Основные требования:

-    организациязнаний о языке в виде целостной модели;

-    представлениеэтой модели на ЭВМ в доступной для учащегося форме;

-    использованиеалгоритмов и методов искусственного интеллекта (ИИ) с целью повышенияэффективности обучаемого комплекса;

-    обеспечениеконтроля знаний учащегося при помощи ЭВМ;

-    обеспечениеработы системы, как в локальной сети, так и в глобальной сети Internet;

-    обеспечениеоткрытости системы для удобства наполнения и корректировки базы знаний итренажеров;

-    обеспечение платформеннойнезависимости системы;

-    обеспечениемодульности системы с целью быстрой замены, добавления или удаления приложений,используемых в обучении;

-    обеспечение связис преподавателем.

В данной работе уделяется особое внимание вопросу использования в такогорода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовойинформацией.

Задача интеллектуальной обработки текстов на естественном языке впервыепоявилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множестворазличных попыток ее решения, созданы десятки экспериментальных программ,способных вести диалог с пользователем на естественном языке. Однако широкогораспространения такие системы пока не получили — как правило, из-за невысокогокачества распознавания фраз, жестких требований к синтаксису “естественногоязыка”, а также больших затрат машинного времени и ресурсов, необходимых для ихработы. Практически во всех системах машинного понимания текста используетсяограниченный естественный язык, поскольку полной и строгой формальной модели нидля одного естественного языка пока не создано.

Тем не менее естественно-языковые средства общения человека с ЭВМпостоянно развиваются, оставаясь одним из наиболее перспективных способовпостроения пользовательского интерфейса к сложным информационным системам.

Исследования этой области в Европе и США привлекают внимание крупнейшихчастных фирм и государственных организаций самого высокого уровня. Серьезнаяработа в направлении решении проблем автоматической обработки ЕЯ началась соснованных ARPA программ в 1980-х годах /7/, среди которых:

-    программараспознавания речи ATIS;

-    программа,направленная на решение задач понимания и извлечение информации из текстов IE(Information Extraction);

-    программаTIPSTER, существовавшая с 1991 по 1998 год, основной целью которой былосравнение и оценка результатов работы различных поисковых систем и системреферирования.

Необходимо отметить, что такие задачи как распознавание и генерацииречи, создание поисковых систем и систем реферирования, до настоящего временирешаются с минимальным участием лингвистов. Это обусловлено использованием прирешении вышеупомянутых задач в основном статистических методов.

Несмотря на это, за долгие годы четко определились области, в которыхнаиболее сильны позиции профессиональных лингвистов. Это лексико-грамматическийанализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте иавтоматическое реферирование.

Задачалексико-грамматического анализа — автоматически распознать, какой части речипринадлежит каждое слово тексте. На рис.1 показан пример предложения, в которомкаждому слову поставлен в соответствие лексико-грамматический класс.

The/ATman/NN still/RB saw/VBD her/PPO./.

Обозначения

RB — наречие
AT — опр. артикль
NN — существительное
VB – глагол

VBD – глагол впрошедшем времени

PPO –объектное местоимение
PP$ — личное местоимение
. — точка

Рис.1

Данную задачу не трудно выполнить для русского языка благодаря егоразвитой морфологии практически со стопроцентной точностью. В английском языкепростой алгоритм, присваивающий каждому слову в тексте наиболее вероятный дляданного слова лексико-грамматический класс (часть речи) работает с точностьюоколо 90%, что обусловлено лексической многозначностью английского языка.

Для улучшения точности лексико-грамматического анализа используются дватипа алгоритмов: вероятностно-статистические и основанные на продукционныхправилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов /4/ использует дваисточника информации:

1. Словарь словоформ языка /5/, в котором каждой словоформе соответствуетмножество лексико-грамматических классов, которые могут иметься у даннойсловоформы. Например, для словоформы well в словаре указано, что она может бытьнаречием, существительным, прилагательным и междометием. Для каждоголексико-грамматического класса словоформы указывается частота его встречаемостиотносительно других лексико-грамматических классов данной словоформы. Частотаобычно подсчитывается на корпусе текстов, в котором предварительно вручнуюкаждому слову приведен в соответствие лексико-грамматический класс. Такимобразом, словоформа well в словаре будет представлена следующим образом(рис.2):

 

Словоформа

Часть речи

Частота

Well

существительное

4

Well

наречие

1567

Well

прилагательное

6

Well

междометие

1

Рис.2

2.Информацию о встречаемости всех возможных последовательностейлексико-грамматических классов. В зависимости от того, как представлена даннаяинформация, разделяют биграмную, триграмную и квадриграмную модели. В биграмноймодели используется информация о всех возможных последовательностях из двухкодов (рис.3):

Последовательность

Частота

неопр.артикль + сущ.ед.ч 35983 неопр.артикль + сущ.мн.ч 7494 Опр.артикль + сущ.ед.ч 13838 неопр.артикль + сущ.мн.ч 47 

Рис.3

В триграмной модели и квадриграмной модели используется соответственноинформация о всех возможных последовательностях из 3-х и 4-х кодов.

Рассмотрим подробнее пример разбора предложения, представленного нарис.1. Прежде всего, определяются все возможные значения частей речи, входящихв предложение, словоформ. Так словоформа “The” может быть только AT; “man” — NN или VB; “still”- NN, VB или RB; “saw” — NN или VBD; “her”-PPO или PP$.Далее воспользовавшись таблицей частотности, присваиваем словоформам тот илииной лексико-грамматический класс. Пример таблицы частотности для нашегопредложения приведен на рис. 4.

 

NN

PPO

PP$

RB

VB

VBD

.

AT

186 8 1 8 9

NN

4 1 3 40 9 66 186

PPO

7 3 16 164 109 16 313

PP$

176 5 1 1 2

RB

5 3 16 164 109 16 313

VB

22 694 146 98 9 1 59

VBD

11 584 143 160 2 1 91

Рис.4

Например сочетание “The man” может бытьлибо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично,сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом работывероятностно-статистического алгоритма.

Представленная выше информация обрабатывается программой, использующейстатистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ длянахождения наиболее вероятного лексико-грамматического класса для каждого словав предложении.

Алгоритмы, основанные на продукционных правилах, используют правила,собранные автоматически с корпуса текстов, либо подготовленныеквалифицированными лингвистами. Примером могут быть следующие правила:

-    Еслисловоформа может быть как глаголом, так и существительным, и перед ней стоитартикль, эта словоформа в данном случае является существительным.

-    Еслисловоформа может быть как предлогом, так и подчинительным союзом, и если посленее до конца предложения нет глагола, эта словоформа в данном случае являетсяпредлогом.

Оба подхода дают примерно одинаковый результат. При их использованиираздельно либо в различных комбинациях точность лексико-грамматического анализаулучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализетекста вручную также имеет определенную погрешность (0,5-2 %), можно считать,что автоматизация лексико-грамматического анализа достигла практически такой жеточности.

Синтаксический анализ /8/. В отличие от лексико-грамматического анализатекста, синтаксический анализ — развивающаяся область прикладной лингвистики.Цель синтаксического анализа — автоматическое построение функционального деревафразы, т.е. нахождение взаимозависимостей между разноуровневыми элементамипредложения. Считается, что имея успешно построенное функциональное деревофразы, можно выделить из предложения смысловые элементы: логический субъект,логический предикат, прямые и косвенные дополнения и различные видыобстоятельств. Существует большое количество различных подходов ксинтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается впостроении элементарных смысловых деревьев предложения. Каждое элементарноедерево содержит в себе всю синтаксическую и семантическую информацию оконкретном слове или группе слов. К этим деревьям могут быть применены операциипримыкания и подстановки. Подстановка является простой операцией – подстановкойдерева к висящей вершине другого дерева. Примыкание является более сложнойоперацией – присоединение некоторого дерева к внутренним вершинам другогодерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один изобщих подходов синтаксического анализа предложения.

Синтаксический разбор предложения происходит путем наборапоследовательных преобразований:

-    поискграмматических идиом;

-    лексико-грамматическийанализ предложения с устранением неоднозначности в определении частей речи;

-    нахождениеименной группы объекта и субъекта;

-    нахождениеглагольной группы;

-    выделение главныхи придаточных предложений.

Приведем пример синтаксического разбора предложения рис.5.

[We] {have found} / that[subsequent addition] (of [the second inducer]) (of [either system]) <after{allowing} [single induction] {to proceed} +> (for [15 minutes]) (also){results} (in [increased reproduction]) + \ + (of [both enzymes]).

Обозначения:

[…] – группа существительного;

(…) – группа дополнения;

{…} – глагольная группа;

/…\ и <…> — главные и придаточныепредложения;

+ — окончание глагольного окружения.

Рис.5

В данной обзорной работе описаны лишь некоторые алгоритмы и наиболееобщие подходы к проблеме автоматической обработки естественно-языковых текстов.

Сегодня в области компьютерной лингвистики ежегодно проводится более 40конференций по всему миру, посвященных проблемам обработки естественного языка.Постоянно растет количество программных продуктов, связанных с данной темой,повышается их качество. Но, несмотря на это, те системы перевода, реферированияи экспертные системы, которые на сегодняшний день считаются лучшими, далеко неидеальны и требуют серьезных доработок. Все это говорит о необходимостипродолжения исследований вопросов, связанных с обработкой естественного языка взадачах ДО и разработки новых подходов и алгоритмов, основанных на методахискусственного интеллекта.

еще рефераты
Еще работы по информатике, программированию