Реферат: Порождение текстов на естественном языке

Порождение текстов на естественном языке

Порождениетекстов на естественном языке — процесс преднамеренного построения текста на естественномязыке с целью  решать определенныекоммуникативные задачи. Термин «текст» рассматривается как общий,рекурсивный термин, который может относится к письменному или устному высказыванию,или к отдельным частям высказывания. При порождении текстов, в устной илиписьменной форме, человеку важно обдумать и отредактировать производимоевысказывание. Едва ли можно сказать, что большинство программ может “говорить”сегодня, в основном все они лишь выводят слова на экран. Так как для программыпорождения текстов на сегодняшний день не стоит вопрос конструирования фразы,эти детали принимаются во внимание только тогда, когда они задействованы всоздании программы.

Цели исходят издругой программы, возможно экспертной рассуждающей системы или ICAI обучающейпрограммы, которая общается с пользователем на естественном языке.Произведенные тексты могут быть различной длины: от одиночной фразы, данной вответ на вопрос, до диалогов с большим количеством предложений или толкованийна целую страницу. Порождение текстов на естественном языке отличается отпрограмм, просто использующих естественный язык. Программы, печатающиесообщения на естественном языке, существуют со времен появления компьютеров, носейчас, например, никто не хочет разбираться, каким образом построены сообщенияоб ошибках при компиляции на ФОРТРАНе, как бы правильно они не были написаны.Сообщение об ошибках ничего не «означает» для программы, котораяпечатает их: связь между цепочкой слов и работой программы создаетсяпрограммистом. Даже использование утверждений с параметром, где зафиксированнаяцепочка слов может быть увеличена именами или простыми описаниями, заменяющимипеременные, не является собственно порождением текстов на естественном языке.Успех таких приемов как “заполнить пробелы” или “шаблон” зависит от количестваи сложности ситуаций, в которых программа должна использовать их. То, что онибыли адекватны до сих пор для работы программы, объясняется, по большей части,относительной простотой сегодняшних программ, чем  возможностями порождения с использованиемметода “шаблона”.

В отличие оттаких «инженерных разработок», исследование порождения текстов на естественномязыке, подобно другим областям вычислительной лингвистики (qv), имеет своейцелью компьютерное моделирование человеческой способности к порождениювысказываний. Основное внимание при этом сосредотачивается на объяснении двухключевых вопросов: многосторонность и творческий потенциал. Что люди знаютотносительно их языка, какие процессы они при этом используют, что даетвозможность им быть универсальным, изменяя тексты в форме и акцентировании,чтобы покрыть огромный диапазон языковых ситуаций?

В этой статьеописываетcя исследование в области ИИ  по порождению естественных языков, при этом особое внимание уделяетсяконкретным проблемам, которые требуют разрешения. Статья начинается спротивопоставления порождения пониманию, чтобы установить базисные понятия разложенияпроцесса на компоненты. Далее приводятся примеры, показывающие работу некоторыхпорождающих систем, их возможности и трудности, с которыми они сталкиваются.

В оставшейсячасти статьи рассматриваются общие подходы к порождению речи, включая характерныеописания порождающего словаря. Отдельный раздел продолжает обзор альтернативныхподходов к представлению и использованию грамматики.

Характер процесса порождения. В отличие от организациипроцесса понимания, который, на первый взгляд, может следовать  традиционным стадиям лингвистическогоанализа: морфология, синтаксис, семантика, прагматика /дискурс¦ процесспорождения имеет существенно отличный характер. Этот факт следуетнепосредственно из присущих различий в информационном потоке в двух процессах.Понимание осуществляется от формы к содержанию; порождение есть совершеннопротивоположный процесс. При понимании, формулировка текста (и, возможно, интонация) — «известны». Изформулировки процесс создает и выводит примерное содержание, переданное текстоми, вероятно, усилиями диктора в создании текста. Первым делом следуетпросмотреть слова текста  последовательно,в течение чего форма текста постепенно разворачивается. Главные проблемывызваны неоднозначностью¦ одна форма может содержать диапазон альтернативныхзначений, и аудитория получает большее количество информации из ситуационныхзаключений, чем это может быть фактически передано текстом. Кроме того,несоответствия у диктора и аудитории модели ситуации ведут к непредсказуемымзаключениям.

Порождение имеетпротивоположный информационный поток. Оно переходит от содержания к форме, отцелей и перспектив к линейно упорядоченным словам и синтаксическим маркерам.Модель ситуации и дискурс обеспечивают основу для создания выбора среди альтернативныхформулировок и конструкций, которые производит язык:  первое в построении заранее обдуманноготекста. Большинство систем  порожденияпроизводит поверхностные тексты последовательно слева направо, но только приняврешение сверху-вниз по содержанию и форме текста в целом. Проблема генераторасостоит в том, чтобы выбрать из поставленных источников, как правильно сообщитьо желаемых умозаключениях аудитории и какую информацию опустить из явногоупоминания в тексте.

Можновообразить, что процесс порождение также организован, как и процесс понимания,только в противоположном порядке. К некотором смысле это верно: идентификациянамерения (цели) в значительной степени предшествует любой детализацииинформация, которая предназначается для аудитории: планирование риторическойструктуры, например, в значительной степени, предшествует любой  синтаксической структуре,  а синтаксический контекст слова должен бытьзафиксирован, прежде чем будут известны морфологическая и суперсегментнаяформы, которые примет слово.

Синтаксис исловарь языка становится как ресурсами, так             иограничениями, определяя элементы, доступные для создания текста, а такжезависимости между ними, которые определяют возможные правильные комбинации. Этизависимости, и тот факт, что они по умолчанию управляют, когда информация, откоторой зависит каждое решение, становится доступной, — основная причина,почему программы порождения в значительной степени следуют стандартным стадиям,определенными лингвистами. Идентификация цели предшествует выбору содержания ириторическому планированию, которое предшествует синтаксической конструкции,только потому что это — естественный порядок принятия решения; проще следоватьпотоку зависимостей,  чем перепрыгивать ипринимать случайное решение, которое может оказаться преждевременным инесостоятельным. Сегодняшнее исследование сосредоточено как на понимании, каклучше представить решения, которые являются возможными, и зависимости срединих, так и на том, как представить ограничения и возможности раньше решений,которые встанут на место последних во время процесса порождения.

Стандартные Компоненты и Терминология. Компоненты порожденияестественного языка не существуют сами по себе. Они расположены внутричеловеко-машинного интерфейса, который также используют и компоненты пониманияестественного языка, — ВВОД в систему. В хорошем человеко-машинном интерфейсесегодня также хотелось бы  видетькоординированную графическую поддержку ввода и вывода, дополняя системуВВОДа-ВЫВОДа естественного языка. Интерфейс может закончиться здесь, а можеттакже включать в себя  другиеобщедоступные компоненты, типа контроллера дискурса, который указываетгенератору, какие действия нужно предпринять,  а также координируетинтерпретации, сделанные компонентом понимания. За интерфейсом следует ­нелингвистическоерассуждение (qv) или программа базы данных, которую пользователи используют вкачестве речевого интерфейса. Эта программа будет упоминаться в этой статье как основная программа; ею можетоказаться любая система ИИ: совместная база данных, экспертная диагностическаясистема, ICAI обучающая программа, комментатор, программа-консультант, машинныйпереводчик. Тип основной программы теперь не имеет никакого значения для самойпорождающей системы (генератора естественного языка).

Сегоднябольшинство исследователей в этой области работает, в основном, с экспертнымисистемами, где процесс общения контролируется программой, а не пользователем.Кроме того, ЭС и интеллектуальные машинные обучающие программы, вероятно,способны понимать довольно сложные тексты, что делает их привлекательными дляспециалистов, готовых работать с уже разработанными системами.

Процесспорождения начинается внутри основной программы,  в случае, когда, например, необходимоответить на вопрос  пользователя; или вовремя беседы может возникнуть потребность прервать действия пользователя, чтобыуказать надвигающуюся проблему. Как только процесс инициализирован, три видадействий должны быть выполнены:

1. Идентификацияцелей высказывания,

2. Планирование,как эти цели могут быть достигнуты, включая оценку ситуации и доступных коммуникативныхресурсов,

3. Реализацияпланов в текст.

Цели должныобычно передавать некоторую информацию аудитории или побуждать их к действиямили рассуждениям. Социальные и психологические, а также практические мотивы,побуждающие человека к общению, естественно, неприменимы для сегодняшнихкомпьютерных программ. Планирование включает в себя отбор (преднамеренноевычеркивание) информационных модулей, которые появляются в тексте (например, концепции, отношения, индивидуальность).

Реализациязависит от знания грамматики языка и правил связности дискурса, и даетсинтаксическое описание текста как промежуточное представление. При этомвыделяется не только лингвистическая форма, но также знание относительнокритериев, которые показывают, как используются эти формы. В многихисследованиях процесс, который проводит грамматическую реализацию, называетсялингвистическим компонентом(10), а иногда планирование и вместе с процессом идентификации цели называетсястратегическим компонентом (13). Обычно это — только лингвистический компонент,который имеет любое прямое знание относительно грамматики производимого языка.Какую форму эта грамматика принимает — один из самых больших различий средипроектов порождения.

Традиционно длялингвиста, грамматика — костяк в отрезке утверждения/ высказывания. Содержаниеутверждений — специфические факты данного естественного языка — не представляеттакого интереса для лингвиста.

Аналогичнаяситуация с порождением текстов, за исключением того, что запись — процедурная идекларативная — разработана, чтобы обеспечивать очень специфическую функцию, с которой традиционныйлингвист не сталкивается, а именно: вести и сдерживать процесс порождениятекста со специфическим содержанием и целями в присутствии специфическойаудитории. Грамматика теперь ответственна за наличие выбора, который языкпредоставляет для формы и словаря. Исследователи порождения должны сделатьверный выбор, чтобы, используя функции различных конструкций для достиженияконкретной цели. Другая функция грамматики — следить за грамматичностью текста,т. е. определение зависимостей и ограничивая решения.

Техническийуровень

Разноплановоеразвитие и творческий потенциал в порождении текстов является возможным при следующихусловиях:

1. Генераторвключает в себя весь объем основной грамматики;

2. Основнаяпрограмма имеет сложное, разносторонее, концептуальное представление(вид);

3. Текстовыйпланировщик может использовать модели аудитории и дискурса.

К сожалению,такие генераторы — все еще только предмет исследования сегодня, т. к.техническая сторона остается на уровне программы SHRDLU Винограда в 1970 (17), которая порождала предложения впроцессе ответа на вопросы, система “непосредственной замены”, порождающаяпростые грамматические глагольные корректировки в целях достиженияудобочитаемого текста.

When did youpick up [the green pyramid]?

While I wasstacking up yhe red cube, a large red block, and a large green cube.

К концу 1970-ыхтакие системы стали достаточно популярны в работе ЭС: для перевода многочисленныхправил в этих системах. Необходимость программ порождения текстов в системах ссоставной структурой и коммуникативным контекстом была очевидной.

Исследователизаинтересованы в более сложных текстах, нежели в контекстно-свободных представлениях,которые требуются правилами системы. В качестве примера приводится простое описаниеиз программы Сигурда, чья цель была выяснить, как в помощью интонациивыявляется группировка:

The submarine isto the south of the port. It is approaching the port, but is not close to it.The destroyer is approaching the port too.

Использованиеслов-ссылок “but” “too” является большим прогрессом  в структурировании системы. Предложение,которое является источником в базе данных ЭС, рассуждающее о субмаринах иэсминцах, не будет обрамлено концептуальными эквивалентами таких функциональныхслов, и может быть прочтено простым шаблоном, потому что ссылки специфичны имогут быть употреблены только в отдельном конкретном случае.

Еще однатехническая, пока не разрешенная, проблема — “последующая ссылка”. Какимидолжны быть слова-заменители, если предмет появляется больше, чем один раз втексте? Постоянное употребление местоимений может привести к неоднозначности. Вкачестве примера приводится отрывок из исследований Гранвилле, которыйклассифицирует отношения между референтом и предметом и разрабатывает правила,по которым бы могли строиться последующие ссылки.

Pogo cares forHepzibah. Churchy likes her, too. Pogo gives a rose to her, which pleases her.She does not want Churchy’s rose. He is jealous. He punches Pogo. He gives arose to Hebzibah. The petals drop off. This upsets her. She cries.

Неудивительно,что у исследователей, разрабатывающих основную программу, генераторы обладаютнаибольшей эффективностью, что дает  уверенность в том, что имеется концептуальная основа для группированияотдельных предложений/ утверждений в тексте. Важным моментом на этом этапеявляется программа PROTEUS, разработанная Дэйви в 1974. Программа дает описаниеигры крестики-нолики и считается одной из программ, наиболее свободно владеющейестественным языком. PROTEUS имеет модель толкования конкретных шагов: нападение, встречное нападение, включаетв себя риторический принцип, что в текст нужно помещать только наиболеесущественную информацию в ситуации. Грамматика и средства реализациивыбирают  описанные и сгруппированныешаги, исправляют формы, так чтобы они были грамматичны в английскихпредложениях, и порождают собственно текст.

Следуетупомянуть и программу  ERMA Клиппенгера(1974)- единственная программа на тот момент, работающая со спонтанной речью.Как люди размышляют о том, что они говорят, как они динамически планируют илименяют свои намерения относительно того, что они хотят сказать в разговоре? Вцелях моделирования этого процесса, Клиппенгер анализировал стенограмму речипациента по психоанализу с тем, чтобы понять рассуждения пациента, дающиеобъяснение одному из параграфов стенограммы, который ERMA могла  подробно воспроизвести. Клиппенгер разработалструктуру из  пяти основныхвзаимосвязанных компонентов, участвующих в порождении спонтанного текста. Нодля компьютерного программирования в 1974 реализовать этот план было не подсилу, вследствие чего проект был оставлен.

Исторический обзор проблемы. По сути дела, программыPROTEUS Дэйви и ERMA Клиппенгера являются самыми старшими в этой области.Во-первых, потому что до начала 80-ых сравнительно мало людей работало надпроблемой порождения, во-вторых, сама проблема достаточно сложна, по мнениюавторов статьи, намного сложнее проблемы понимания речи. На самом деле,проблемой серьезно занимались в начале 1970-ых. Но справедливо отметить, что наважной конференции по данной проблеме в 1975г представленные отчеты опроделанной работе не нашли должного отклика, после чего исследования попорождению естественного языка были почти приостановлены до начала 1980-ых.

До 80-ыхспециалисты в области ИИ склонны были считать проблему порождения достаточнолегкой. В самом деле, разве трудно взять к-л утверждение из некоторого речевогофрагмента, связать его с определениями, хранящимися отдельно, и произвести,например, следующее “The big black block supports a green one”. Это было подсилу SHRDLU Винограда уже в 1970г. Если бы можно было ограничиться этимизнаниями, то, на самом деле, не возникало бы проблем. Но вариативность языка недавала такой возможности. Каким образом человек представляет грамматическиезнания, которые позволяют генератору использовать синтаксическую структурупредложения в целях cоздания соответствующего относительного предложения (“thegreen block that’s supported by the big red one”, “a green one”, а не “a greenblock”), а также вообще иметь представление о возможности таких относительныхпредложений и подобных замен. 

Общие подходы к проблеме. Трудно идентифицироватьобщие элементы в различных проектах исследования по порождению естественногоязыка. Напротив, в исследованиях по пониманию речи можно выделить несколькоосновных подходов к проблеме: использование расширенных сетей переходов,семантические грамматики (qv), рабочие системы, основанные напредставлении  концептуальнойзависимости, процедурная семантика и многое другое. Исследование порождения неможет дать подобной классификации, поскольку очень мало специалистов ставилиэту проблему во главу угла. Большие исследовательские группы, полностьюсконцентрировавшиеся на вопросе порождения естественного языка, началисоздаваться в последние два года. Основная проблема состоит в отсутствии общегоотправного пункта, конкретной основы для сравнения, что осложняет работу, недает возможности для взаимопомощи между исследователями: практически невозможнопроверить свои эксперименты на системе другого разработчика. Однако имеютсяобщие нити, связывающие различные проекты: похожие подходы, похожиепредставления, похожие грамматики.

Существует двавопроса, представляющих общий интерес. Первый вопрос: как сопоставить многообразиеформ в естественных языках, чтобы разработать их функциональное использование,ответить на вопрос, почему человек использует одну форму, а не  другую, а далее формализовать этот процесс.

Второй вопрос — это контроль над процессом порождения. Что определяет выбор говорящего в даннойязыковой ситуации? Как человек организовывает и представляет промежуточныерезультаты? Какими знаниями о зависимостях между вариантами выбора должнаобладать система? Как представлены эти зависимости и как они могут влиять наалгоритмы управления? Ответы на поставленные вопросы будут рассмотрены в этойстатье.

Контроль над постепенной обработкой сообщения. Среди порождающих систем,которые были специально построены для работы в основных системах, преобладающийподход контроля состоит в обработке сообщений как определенного вида программ.Эти «сообщения» не просто выражения, чьи контекст и форма изоморфныпо отношению к конечному тексту. “Сообщения” могут быть закодированы накомпьютерном языке. Их нельзя просто перевести. Конечно, при самой простойобработке порождения, перевода было бы достаточно (как почти во всехсуществующих ЭС), но в обработке, которая сосредоточена на порождении текстовна естественном языке, отношения и содержание в сообщении лучше всегопросматриваются в виде команд для достижения определенного эффекта лингвистическимисредствами. Оценка происходит при постепенной обработке от внешних команд квнутренним. Эта методика контроля естественна для разработчиков систем, так какона имитирует стиль языков программирования, которые они используют.

Наиболее общиесообщения сегодня не создаются планировщиком, а являются просто структурамиданных, которые извлекаются из основной программы и которым генератор даетособую интерпретацию. Подобная практика распространена в программах, которымнеобходимо объяснять свои рассуждения, заключенные в доказательстве дедуктивнымметодом исчисления предиката. Ниже приводится такого рода доказательство.

 На входе

Line 1: premis

     Exists(x) [barber(x) and

                 Forall(y)..shaves(x,y) iffnot.shaves(y,y)l

Line 2:existential instantiation (1)

     barber(g)and Forall(y)..shaves(g,y) iffnot.shaves(y,y)

Line 3:conjunction reduction (2)

     Forall (y)..shaves(g,y) iffnot.shaves(y,y)

Line 4:universal instantiation (3)

     shaves(g,g) iff not.shaves(g,g)

Line 5:tautology (4)

     shaves(g,g) and not.shaves(g,g)

Line 6:conditionalization (5,1)

     (Exists(x) [barber(x) and

             Forall(y)..shaves (x,y) iffnot.shaves(y,y)]

        implies (shave(g,g) andnot.shaves(g,g))

Line 7:reductio-ad-absurdum (6)

     not(Exists(x) barber(x) and

                   Forall(y)..shaves (x,y)

                               iffnot.shaves(y,y))

На выходе

Assume thatthere is some barber who shaves everyone who doesn’t shave himself (and no oneelse). Call him Giuseppe. Now, anyone who doesn’t shave himself would be shavedby Giuseppe. This would include Guiseppe himself. That is, he would shavehimself, if and only if he did not shave himself, which is a conradiction.Therefore it is false, there is no such barber.

Модель даетобъяснение действиям автора доказательства в выборе, какое правило применять,например, что цель правой части условия в первой строке наложить ограничение напеременную Y ("… Кто не бреет себя "). Это дает право восприниматьдоказательство особым образом. Эти действия, однако, нигде в доказательстве(которое было единственным входом в программу) не появляется.  Они только предполагаются и, таким образом,имеют силу только для нескольких примеров доказательств, произведенныхестественным дедуктивным методом.

Недостатокинформации в сообщениях основной программы — постоянная проблема в работе спорождением текстов. Специалисты по вычислительной лингвистике вынужденывчитываться в структуры данных основных программ, потому что последние уже невключают те виды риторических команд, которые необходимы генератору, еслиследовать синтаксическим конструкциям языка, которые использует человек. Без“дополнительной” информации связность произносимого — особенно для длинныхтекстов — будет зависеть от того, насколько непротиворечиво и полно авторы основныхпрограмм представили информацию: каждый раз, когда  генератор встречает к-л символ, ему ничего неостается как обрабатывать его как «посылку» или как условие одним итем же способом, если он встречает их в одинаковом контексте. Еслиподдерживается непротиворечивость, проектировщик может восполнять неточности, усовершенствуя структурыданных, как только они оказываются внутри лингвистического компонента.

Средства,направленные на достижение беглости и преднамеренной детализации формы, объясняютиспользование фразовых словарей и промежуточного лингвистическогопредставления. Простой пример показывает, почему это необходимо. Рассмотримлогическую формулу,  которую программаобычно использовала бы внутренне. В этом примере обработка проводится тем жеметодом, что описан выше. Пример представляет из себя наиболее общий видсообщения: выражение прямо из модели основной программы (система доказательстваестественным дедуктивным методом), которому теперь дается особая интерпретация,так как это выражение служит для анализа текста.

(exists x

   (and barber(x)

       (forall y

          (if-and-only-if shaves(x,y)

                          (not shaves(y, y))))))

В этой формулегенератор одновременно сопоставляется с выбором реализации. Должно ли навешиваниекванторов выражаться  буквально(«Существует такой X, что ...»), или должно быть свернутым внутриосновной части как определяющая информация относительно реализации переменных("...some barber”)? Должно ли условие if-and-only-if реализовыватьсябуквально как конъюнкция подчинения или может быть интерпретировано какограничение диапазона переменной? Утверждение типа barber(x), по-видимому,всегда должно декодироваться и преобразовываться в детальное описаниепеременной. Остальное реализуется независимым образом, однако, послетщательного обдумывания.

Объекты, которыезаполняют «мозг» основной программы, в данном случае — логическиесвязки, предикаты, и переменные, полностью связаны со словами и грамматическимиконструкциями, которые подлежат обработке «специальными процедурами/процедурами знаний» поддерживаемыми внутри генератора. Эти процедуры — эквивалент словаря в понимающей системе. Специалисты строят фразу дляпонимания, используя лексическую информацию, связанную непосредственно синдивидуальными логическими объектами. Каждый объект обычно ассоциируется с к-ллексическими единицами: константа может иметь имя; предикат может иметьприлагательное или глагол. Специалист помещает их во фразовый контекст, которыйбудет дополнен рекурсивной прикладной программой других специалистов, например,двуместный предикат «shaves(x,y)» становится шаблоном предложения«x shaves y.»

Таким образом,лингвистические шаблоны обеспечивают упорядоченную реализацию параметров, чтоподдерживает эффективное функционирование с наименьшим количествомблокирований, ускоряя процесс порождения в целом, избегая необходимость«резервировать» преждевременные решения, которые могут оказатьсянесовместимыми с грамматическим контекстом, определенным более высокимшаблоном.

Лексический Выбор. Некоторые подходы к машинному пониманиюосновываются на небольшом наборе базисных элементов (qv) и,  формулируют знания программы в виде наборавыражений к базисным элементам, что упрощает работу программы: становится легчевыводить умозаключения, потому что при помощи базисных элементов  они распределяются в естественные группы.Однако, сведение диапазона человеческих действий к определенному набору,например, лишь к 13 концептуальным базисным элементам, означает, что  специфика значений распределяется ввыражениях и извлекается оттуда каждый раз, если во время порождения необходимоиспользовать глаголы со специфическим значением. Голдман первый провелисследования по использованию сетей распознавания. Он показал, как производитсявыбор слова, в отрыве от основных базисных элементов. Например, из базисногоэлемента действия «глотать» можно получить глаголы «пить»,«есть», «вдыхать», «дышать», «курить»,или «проглотить», как быпроверяя при этом, был ли проглоченный объект жидкостью или дымом.

Проект сетираспознавания заставляет исследователя порождения выходить за рамки основныхразличий типов объектов и включать контекстные факторы, напр., эмоциональныерассуждения говорящего. Ниже — выборка из работы Хови, цель которой состояла втом, чтобы сместить текст, чтобы подчеркнуть желаемую точку зрения (в данномслучае сообщить в февральских первичных выборах так, чтобы  результаты понравились Картеру, даже если онпроиграл.

Kennedy only gota small number of delegates in the elections on 20 February. Cater just lost bya small number of votes. He has several delegates more than Kennedy in total.

Фразовые словари. Какое слово ассоциируется с простымипонятиями, типа «парикмахер» или «брить», являетсяочевидным; однако, для объектов в комплексных основных программах, лексическийвыбор может оказаться более проблематичным. Помощь в этой ситуации можетоказать использование фразового словаря. Это понятие было введено в 1975Бекером и с тех пор стало важным инструментом систем порождения. С лингвистическойточки зрения,  «фразовый»словарь — ­концептуальное расширение стандартного словаря,  включающее все непроанализированные фразы,-  на той же самой семантической основе,что и словарь отдельных слов. Это обеспечивает фиксацию незаконсервированныхидиом и различных речевых способов, которые люди используют каждый день. Таккак люди используют эти " фиксированные фразы " какнерасчленимое  целое, программы должнынаучиться делать то же самое. Пример ниже — из работы Кукича.

Wall Streetsecurities markets meandered upward through most of the motning, before beingpushed downhill late in the day yesterday. The stock market closed out the daywith a small loss and turned in mixed showing in moderate trading.

Этоинформационное объявление было вычислено непосредственно из анализа данных поповедению рынка в течение дня. Качественные моменты в сообщении были соединенынепосредственно со стереотипными фразами подобного рода объявлений: «asmall loss»,  «a mixedshowing», «in moderate trading». Объекты, действия и указателивремени были отображены непосредственно в соответствующих цепочках слов:«Wall Street securities markets», «meandered upward »,«be pushed downhill», «late in the day». Композиционныйшаблон состоит из предложений, сформированных на основе S-V-Advp фразы: (рынок)(действие) (указатель времени).

Обработка Грамматики

В изучениипорождения выбор формализации представления грамматики языка всегда связывалсяс выбором протокола контроля. Известны три основных подхода к решению этоговопроса:

1. грамматикакак независимый корпус предложений и фильтр к ним (например, объединенная функциональная грамматика);

2. использованиеграмматики с целью выявления всех возможных поверхностных структур, доступныхдля языка; затем проведение  выбора иреализации среди данных поверхностных структур (смысловые подходы);

3. грамматикакак структура пересеченного графа, который контролирует весь процесс, как толькосоздается план текста (план выражения) (грамматика расширенных сетей переходов,а также систематическая грамматика).

В этой статье неоказывается предпочтение ни одному из трех подходов. Однако каждый из них будетрассмотрен в соответствие с поставленной задачей, которая мотивируетиспользование этих подходов.

Объединенная Функциональная Грамматика (ОФГ) впорождении.

ОбъединеннаяФункциональная Грамматика была разработана Кейем, является “реверсивной”грамматикой, т. е. может использоваться как при порождении, так и при пониманииречи.

Термин«функциональный», по мнению разработчиков, говорит о том, что следуетоттолкнуться от описания структуры лингвистических форм, чтобы обратиться кпричинам, почему   используется язык. Вотличие от систематических грамматик,  функциональные элементы в ОФГ представляют к настоящему временилишь минимальное расширение стандартного категориального лингвистическогословаря, используемого традиционно, чтобы описать синтаксическую форму(например, «clause», «noun phrase»,  «adjective»), и имеют много общегос «лексико-функциональной грамматикой», (стоящей в той же парадигмеграмматик). Классическое  функциональное значение, типа различие между«уже имеющейся» и «новой» информацией в предложении,подобно различию между «темой» и «ремой”, еще не включено в ОФГ.ОФГ использует “telegram” грамматику, разработанную Аппельтом, понимающийкомпонент, написанный Босси. 

 Первый пример (из Аппельта) описывает одну изсоставляющих  ролей, которые сопровождаютфразовую категорию, именную фразу.

ОФГ используют,чтобы изложить в деталях минимальные, концептуально полученные функциональныеописания, например, что главным словом к-л именной фразы должно быть слово»отвертка". Недавняя работа Паттена использует систематическуюграмматику в очень схожим образом. Операции такого типа на семантическомуровне, выполняемые в других подходах путем планирования уровня, специалистыопределяют как набор особенностей выводавнутри систематической грамматики, эквивалент начального функциональногоописания, которое управляет ОФГ. Обратное и прямое формирование цепочкиперемещается через систематическую грамматику, затем определяет, какиедополнительные лингвистические особенности должны быть добавлены кграмматической спецификации текста.

ОФГ используютсяв процессе последовательных объединений, ограниченных правилами, которые следятза тем, как два описания могут быть объединены. Ключевая идея состоит в том,что планировщик первоначально создает минимальное описание фразы, что можноделать и стандартным способом. Чтобы излагать в деталях описание к пунктам, гдеэто было бы грамматически верно, оно затем объединяется с грамматикой: описаниефразы и спецификация грамматики успешно объединены. Конкретизация понятийпрежде не определенных особенностей описания константами, снабженнымиграмматикой, вызывает эффект ряби во всей системе: решения, которые зависят оттолько что конкретизированных особенностей, провоцируют дальнейшее циклическоеобъединение, пока не будет сформулировано грамматически полное описаниевысказывания. Кроме того, элементы в описании планировщика побуждают к отборусреди дизъюнктивных спецификаций в грамматике. Например, определение глаголаприводит к выбору грамматической подклассификации.

Полное описаниесоставляет дерево подописаний (составляющих) как определено«стандартом» (образцом), который предписывает последовательныйпорядок на каждом уровне. Фактически текст создается при  просмотре этого дерева и чтении слов слексическими особенностями каждой составляющей. Ограничения накладываются впроцессе объединения: только совместимые частичные описания присутствуют вконечном результате. Это имеет большое значение, так как планировщику не нужно разбиратьсяс грамматическими ограничениями и зависимостями, что, с другой стороны ограничиваетего потенциал: он не может пользоваться знаниями по грамматическимограничениям, даже когда ему это понадобится.

С точки зренияразработки грамматики, ОФГ является вполне удовлетворительной, так как данныйподход позволяет компактно формулировать языковые факты, то есть необязательнорасшифровывать взаимосвязь между предложениями, так как это происходитавтоматически во время объединения.

Прямой Контроль Грамматики  при Понимании: Систематическая Грамматика иГрамматика Расширенных Сетей Переходов (РСП). Расширенная сеть переходов используется впорождении почти с момента своего определения. РСП использовали сначала Симмонси Слокум в 1970, чью систему затем использовал Голдман. РСП также применялШапиро, чей генератор, в этой группе, является наиболее продуманным. Всесистемы имеют схожую структуру. Они просматривают структуру данных, которуюподдерживает основная программа. Сети поддерживают формат сверху-вниз, какобычно у всех РСП-парсеров (синтаксических анализаторов). Для ранних РСПподобная структура являлась семантической сетью, основанной на теории фреймов сглаголом в центральной части (еще одна «функциональная»лингвистическая система). Специальный узел в сети, «вектормодальности», определяет информацию на корневом уровне, например, время ивид; является предложение активным или пассивным. Первичная функция РСП вранних системах состояла в линейном упорядочении сетевой структуры, котораябыла главным образом уже закодирована в лингвистическом словаре.

РСП, посуществу, представляет из себя процедурное кодирование порождающей грамматики.Регистры, которые дают сетям «расширенное» влияние,  используются как представление грамматическихотношений с глубинной структурой, и пути в сетях кодируют все составныеповерхностные альтернативные последовательности. Ограничения распространяютсяпо дереву сверху-вниз (то есть к рекурсивным подсетям РСП) через значения вобозначенных регистров, приводя в действие подсети при контекстном управлении. Проект РСП Шапиро особенновпечатляет, поскольку его структура управления данных занимает весьвычислительный режим основной программы.

Дальнейшийаспект проекта РСП — тот факт, что средства создания слов текста являются выполнением побочного эффекта попрохождению ребра графа, что приводит генератор к действию почти в тот момент,когда ситуация воспринимается. Особенно впечатляет то, что оценивает, что РСП Шапироникогда не пользуется резервированием. Это — совершенно необычное поведение дляРСП, так как порождение является в сущности процессом планирования.

 Наиболее значительной проблемой для проектовРСП — ­трудность выделения понимания из действия. Генераторы, основанные насистематическ

еще рефераты
Еще работы по литературе, лингвистике