Болезни Военный билет Призыв

Компьютерный лингвист. Компьютерная лингвистика: методы, ресурсы, приложения. Отрывок, характеризующий Компьютерная лингвистика

Компьютерная лингвистика: методы, ресурсы, приложения

Введение

Термин компьютерная лингвистика (КЛ) в последние годы все чаще встречается в связи с разработкой различных прикладных программных систем, в том числе – коммерческих программных продуктов. Связано это бурным ростом в обществе текстовой информации, в том числе в сети Интернет, и необходимостью автоматической обработки текстов на естественном языке (ЕЯ). Указанное обстоятельство стимулирует развитие компьютерной лингвистики как области науки и разработку новых информационных и лингвистических технологий.

В рамках компьютерной лингвистики, существующей уже более 50 лет (и известной также под названиями машинная лингвистика , автоматическая обработка текстов на ЕЯ ) предложено много перспективных методов и идей, но далеко не все они еще нашли свое выражение в программных продуктах, используемых на практике. Наша цель – охарактеризовать специфику этой области исследований, сформулировать ее основные задачи, указать ее связи с другими науками, дать краткий обзор основных подходов и используемых ресурсов, а также кратко охарактеризовать существующие приложения КЛ. Для более подробного ознакомления с этими вопросам можно рекомендовать книги .

1. Задачи компьютерной лингвистики

Компьютерная лингвистика возникла на стыке таких наук, как лингвистика, математика, информатика (Computer Science) и искусственный интеллект. Истоки КЛ восходят к исследованиям известного американского ученого Н. Хомского в области формализации структуры естественного языка ; ее развитие опирается на результаты в области общей лингвистики (языкознания) . Языкознание изучает общие законы естественного языка – его структуру и функционирование, и включает такие области:

Ø Фонология – изучает звуки речи и правила их соединения при формировании речи;

Ø Морфология – занимается внутренней структурой и внешней формой слов речи, включая части речи и их категории;

Ø Синтаксис – изучает структуру предложений, правила сочетаемости и порядка следования слов в предложении, а также общие его свойства как единицы языка.

Ø Семантика и прагматика – тесно связанные области: семантика занимается смыслом слов, предложений и других единиц речи, а прагматика – особенностями выражения этого смысла в связи с конкретными целями общения;

Ø Лексикография описывает лексикон конкретного ЕЯ – его отдельные слова и их грамматические свойства, а также методы создания словарей.

Результаты Н. Хомского, полученные на стыке лингвистики и математики, заложили основу для теории формальных языков и грамматик (часто называемых генеративными , или порождающими грамматиками). Эта теория относится ныне к математической лингвистике и применяется для обработки не столько ЕЯ, но искусственных языков, в первую очередь – языков программирования. По своему характеру это вполне математическая дисциплина.

К математической лингвистике относят также и квантитативную лингвистику , изучающую частотные характеристики языка – слов, их комбинаций, синтаксических конструкций и т. п., При этом используется математические методы статистики, так что можно назвать этот раздел науки статистической лингвистикой .

КЛ тесно связана и с такой междисциплинарной научной областью, как искусственный интеллект (ИИ) , в рамках которого разрабатываются компьютерные модели отдельных интеллектуальных функций. Одна из первых работающих программ в области ИИ и КЛ – это известная программа Т. Винограда, которая понимала простейшие приказы человека по изменению мира кубиков, сформулированные на ограниченном подмножестве ЕЯ . Отметим, что несмотря на очевидное пересечение исследований в области КЛ и ИИ (поскольку владение языком относится к интеллектуальным функциям), ИИ не поглощает всю КЛ, поскольку она имеет свой теоретический базис и методологию. Общим для указанных наук является компьютерное моделирование как основной метод и итоговая цель исследований.

Таким образом, задача КЛ может быть сформулирована как разработка компьютерных программ для автоматической обработки текстов на ЕЯ. И хотя при этом обработка понимается достаточно широко, далеко не все виды обработки могут быть названы лингвистическими, а соответствующие процессоры – лингвистическими. Лингвистический процессор должен использовать ту или иную формальную модель языка (пусть даже очень простую), а значит, быть так или иначе языково-зависимым (т. е. зависеть от конкретного ЕЯ). Так, например, текстовый редактор Mycrosoft Word может быть назван лингвистическим (хотя бы потому, что использует словари), а редактор NotePad – нет.

Сложность задач КЛ связана с тем, что ЕЯ – сложная многоуровневая система знаков, возникшая для обмена информацией между людьми, выработанная в процессе практической деятельности человека, и постоянно изменяющаяся в связи с этой деятельностью . Другая сложность разработки методов КЛ (и сложность изучения ЕЯ в рамках языкознания) связана с многообразием естественных языков, существенными отличиями их лексики, морфологии , синтаксиса, разные языки предоставляют разные способы выражения одного и того же смысла.

2. Особенности системы ЕЯ: уровни и связи

Объектом лингвистических процессоров являются тексты ЕЯ. Под текстами понимаются любые образцы речи – устной и письменной, любого жанра, но в основном КЛ рассматривает письменные тексты. Текст имеет одномерную, линейную структуру, а также несет определенный смысл, язык же выступает как средство преобразования передаваемого смысла в тексты (синтез речи) и наоборот (анализ речи). Текст составлен из более мелких единиц, и возможно несколько способов разбиения (членения) текста на единицы, относящихся к разным уровням.

Общепризнано существование следующих уровней :

· уровень предложений (высказываний) – синтаксический уровень ;

· Лексико-морфологическая омонимия (наиболее частый вид) возникает при совпадении словоформ двух разных лексем, например, стих – глагол в единственном числе мужского рода и существительное в единственном числе, именительном падеже),

· Синтаксическая омонимия означает неоднозначность синтаксической структуры, что приводит к нескольким интерпретациям: Студенты из Львова поехали в Киев, Flying planes can be dangerous (известный пример Хомского) и др.

3. Моделирование в компьютерной лингвистике

Разработка лингвистического процессора (ЛП) предполагает описание лингвистических свойств обрабатываемого текста ЕЯ, и это описание организуется как модель языка . Как и при моделировании в математике и программировании, под моделью понимается некоторая система, отображающая ряд существенных свойств моделируемого явления (т. е. ЕЯ) и обладающая поэтому структурным или функциональным подобием.

Используемые в КЛ модели языка обычно строятся на основе теорий, создаваемых лингвистами путем изучения различных текстов и на основе своей лингвистической интуиции (интроспекции). В чем же специфика именно моделей КЛ? Можно выделить следующие их особенности :

· Формальность и, в конечном счете, алгоритмизируемость;

· Функциональность (цель моделирования – воспроизведение функций языка как «черного ящика», без построения точной модели синтеза и анализа речи человеком);

· Общность модели, т. е. учет ею довольно большого множества текстов;

· Экспериментальная обоснованность, предполагающая тестирование модели на разных текстах;

· Опора на словари как обязательную составляющую модели.

Сложность ЕЯ, его описания и обработки ведет к разбиению этого процесса на отдельные этапы, соответствующие уровням языка, Большинство современных ЛП относятся к модульному типу, при котором каждому уровню лингвистического анализа или синтеза соответствует отдельный модуль процессора. В частности, в случае анализа текста отдельные модули ЛП выполняют:

Ø Графематический анализ, т. е. выделение в тексте словоформ (переход от символов к словам);

Ø Морфологический анализ – переход от словоформ к их леммам (словарным формам лексем) или основам (ядерным частям слова, за вычетом словоизменительных морфем);

Ø Синтаксический анализ, т. е. выявление грамматической структуры предложений текста;

Ø Семантический и прагматический анализ, при котором определяется смысл фраз и соответствующая реакция системы, в рамках которой работает ЛП.

Возможны разные схемы взаимодействия указанных модулей (последовательная работа или параллельный перемежающийся анализ), однако отдельные уровни – морфология, синтаксис и семантика все же обрабатываются разными механизмами.

Таким образом, ЛП можно рассматривать как многоэтапный преобразователь, переводящий в случае анализа текста каждое его предложение во внутреннее представление его смысла и наоборот в случае синтеза. Соответствующая модель языка может называться структурной .

Хотя полные модели КЛ требуют учета всех основных уровней языка и наличия соответствующих модулей, при решении некоторых прикладных задач можно обойтись без представления в ЛП отдельных уровней. К примеру, в ранних экспериментальных программах КЛ, обрабатываемые тексты относились к очень узким проблемным областям (с ограниченным набором слов и строгим их порядком), так что для распознавания слов можно было использовать их начальные буквы, опуская этапы морфологического и синтаксического анализа.

Еще одним примером редуцированной модели, ныне достаточно часто используемой, является языковая модель частотности символов и их сочетаний (биграмм, триграмм и пр.) в текстах конкретного ЕЯ . Такая статистическая модель отображает лингвистическую информацию на уровне символов (букв) текста, и ее достаточно, например, для выявления опечаток в тексте или для распознавания его языковой принадлежности. Аналогичная модель на базе статистики отдельных слов и их совместной встречаемости в текстах (биграмм, триграмм слов) применяется, например, для разрешения лексической неоднозначности или определения части речи слова (в языках типа английского).

Отметим, что возможны структурно-статистические модели , в которых при представлении отдельных уровней ЕЯ учитывается та или иная статистика – слов, синтаксических конструкций и т. п.

В ЛП модульного типа на каждом этапе анализа или синтеза текста используется соответствующая модель (морфологии, синтасиса и т. п.).

Существующие в КЛ морфологические модели анализа словоформ различаются в основном по следующим параметрам:

· результату работы – лемма или основа с набором морфологических характеристик (род, число, падеж, вид, лицо и т. п.) заданной словоформы;

· методу анализа – с опорой на словарь словоформ языка или на словарь основ, либо же бессловарный метод;

· возможности обработки словоформы лексемы, не включенной в словарь.

При морфологическом синтезе исходными данными являются лексема и конкретные морфологические характеристики запрашиваемой словоформы данной лексемы, возможен и запрос на синтез всех форм заданной лексемы. Результат как морфологического анализа, так и синтеза в общем случае неоднозначен.

Для моделирования синтаксиса в рамках КЛ предложено большое число разных идей и методов, отличающихся способом описания синтаксиса языка, способом использования этой информации при анализе или синтезе предложения ЕЯ, а также способом представления синтаксической структуры предложения . Весьма условно можно выделить три основных подхода к созданию моделей: генеративный подход, восходящий к идеям Хомского , подход, восходящий к идеям И. Мельчука и представленный моделью «СмыслÛТекст» , а также подход, в рамках которого делаются те или иные попытки преодолеть ограничения первых двух подходов, в частности, теория синтаксических групп .

В рамках генеративного подхода синтаксический анализ производится, как правило, на основе формальной контекстно-свободной грамматики, описывающей фразовую структуру предложения, или же на основе некоторого расширения контекстно-свободной грамматики. Эти грамматики исходят из последовательного линейного членения предложения на фразы (синтаксические конструкции, например, именные группы) и отражают поэтому одновременно как его синтаксическую, так и линейную структуры. Полученная в результате анализа иерархическая синтаксическая структура предложения ЕЯ описывается деревом составляющих , в листьях которого находятся слова предложения, поддеревья соответствуют входящим в предложение синтаксическим конструкциям (фразам), а дуги выражают отношения вложения конструкций.

К рассматриваемому подходу могут быть отнесены сетевые грамматики, представляющие собой одновременно аппарат для описания системы языка и для задания процедуры анализа предложений на основе понятия конечного автомата, например, расширенная сеть переходов ATN .

В рамках второго подхода для представления синтаксической структуры предложения используется более наглядный и распростра­ненный способ – деревья зависимостей . В узлах дерева расположены слова предложения (в корне обычно глагол-сказуемое), а каждая дуга дерева, связывающая пару узлов, интерпретируется как синтаксическая подчинительная связь между ними, причем направление связи соответствует направлению данной дуги. Поскольку при этом синтаксические связи слов и порядок слов в предложении отделены, то на основе деревьев подчинения могут быть описаны разорванные и непроективные конструкции , достаточно часто возникающие в языках со свободным порядком слов.

Деревья составляющих больше подходят для описания языков в жестким порядком слов, представление с их помощью разорванных и непроективных конструкций требует расширения используемого грамматического форма лизма. Зато в рамках этого подхода более естественно описываются конструкции с неподчинительными отношениями. В то же время общая трудность для обоих подходов – представление однородных членов предложения.

Синтаксические модели во всех подходах пытаются учесть ограничения, накладываемые на соединение языковых единиц в речи, при этом так или иначе используется понятие валентности . Валентность – это способность слова или другой единицы языка присоединять другие единицы определенным синтаксическим способом; актант – это слово или синтаксическая конструкция, заполняющая эту валентность. Например, русский глагол передать имеет три основные валентности, которые можно выразить следующими вопросительными словами: кто? кому? что? В рамках генеративного подхода валентности слов (прежде всего, глаголов) описываются преимущественно в виде специальных фреймов (subcategorization frames ) , а в рамках подхода, основанного на деревьях зависимостей – как модели управления .

Модели семантики языка наименее проработаны в рамках КЛ. Для семантического анализа предложений были предложены так называемые падежные грамматики и семантические падежи (валентности), на базе которых семантика предложения описывается как через связи главного слова (глагола) с его семантическими актантами, т. е. через семантические падежи . Например, глагол передать описывается семантическими падежами дающего (агенса), адресата и объекта передачи .

Для представления семантики всего текста обычно используются два логически эквивалентных формализма (оба они детально описаны в рамках ИИ ):

· Формулы исчисления предикатов, выражающих свойства, состояния, процессы, действия и отношения;

· Семантические сети – размеченные графы, в которых вершины соответствуют понятиям, а вершины – отношениям между ними.

Что касается моделей прагматики и дискурса, позволяющих обрабатывать не только отдельные предложения, но и текст в целом, то в основном для их построения используются идеи Ван Дейка . Одна из редких и удачных моделей – модель дискурсивного синтеза связных текстов . В подобных моделях должны учитываться анафорические ссылки и другие явления уровня дискурса.

Завершая характеристику моделей языка в рамках КЛ, остановимся чуть подробнее на теории лингвистических моделей «СмыслÛТекст» , и в рамках которой появилось много плодотворных идей, опередивших свое время и актуальных до сих пор.

В соответствии с этой теорией ЕЯ рассматривается как особого рода преобразователь, выполняющий переработку заданных смыслов в соответствующие им тексты и заданных текстов в соответствующие им смыслы. Под смыслом понимается инвариант всех синонимичных преобразований текста. Содержание связного фрагмента речи без расчленения на фразы и словоформы отображается в виде специального семантического представления, состоящего из двух компонент: семантического графа и сведений о коммуникативной организации смысла .

Как отличительные особенности теории следует указать:

o ориентацию на синтез текстов (способность порождать правильные тексты рассматривается как основной критерий языковой компетенции);

o многоуровневый, модульный характер модели, причем основные уровни языка разделяются на поверхностный и глубинный уровень: различаются, к примеру, глубинный (семантизированный) и поверхностный («чистый») синтаксис, а также поверхностно-морфологический и глубинно-морфологический уровни;

o интегральный характер модели языка; сохранение информации, представленной на каждом уровне, соответствующим модулем, выполняющими переход с этого уровня на следующий;

o специальные средства описания синтактики (правил соединения единиц) на каждом из уровней; для описания лексической сочетаемости был предложен набор лексических функций , при помощи которых сформулированы правила синтаксического перифразирования;

o упор на словарь, а не на грамматику; в словаре хранится информация, относящаяся к разным уровням языка; в частности, для синтаксического анализа используются модели управления слов, описывающие их синтаксические и семантические валентности.

Эта теория и модель языка нашли свое воплощение в системе машинного перевода ЭТАП .

4. Лингвистические ресурсы

Разработка лингвистических процессоров требует соответствующего представления лингвистической информации об обрабатываемом ЕЯ. Эта информация отображается в разнообразных компьютерных словарях и грамматиках.

Словари являются наиболее традиционной формой представления лексической информации; они различаются своими единицами (обычно слова или словосочетания), структурой, охватом лексики (словари терминов конкретной проблемной области, словари общей лексики и т. п.). Единица словаря называется словарной статьей , в ней представляется информация о лексеме. Лексические омонимы обычно представляются в разных словарных статьях.

Наиболее распространены в КЛ морфологические словари, используемые для морфологического анализа, в их словарной статье представлена морфологическая информация о соответствующем слове – часть речи , словоизменительный класс (для флективных языков), перечень значений слова и т. п. В зависимости от организации лингвистического процессора в словарь может быть добавлена и грамматическая информация, например, модели управления слова.

Существуют словари, в которых представлена и более широкая информация о словах. Например, лингвистическая модель «СмыслÛТекст» существенно опирается на толково-комбинаторный словарь , в словарной статье которого помимо морфологической, синтаксической и семантической информации (синтаксические и семантические валентности) представлены сведения о лексической сочетаемости этого слова.

В ряде лингвистических процессоров используются словари синонимов . Сравнительно новый вид словарей – словари паронимов , т. е. внешне схожих слов, различающихся по смыслу, например, чужой и чуждый , правка и справка .

Еще один вид лексических ресурсов – базы словосочетаний , в которые отбираются наиболее типичные словосочетания конкретного языка. Такая база словосочетаний русского языка (около миллиона единиц) составляет ядро системы КроссЛексика .

Более сложными видами лексических ресурсов являются тезаурусы и онтологии . Тезаурус – это семантический словарь, т. е. словарь, в котором представлены смысловые связи слов – синонимические, отношения род-вид (иногда называемые отношением выше-ниже), часть-целое, ассоциации. Распространение тезаурусов связано с решением задач информационного поиска .

С понятием тезауруса тесно связано понятие онтологии . Онтология – набор понятий, сущностей определенной области знаний, ориентированный на многократное использование для различных задач. Онтологии могут создаваться на базе существующей в языке лексики – в этом случае они называются лингвистическим и.

Подобной лингвистической онтологией считается система WordNet – большой лексический ресурс, в котором собраны слова английского языка : существительные, прилагательные, глаголы и наречия, и представлены их смысловые связи нескольких типов. Для каждой из указанных частей речи слова сгруппированы в группы синонимов (синсеты ), между которыми установлены отношения антонимии , гипонимии (отношение род-вид), меронимии (отношение часть-целое). Ресурс содержит примерно 25 тыс. слов, число уровней иерархии для отношения род-вид в среднем равно 6-7, достигая порою 15. Верхний уровень иерархии формирует общую онтологию – систему основных понятий о мире.

По схеме английского WordNet были построены аналогичные лексические ресурсы для других европейских языков, объединенные под общим названием EuroWordNet.

Совершенно другой вид лингвистических ресурсов – это грамматики ЕЯ , тип которых зависит от используемой в процессоре модели синтаксиса. В первом приближении грамматика представляет собой набор правил, выражающих общие синтаксические свойства слов и групп слов. Общее число правил грамматики также зависит от модели синтаксиса, изменяясь от нескольких десятков до нескольких сотен. По существу, здесь проявляется такая проблема, как соотношение в модели языка грамматики и лексики: чем больше информации представлено в словаре, тем короче может быть грамматика и наоборот.

Отметим, что построение компьютерных словарей, тезаурусов и грамматик – объемная и трудоемкая работа, иногда даже более трудоемкая, чем разработка лингвистической модели и соответствующего процессора. Поэтому одной из подчиненных задач КЛ является автоматизация построения лингвистических ресурсов .

Компьютерные словари часто формируются конвертацией обычных текстовых словарей, однако нередко для их построения требуется гораздо более сложная и кропотливая работа. Обычно это бывает при построении словарей и тезаурусов для быстро развивающися научных областей – молекулярной биологии , информатики и др. Исходным материалом для извлечения необходимой лингвистической информации могут быть коллекции и корпуса текстов .

Корпус текстов – это коллекция текстов, собранная по определенному принципу представительности (по жанру, авторской принадлежности и т. п.), в которой все тексты размечены, т. е. снабжены некоторой лингвистической разметкой (аннотациями) – морфологической, акцентной, синтаксической и т. п. .В настоящее время существует не менее сотни различных корпусов – для разных ЕЯ и с различной разметкой, в России наиболее известным является Национальный корпус русского языка .

Размеченные корпуса создаются лингвистами и используются как для лингвистических исследований, так и для настройки (обучения) используемых в КЛ моделей и процессоров с помощью известных математических методов машинного обучения. Так, машинное обучение применяется для настройки методов разрешения лексической неоднозначности, распознавания части речи, разрешения анафорических ссылок.

Поскольку корпуса и коллекции текстов всегда ограничены по представленным в них языковым явлениям (а корпуса, ко всему прочему, создаются довольно долго), в последнее время все чаще в качестве более полного лингвистического ресурса рассматриваются тексты сети Интернет . Безусловно, Интернет является самым представительным источником образцов современной речи, однако его использование как корпуса требует разработки специальных технологий.

5. Приложения компьютерной лингвистики

Область приложений компьютерной лингвистики постоянно расширяется, так что охарактеризуем здесь наиболее известные прикладные задачи, решаемые ее инструментами.

Машинный перевод – самое раннее приложение КЛ, вместе с которым возникла и развивалась сама эта область. Первые программы перевода были построены более 50 лет назад и были основаны на простейшей стратегии пословного перевода. Однако довольно быстро было осознано, что машинный перевод требует полной лингвистической модели, учитывающей все уровни языка, вплоть до семантики и прагматики, что неоднократно тормозило развитие этого направления. Достаточно полная модель использована в отечественной системе ЭТАП , выполняющей перевод научных текстов с французского на русский язык.

Заметим, однако, что в случае перевода на родственный язык, например, при переводе с испанского на португальский или же с русского на украинский (у которых много общего в синтаксисе и морфологии), процессор может быть реализован на основе упрощенной модели, например, на основе все той же стратегией пословного перевода.

В настоящее время существует целый спектр компьютерных систем перевода (разного качества), от больших интернациональных исследовательских проектов до коммерческих автоматических переводчиков. Существенный интерес представляют проекты многоязыкового перевода, с использованием промежуточного языка, на котором кодируется смысл переводимых фраз. Другое современное направление – статистическая трансляция , опирающаяся на статистику перевода слов и словосочетаний (эти идеи, к примеру, реализованы в переводчике поисковика Google).

Но несмотря на многие десятилетия развития всего этого направления, в целом задача машинного перевода еще весьма далека до полного решения.

Еще одно довольно старое приложение компьютерной лингвистики – это информационный поиск и связанные с ним задачи индексирования, реферирования, классификации и рубрикации документов .

Полнотекстовый поиск документов в больших базах документов (в первую очередь – научно-технических, деловых), проводится обычно на основе их поисковых образов , под которыми понимается набор ключевых слов – слов, отражающих основную тему документа. Сначала в качестве ключевых слов рассматривались только отдельные слова ЕЯ, а поиск производился без учета их словоизменения , что некритично для слабофлективных языков типа английском. Для флективных языков, например, для русского потребовалось использование морфологической модели, учитывающей словоизменение.

Запрос на поиск также представлялся в виде набора слов, подходящие (релевантные) документы определялись на основе похожести запроса и поискового образа документа. Создание поискового образа документа предполагает индексирование его текста, т. е. выделение в нем ключевых слов . Поскольку очень часто гораздо точнее тему и содержание документа отображают не отдельные слова, а словосочетания, в качестве ключевых слов стали рассматриваться словосочетания. Это существенно усложнило процедуру индексирования документов, поскольку для отбора значимых словосочетаний текста потребовалось использовать различные комбинации статистических и лингвистических критериев.

По сути, в информационном поиске в основном используется векторная модель текста (называемая иногда bag of words – мешок слов), при которой документ представляется вектором (набором) своих ключевых слов. Современные интернет-поисковики также используют эту модель, выполняя индексирование текстов по употребляемым в них словам (в то же время для выдачи релевантных документов они используют весьма изощренные процедуры ранжирования).

Указанная модель текста (с некоторыми усложнениями) применяется и в рассматриваемых ниже смежных задачах информационного поиска.

Реферирование текста – сокращение его объема и получение его краткого изложения – реферата (свернутого содержания), что делает более быстрым поиск в коллекциях документов. Общий реферат может составляться также для нескольких близких по теме документов.

Основным методом автоматического реферирования до сих пор является отбор наиболее значимых предложений реферируемого текста, для чего обычно сначала вычисляются ключевые слова текста и рассчитывается коэффициент значимости предложений текста. Выбор значимых предложений осложняется анафорическими связями предложений, разрыв которых нежелателен – для решения этой проблемы разрабатываются определенные стратегии отбора предложений.

Близкая к реферированию задача – аннотирование текста документа, т. е. составление его аннотации. В простейшей форме аннотация представляет собой перечень основных тем текста, для выделения которых могут использоваться процедуры индексирования.

При создании больших коллекций документов актуальны задачи классификации и кластеризации текстов с целью создания классов близких по теме документов . Классификация означает отнесение каждого документа к определенному классу с заранее известными параметрами, а кластеризация – разбиение множества документов на кластеры, т. е. подмножества тематически близких документов. Для решения этих задач применяются методы машинного обучения, в связи с чем эти прикладные задачи называют Text Mining и относят к научному направлению, известному как Data Mining, или интеллектуальный анализ данных .

Очень близка к классификации задача рубрицирования текста – его отнесение к одной из заранее известных тематических рубрик (обычно рубрики образуют иерархическое дерево тематик).

Задача классификации получает все большее распространение, она решается, например, при распознавании спама, а сравнительно новое приложение – классификация SMS-сообщений в мобильных устройствах. Новое и актуальное направление исследований для общей задачи информационного поиска – многоязыковой поиск по документам.

Еще одна относительно новая задача, связанная с информационным поиском – формирование ответов на вопросы (Question Answering) . Эта задача решается путем определения типа вопроса, поиском текстов, потенциально содержащих ответ на этот вопрос, и извлечением ответа из этих текстов.

Совершенно иное прикладное направление, которое развивается хотя и медленно, но устойчиво – это автоматизация подготовки и редактирования текстов на ЕЯ. Одним из первых приложений в этом направлении были программы автоматической определения переносов слов и программы орфографической проверки текста (спеллеры, или автокорректоры). Несмотря на кажущуюся простоту задачи переносов, ее корректное решение для многих ЕЯ (например, английского) требует знания морфемной структуры слов соответствующего языка, а значит, соответствующего словаря.

Проверка орфографии уже давно реализована в коммерческих системах и опирается на соответствующий словарь и модель морфологии. Используется также неполная модель синтаксиса, на основе которой выявляются достаточно частотные все синтаксические ошибки (например, ошибки согласования слов). В то же время в автокорректорах не реализовано пока выявление более сложных ошибок, к примеру, неправильное употребление предлогов. Не обнаруживаются и многие лексические ошибки, в частности, ошибки, возникающие в результате опечаток или неверного использования схожих слов (например, весовой вместо весомый). В современных исследованиях КЛ предлагаются методы автоматизированного выявления и исправления подобных ошибок, а также некоторых других видов стилистических ошибок . В этих методах используется статистика встречаемости слов и словосочетаний.

Близкой к поддержке подготовки текстов прикладной задачей является обучение естественному языку , в рамках этого направления часто разрабатываются компьютерные системы обучения языку – английскому, русскому и др. (подобные системы можно найти в Интернете). Обычно эти системы поддерживают изучение отдельных аспектов языка (морфологии, лексики, синтаксиса) и опираются на соответствующие модели, например, модель морфологии.

Что касается изучения лексики, то для этого также используются электронные аналоги текстовых словарей (в которых по сути нет языковых моделей). Однако разрабатываются также многофукциональные компьютерные словари, не имеющие текстовых аналогов и ориентированные на широкий круг пользователей – например, словарь русских словосочетаний Кросслексика . Эта система охватывает широкий круг лексики – слов и допустимых их словосочетаний, а также предоставляет справки по моделям управления слов, синонимам, антонимам и другим смысловым коррелятам слов, что явно полезно не только для тех, кто изучает русский язык, но и носителям языка.

Следующее прикладное направление, которое стоит упомянуть – это автоматическая генерация текстов на ЕЯ . В принципе, эту задачу можно считать подзадачей уже рассмотренной выше задачи машинного перевода, однако в рамках направления есть ряд специфических задач. Такой задачей является многоязыковая генерация, т. е. автоматическое построение на нескольких языках специальных документов – патентных формул, инструкций по эксплуатации технических изделий или программных систем, исходя из их спецификации на формальном языке. Для решения этой задачи применяются довольно подробные модели языка.

Все более актуальная прикладная задача, часто относимая к направлению Text Mining – это извлечение информации из текстов, или Information Extraction , что требуется при решении задач экономической и производственной аналитики. Для этого осуществляется выделение в тесте ЕЯ определенных объектов – именованных сущностей (имен, персоналий, географических названий), их отношений и связанных с ними событий. Как правило, это реализуется на основе частичного синтаксического анализа текста, позволяющего выполнять обработку потоков новостей от информационных агентств. Поскольку задача достаточно сложна не только теоретически, но и технологически, создание значимых систем извлечения информации из текстов осуществимо в рамках коммерческих компаний .

К направлению Text Mining относятся и две другие близкие задачи – выделение мнений (Opinion Mining) и оценка тональности текстов (Sentiment Analysis), привлекающие внимание все большего числа исследователей. В первой задаче происходит поиск (в блогах, форумах, интернет-магазинах и пр.) мнений пользователей о товарах и других объектах, а также производится анализ этих мнений. Вторая задача близка к классической задаче контент-анализа текстов массовой коммуникации, в ней оценивается общая тональность высказываний.

Еще одно приложение, которое стоит упомянуть – поддержка диалога с пользователем на ЕЯ в рамках какой-либо информационной программной системы. Наиболее часто эта задача решалась для специализированных баз данных – в этом случае язык запросов достаточно ограничен (лексически и грамматически), что позволяет использовать упрощенные модели языка. Запросы к базе, сформулированные на ЕЯ, переводятся на формальный язык, после чего выполняется поиск нужной информации и строится соответствующая фраза ответа.

В качестве последнего в нашем перечне приложений КЛ (но не по важности) укажем распознавание и синтез звучащей речи . Неизбежно возникающие в этих задачах ошибки распознавания исправляются автоматическими методами на основе словарей и лингвистических знаний о морфологии. В этой области также применятся машинное обучение.

Заключение

Компьютерная лингвистика демонстрирует вполне осязаемые результаты в различных приложениях по автоматической обработке текстов на ЕЯ. Дальнейшее ее развитие зависит как от появления новых приложений, так и независимой разработки различных моделей языка, в которых пока не решены многие проблемы. Наиболее проработанными являются модели морфологического анализа и синтеза. Модели синтаксиса еще не доведены до уровня устойчиво и эффективно работающих модулей, несмотря на большое число предложенных формализмов и методов. Еще менее изучены и формализованы модели уровня семантики и прагматики, хотя автоматическая обработка дискурса уже требуется в ряде приложений. Отметим, что уже существующие инструменты самой компьютерной лингвистики, использование машинного обучения и корпусов текстов, может существенно продвинуть решение этих проблем.

Литература

1. Baeza-Yates, R. and Ribeiro-Neto, B. Modern Information Retrieval, Adison Wesley, 1999.

2. Bateman, J., Zock M. Natural Language Generation. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р.304.

3. Biber, D., Conrad S., and Reppen D. Corpus Linguistics. Investigating Language Structure and Use. Cambridge University Press, Cambridge, 1998.

4. Bolshakov, I. A., Gelbukh putational Linguistics. Models, Resources, Applications. Mexico, IPN, 2004.

5. Brown P., Pietra S., Mercer R., Pietra V. The Mathematics of Statistical Machine Translation. // Computational Linguistics, Vol. 19(2): 263-3

6. Carroll J R. Parsing. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 233-248.

7. Chomsky, N. Syntactic Structures. The Hague: Mouton, 1957.

8. Grishman R. Information extraction. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 545-559.

9. Harabagiu, S., Moldovan D. Question Answering. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 560-582.

10. Hearst, M. A. Automated Discovery of WordNet Relations. In: Fellbaum, C. (ed.) WordNet: An Electronic Lexical Database. MIT Press, Cambridge, 1998, p.131-151.

11. Hirst, G. Ontology and the Lexicon. In.: Handbook on Ontologies in Niformation Systems. Berlin, Springer, 2003.

12. Jacquemin C., Bourigault D. Term extraction and automatic indexing // Mitkov R. (ed.): Handbook of Computational Linguistics. Oxford University Press, 2003. р. 599-615.

13. Kilgarriff, A., G. Grefenstette. Introduction to the Special Issue on the Web as putational linguistics, V. 29, No. 3, 2003, p. 333-347.

14. Manning, Ch. D., H. Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.

15. Matsumoto Y. Lexical Knowledge Acquisition. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 395-413.

16. The Oxford Handbook on Computational Linguistics. R. Mitkov (Ed.). Oxford University Press, 2005.

17. Oakes, M., Paice C. D. Term extraction for automatic abstracting. Recent Advances in Computational Terminology. D. Bourigault, C. Jacquemin and M. L"Homme (Eds), John Benjamins Publishing Company, Amsterdam, 2001, p.353-370.

18. Pedersen, T. A decision tree of bigrams is an accurate predictor of word senses. Proc. 2nd Annual Meeting of NAC ACL, Pittsburgh, PA, 2001, p. 79-86.

19. Samuelsson C. Statistical Methods. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 358-375.

20. Salton, G. Automatic Text Processing: the Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-Wesley, 1988.

21. Somers, H. Machine Translation: Latest Developments. In: The Oxford Handbook of Computational Linguistics. Mitkov R. (ed.). Oxford University Press, 2003, р. 512-528.

22. Strzalkowski, T. (ed.) Natural Language Information Retrieval. Kluwer,19p.

23. Woods W. A. Transition Network Grammers forNatural language Analysis/ Communications of the ACM, V. 13, 1970, N 10, p. 591-606.

24. Word Net: an Electronic Lexical Database. / Christiane Fellbaum. Cambridge, MIT Press, 1998.

25. Wu J., Yu-Chia Chang Y., Teruko Mitamura T., Chang J. Automatic Collocation Suggestion in Academic Writing // Proceedings of the ACL 2010 Conference Short Papers, 2010.

26. и др. Лингвистическое обеспечение системы ЭТАП-2. М.: Наука, 1989.

27. и др. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP – 2-e изд. – СПб.: БХВ-Петербург, 2008.

28. Большаков, Лексика – большой электронный словарь сочетаний и смысловых связей русских слов. // Комп. лингвистика и интеллект. технологии: Труды межд. Конф. «Диалог 2009». ВыпМ.: РГГУ, 2009, с.. 45-50.

29. Большакова Е. И., Большаков обнаружение и автоматизированное исправление русских малапропизмов // НТИ. Сер. 2, № 5, 2007, с.27-40.

30. Ван, Кинч В. Стратегия понимания связного текста.// Новое в зарубежной лингвистике. Вып. XXIII– М., Прогресс, 1988, с. 153-211.

31. Васильев В. Г., Кривенко М. П. Методы автоматизированной обработки текстов. – М.: ИПИ РАН, 2008.

32. Виноград Т. Программа, понимающая естественный язык – М., мир, 1976.

33. Гладкий структуры естественного языка в автоматизированных системах общения. – М., Наука, 1985.

34. Гусев, В. Д., Саломатина словарь паронимов: версия 2. // НТИ, Сер. 2, № 7, 2001, с. 26-33.

35. Захаров -пространство как языковой корпус// Компьютерная лингвистика и интеллектуальные технологии: Труды Межд. конференции Диалог ‘2005 / Под ред. , – М.: Наука, 2005, с. 166-171.

36. Касевич общей лингвистики. - М., Наука, 1977.

37. Леонтьева понимание текстов: Системы, модели, ресурсы: Учебное пособие – М.: Академия, 2006.

38. Лингвистический энциклопедический словарь /Под ред. В. Н. Ярцевой, М.: Советская энциклопедия, 1990, 685 с.

39. , Салий для автоматического индексирования и рубрицирования: разработка, структура, ведение. // НТИ, Сер. 2, №1, 1996.

40. Люгер Дж. Искусственный интеллект: стратегии и методы решения сложных проблем. М., 2005.

41. Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке // Новое в зарубежной лингвистике. Вып. XXIV. М.: Прогресс, 1989, с.311-356.

42. Мельчук теории лингвистических моделей «СМЫСЛ « ТЕКСТ». - М., Наука, 1974.

43. Национальный Корпус Русского Языка. http://*****

44. Хорошевский В. Ф. OntosMiner: семейство систем извлечения информации из мультиязычных коллекций документов // Девятая Национальная конференция по искусственному интеллекту с международным участием КИИ-2004. Т. 2. – М.: Физматлит, 2004, с.573-581.

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА (калька с английского computational linguistics), одно из направлений прикладной лингвистики, в котором для исследования языка и моделирования функционирования языка в тех или иных условиях, ситуациях и проблемных сферах разрабатываются и используются компьютерные программы, компьютерные технологии организации и обработки данных. С другой стороны, это область применения компьютерных моделей языка в лингвистике и смежных с ней дисциплинах. Как особое научное направление компьютерная лингвистика оформилась в европейских исследованиях в 1960-х годах. Поскольку английское прилагательное computational может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативная лингвистика».

Часто к компьютерной лингвистике относят термин «квантитативная лингвистика», который характеризует междисциплинарное направление в прикладных исследованиях, где в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике. В последней доминирующую роль занимает «неколичественный» математический аппарат - теория множеств, математическая логика, теория алгоритмов и т. д. С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, т. е. создать теоретическую структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. В прикладной области квантитативная лингвистика представлена, прежде всего, использованием фрагментов этой модели, используемых для лингвистического мониторинга функционирования языка, дешифровки кодированного текста, авторизации/атрибуции текста и т. п.

Термин «компьютерная лингвистика» и проблематика этого направления часто связываются с моделированием общения, и прежде всего - с обеспечением взаимодействия человека с ЭВМ на естественном или ограниченном естественном языке (для этого создаются специальные системы обработки естественного языка), а также с теорией и практикой информационно-поисковых систем (ИПС). Обеспечение общения человека с ЭВМ на естественном языке иногда обозначается термином «обработка естественного языка» (перевод с английского языка термина Natural Language Processing). Это направление компьютерной лингвистики возникло в конце 1960-х годов за рубежом и развивалось в рамках научно-технологической дисциплины, именуемой искусственным интеллектом (работы Р. Шенка, М. Лебовица, Т. Винограда и др.). По своему смыслу словосочетание «обработка естественного языка» должно охватывать все области, в которых компьютеры используются для обработки языковых данных. На практике, однако, закрепилось более узкое понимание термина - разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

К компьютерной лингвистике в определённой степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания (смотри Гутенберг).

К компетенции компьютерной лингвистики относится и автоматический перевод.

В рамках компьютерной лингвистики возникло и сравнительно новое, активно развивающееся с 1980-90-х годов направление - корпусная лингвистика, где разрабатываются общие принципы построения лингвистических корпусов данных (в частности, корпусов текстов) с использованием современных компьютерных технологий. Корпуса текстов - это коллекции специально подобранных текстов книг, журналов, газет и т.д., перенесённые на машинные носители и предназначенные для автоматической обработки. Один из первых корпусов текстов был создан для американского варианта английского языка в Брауновском университете (так называемый Брауновский корпус) в 1962-63 под руководством У. Френсиса. В России с начала 2000-х годов в Институте русского языка имени В. В. Виноградова РАН разрабатывается Национальный корпус русского языка, состоящий из представительной выборки русскоязычных текстов объёмом порядка 100 миллионов словоупотреблений. Кроме собственно конструирования корпусов данных, корпусная лингвистика занимается созданием компьютерных инструментов (компьютерных программ), предназначенных для извлечения разнообразной информации из текстовых корпусов. С точки зрения пользователя, к корпусам текстов предъявляются требования представительности (репрезентативности), полноты и экономичности.

Компьютерная лингвистика активно развивается и в России, и за рубежом. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США с 1984 ежеквартально выходит журнал «Computational Linguistics» («Компьютерная лингвистика»). Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике (The Association for Computational Linguistics), которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции КОЛИНТ (в 2008 конференция проходила в Манчестере). Основные направления компьютерной лингвистики обсуждаются также на ежегодной международной конференции «Диалог», организуемой Российским НИИ искусственного интеллекта, филологическим факультетом МГУ, Яндексом и рядом других организаций. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Лит.: Звегинцев В. А. Теоретическая и прикладная лингвистика. М., 1968; Пиотровский Р. Г., Бектаев К. Б., Пиотровская А. А. Математическая лингвистика. М., 1977; Городецкий Б. Ю. Актуальные проблемы прикладной лингвистики // Новое в зарубежной лингвистике. М., 1983. Вып. 12; Кибрик А. Е. Прикладная лингвистика // Кибрик А. Е. Очерки по общим и прикладным вопросам языкознания. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Национальный корпус русского языка: 2003-2005. М., 2005; Баранов А. Н. Введение в прикладную лингвистику. 3-е изд. М., 2007; Компьютерная лингвистика и интеллектуальные технологии. М., 2008. Вып. 7.

Под термином "компьютерная лингвистика" (computational linguistics) обычно понимается широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных - для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях, а также сфера применения компьютерных моделей языка не только в лингвистике, но и в смежных с ней дисциплинах. Собственно, только в последнем случае речь идет о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения теории программирования (computer science) в области лингвистики. Тем не менее общая практика такова, что сфера компьютерной лингвистики охватывает практически все, что связано с использованием компьютеров в языкознании: "Термин "компьютерная лингвистика" задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, связанных с языком, никак не ограничивая способы решения этих задач".

Институциональный аспект компьютерной лингвистики . Как особое научное направление компьютерная лингвистика оформилась в 60-е гг. Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал "Компьютерная лингвистика". Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры по всему миру (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике - КОЛИНГ. Соответствующая проблематика широко представлена также на международных конференциях по искусственному интеллекту разных уровней.

Когнитивный инструментарий компьютерной лингвистики

Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту - то есть по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые разные средства программирования, то об общем метаязыке говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В основе этого языка лежит теория знаний, разработанная в искусственном интеллекте и образующая важный раздел когнитивной науки.

Основной тезис теории знаний гласит, что мышление - это процесс обработки и порождения знаний. "Знания" или "знание" считается неопределяемой категорией. В качестве "процессора", обрабатывающего знания, выступает когнитивная система человека. В эпистемологии и когнитивной науке различают два основных вида знаний - декларативные ("знание что") и процедурные ("знание как"2)). Декларативные знания представляются обычно в виде совокупности пропозиций, утверждений о чем-либо. Типичным примером декларативных знаний можно считать толкования слов в обычных толковых словарях. Например, чашка] - "небольшой сосуд для питья округлой формы, обычно с ручкой, из фарфора, фаянса и т.п. " . Декларативные знания поддаются процедуре верификации в терминах "истина-ложь". Процедурные знания представляются как последовательность (список) операций, действий, которые следует выполнить. Это некоторая общая инструкция о действиях в некоторой ситуации. Характерный пример процедурных знаний - инструкции по пользованию бытовыми приборами.

В отличие от декларативных знаний, процедурные знания невозможно верифицировать как истинные или ложные. Их можно оценивать только по успешности-неуспешности алгоритма.

Большинство понятий когнитивного инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей на некоторых метаязыках. Иными словами, элементы метаязыка имеют онтологический и инструментальный аспект. Онтологически разделение декларативных и процедурных знаний соответствует различным типам знаний когнитивной системы человека. Так, знания о конкретных предметах, объектах действительности преимущественно декларативны, а функциональные способности человека к хождению, бегу, вождению машины реализуются в когнитивной системе как процедурные знания. Инструментально знание (как онтологически процедурное, так и декларативное) можно представить как совокупность дескрипций, описаний и как алгоритм, инструкцию. Иными словами, онтологически декларативное знание об объекте действительности "стол" можно представить процедурно как совокупность инструкций, алгоритмов по его созданию, сборке (= креативный аспект процедурного знания) или как алгоритм его типичного использования (= функциональный аспект процедурного знания). В первом случае это может быть руководство для начинающего столяра, а во втором - описание возможностей офисного стола. Верно и обратное: онтологически процедурное знание можно представить декларативно.

Требует отдельного обсуждения, всякое ли онтологически декларативное знание представимо как процедурное, а всякое онтологически процедурное - как декларативное. Исследователи сходятся в том, что всякое декларативное знание в принципе можно представить процедурно, хотя это может оказаться для когнитивной системы очень неэкономным. Обратное вряд ли справедливо. Дело в том, что декларативное знание существенно более эксплицитно, оно легче осознается человеком, чем процедурное. В противоположность декларативному знанию, процедурное знание преимущественно имплицитно. Так, языковая способность, будучи процедурным знанием, скрыта от человека, не осознается им. Попытка эксплицировать механизмы функционирования языка приводит к дисфункции. Специалистам в области лексической семантики известно, например, что длительная семантическая интроспекция, необходимая для изучения плана содержания слова, приводит к тому, что исследователь частично теряет способность к различению правильных и неправильных употреблений анализируемого слова. Можно привести и другие примеры. Известно, что с точки зрения механики тело человека является сложнейшей системой двух взаимодействующих маятников.

В теории знаний для изучения и представления знания используются различные структуры знаний - фреймы, сценарии, планы. Согласно М. Минскому, "фрейм - это структура данных, предназначенная для представления стереотипной ситуации" [Минский 1978, с.254]. Более развернуто можно сказать, что фрейм является концептуальной структурой для декларативного представления знаний о типизированной тематически единой ситуации, содержащей слоты, связанные между собой определенными семантическими отношениями. В целях наглядности фрейм часто представляют в виде таблицы, строки которой образуют слоты. Каждый слот имеет свое имя и содержание (см. табл.1).

Таблица 1

Фрагмент фрейма "стол" в табличном представлении

В зависимости от конкретной задачи структуризация фрейма может быть существенно более сложной; фрейм может включать вложенные подфреймы и отсылки к другим фреймам.

Вместо таблицы часто используется предикатная форма представления. В этом случае фрейм имеет форму предиката или функции с аргументами. Существуют и другие способы представления фрейма. Например, он может представляться в виде кортежа следующего вида: { (имя фрейма) (имя слота)) (значение слота,),..., (имя слота п) (значение слота л) }.

Обычно такой вид имеют фреймы в языках представлениях знаний.

Как и другие когнитивные категории компьютерной лингвистики, понятие фрейма омонимично. Онтологически - это часть когнитивной системы человека, и в этом смысле фрейм можно сопоставить с такими понятиями как гештальт, прототип, стереотип, схема. В когнитивной психологии эти категории рассматриваются именно с онтологической точки зрения. Так, Д. Норман различает два основных способа бытования и организации знаний в когнитивной системе человека - семантические сети и схемы. "Схемы, - пишет он, - представляют собой организованные пакеты знания, собранные для репрезентации отдельных самостоятельных единиц знания. Моя схема для Сэма может содержать информацию, описывающую его физические особенности, его активность и индивидуальные черты. Эта схема соотносится с другими схемами, которые описывают иные его стороны" [Норман 1998, с.359]. Если же брать инструментальную сторону категории фрейма, то это структура для декларативного представления знаний. В имеющихся системах ИИ фреймы могут образовывать сложные структуры знаний; системы фреймов допускают иерархию - один фрейм может быть частью другого фрейма.

По содержанию понятие фрейма очень близко категории толкования. Действительно, слот - аналог валентности, заполнение слота - аналог актанта. Основное отличие между ними заключается в том, что толкование содержит только лингвистически релевантную информацию о плане содержания слова, а фрейм, во-первых, не обязательно привязан к слову, и, во-вторых, включает всю релевантную для данной проблемной ситуации информацию, в том числе и экстралингвистическую (знания о мире) 3).

Сценарий представляет собой концептуальную структуру для процедурного представления знаний о стереотипной ситуации или стереотипном поведении. Элементами сценария являются шаги алгоритма или инструкции. Обычно говорят о "сценарии посещения ресторана", "сценарии покупки" и т.п.

Изначально фрейм также использовался для процедурного представления (ср. термин "процедурный фрейм"), однако сейчас в этом смысле чаще употребляется термин "сценарий". Сценарий можно представить не только в виде алгоритма, но и в виде сети, вершинам которой соответствуют некоторые ситуации, а дугам - связи между ситуациями. Наряду с понятием сценария, некоторые исследователи привлекают для компьютерного моделирования интеллекта категорию скрипта. По Р. Шенку, скрипт - это некоторая общепринятая, общеизвестная последовательность причинных связей . Например, понимание диалога

На улице льет как из ведра.

Все равно придется выходить в магазин: в доме есть нечего - вчера гости все подмели.

основывается на неэксплицированных семантических связях типа "если идет дождь, на улицу выходить нежелательно, поскольку можно заболеть". Эти связи формируют скрипт, который и используется носителями языка для понимания речевого и неречевого поведения друг друга.

В результате применения сценария к конкретной проблемной ситуации формируется план ). План используется для процедурного представления знаний о возможных действиях, ведущих к достижению определенной цели. План соотносит цель с последовательностью действий.

В общем случае план включает последовательность процедур, переводящих начальное состояние системы в конечное и ведущих к достижению определенной подцели и цели. В системах ИИ план возникает в результате планирования или планирующей деятельности соответствующего модуля - модуля планирования. В основе процесса планирования может лежать адаптация данных одного или нескольких сценариев, активизированных тестирующими процедурами, для разрешения проблемной ситуации. Выполнение плана производится экзекутивным модулем, управляющим когнитивными процедурами и физическими действиями системы. В элементарном случае план в интеллектуальной системе представляет собой простую последовательность операций; в более сложных версиях план связывается с конкретным субъектом, его ресурсами, возможностями, целями, с подробной информацией о проблемной ситуации и т.д. Возникновение плана происходит в процессе коммуникации между моделью мира, часть которой образуют сценарии, планирующим модулем и экзекутивным модулем.

В отличие от сценария, план связан с конкретной ситуацией, конкретным исполнителем и преследует достижение определенной цели. Выбор плана регулируется ресурсами исполнителя. Выполнимость плана - обязательное условие его порождения в когнитивной системе, а к сценарию характеристика выполнимости неприложима.

Еще одно важное понятие - модель мира. Под моделью мира обычно понимается совокупность определенным образом организованных знаний о мире, свойственных когнитивной системе или ее компьютерной модели. В несколько более общем виде о модели мира говорят как о части когнитивной системы, хранящей знания об устройстве мира, его закономерностях и пр. В другом понимании модель мира связывается с результатами понимания текста или - более широко - дискурса. В процессе понимания дискурса строится его ментальная модель, которая является результатом взаимодействия плана содержания текста и знаний о мире, свойственных данному субъекту [Джонсон-Лэрд 1988, с.237 и далее]. Первое и второе понимание часто объединяются. Это типично для исследователей-лингвистов, работающих в рамках когнитивной лингвистики и когнитивной науки.

Тесно связано с категорией фрейма понятие сцены. Категория сцены преимущественно используется в литературе как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр) ситуаций и их частей5). Будучи связана с языковыми формами, сцена часто актуализуется определенным словом или выражением. В грамматиках сюжетов (см. ниже) сцена предстает как часть эпизода или повествования. Характерные примеры сцен - совокупность кубиков, с которыми работает система ИИ, место действия в рассказе и участники действия и т.д. В искусственном интеллекте сцены используются в системах распознавания образов, а также в программах, ориентированных на исследование (анализ, описание) проблемных ситуаций. Понятие сцены получило широкое распространение в теоретической лингвистике, а также логике, в частности в ситуационной семантике, в которой значение лексической единицы непосредственно связывается со сценой.

План:

1. Что такое компьютерная лингвистика?

2. Объект и предмет компьютерной лингвистики

4. Задачи компьютерной лингвистики

5. Методы исследования компьютерной лингвистики

6. История и причины возникновения компьютерной лингвистики

7. Основные термины компьютерной лингвистики

8. Ученые занимавшиеся проблемой компьютерной лингвистики

9. Ассоциации и конференции по компьютерной лингвистике

10. Использованная литература.


Компьютерная лингвистика – самостоятельное направление в прикладной лингвистике, ориентированное на использование компьютеров для решения задач, связанных с использованием естественного языка. (Щилихина К.М.)


Компьютерная лингвистика – будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирование языка и мышления в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области: 1) оптимизации коммуникации на основе лингвистических знаний 2)создание естественно-языкового интерфейса и типологий понимания языка для общения человека с машиной 3) создание и моделирование информационных компьютерных систем (Соснина Е.П.)


Объект компьютерной лингвистики – анализ языка в его естественном состоянии в процессе использования людьми в различных ситуациях общения, а , как особенности языка могут быть сформулированы.


Задачи компьютерной лингвистики:


Методы исследования компьютерной лингвистики:

1. метод моделирования- специальный объект изучения, который недоступен в прямом наблюдении. По определению математика К. Шеннона модель является представлением объекта в некоторой форме, отличной от формы их реального существования.

2. метод теории представления знаний подразумевает способы представления знаний, ориентированные на автоматическую обработку современными компьютерами.

3. метод теории языка программирования (programming language theory) – это область информатики, связанная с проектированием, анализом, определением характеристик и классификацией языков программирования и изучением их индивидуальных особенностей.


Причины возникновения компьютерной лингвистики

1. Появление ЭВМ

2. Проблема общения с компьютерами неподготовленных пользователей


1.Система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948г.

2. Меморандум Уоррена Уивера

3.Начало внедрения первых вычислительных машин в сфере машинного перевода

4. Джорджтаунский проект в 1954


1. ALPAC(Automatic Language Processing Advisory Committee) / Консультативный Комитет по автоматической обработке языка 2. новый этап в развитии компьютерных технологий и их активное использование в лингвистических задачах 3. создание нового поколения компьютеров и языков программирования 4. возрастание интереса к машинному переводу 60

-70ые годы ХХ века


Конец 80х – начало 90х годов ХХ века

    Появление и активное развитие сети Интернет

  • Бурный рост объемов текстовой информации в электронном виде

  • Необходимость автоматической обработки текстов на естественном языке


1. Продукты компании PROMT и ABBY (Lingvo) 2. Технологии машинного перевода 3. Технологии Translation Memory

Современные коммерческие системы

  • Оживление текстов

  • Модели коммуникации

  • Компьютерная лексикография

  • Машинный перевод

  • Корпус текстов


Анализ текстов на естественном языке

3 уровня структуры текста:
  • Поверхностная синтаксическая структура

  • Глубинная синтаксическая структура

  • Семантический уровень


Задача синтеза обратная по отношению в анализу

Оживление текста

1. Обмен текстами посредством зрительных образов на экране дисплея

2. 2 модальности мышления человека: символьная и зрительная.


1.Имитация процесса общения 2. Создание эффективной модели диалога Модели коммуникации


Гипертекст -особый способ организации и представления текста, при котором несколько текстов или фрагментов текста могут быть связаны между собой по различным типам связей.


Отличия гипертекста от традиционного текста

Гипертекст


Обработка устной речи

1. автоматический синтез речи

А) развитие синтезаторов типа «текст-речь». Включает 2 блока: блок лингвистической обработки текста и блок акустического синтеза.

2. автоматическое распознавание речи


1) распознавание текста

2) анализ текста

3) синтез текста


ИПС (информационно-поисковая система) – это программные системы для хранения, поиска и выдачи интересующей информации.

Захаров В.П. считает что, ИПС – это упорядоченная совокупность документов и информационных технологий , предназначенных для хранения и поиска информации – текстов или данных.


3 вида ИПС

3 вида ИПС

    Ручные – это поиск в библиотеке.

  • Механизированные ИПС представляют собой технические средства, которые обеспечивают отбор нужных документов

  • Автоматические - поиск информации с помощью компьютеров


Компьютерная лексикография

Компьютерная лексикография – одно из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей.

В лексикографии выделяют 2 направления:
  • Традиционная лексикография занимается составлением традиционных словарей

  • Машинная лексикография занимается автоматизацией подготовки словарей и решает задачи разработки электронных словарей


Задачи компьютерной лексикографии

  • Автоматическое получение из текста различных словарей

  • Создание словарей, которые являются электронными версиями традиционных словарей или комплексных электронных лингвистических словарей для традиционных словарных работ, например LINGVO

  • Разработка теоретических и практических аспектов составления специальных компьютерных словарей, например для информационного поиска, машинного перевода


Машинный перевод

Машинный перевод – преобразование текста на одном естественном языке на другой естественный язык при помощи компьютера.

Виды машинного перевода
  • FAMT (Fully Automated Machine Translation) – полностью автоматический перевод

  • HAMT (Human Aided machine Translation) – машинный перевод с участием человека

  • MAHT (Machine Aided Human Translation) – перевод, осуществляемый человеком с привлечением вспомогательных программных и лингвистических средств.


  • 2) профессиональный МП – более качественный перевод с последующим редактированием человеком

  • 3) интерактивный МП – считается переводом в специальных системах поддержки , проходит в режиме диалога с компьютерной системой. Качество МП зависит от возможностей настройки, ресурсов, типа текстов.

Корпус текстов

Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты.

Языковой корпус- большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.


Репрезентативность – важнейшее свойство корпуса


Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде



На основе корпуса можно получить данные:

1. о частоте грамматических категорий

2. об изменениях частот

3. об изменениях контекстов в различные периоды времени

5. о совместной встречаемости лексических единиц

6. об особенностях их сочетаемости


Брауновский корпус


Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Основные термины компьютерной лингвистики

    Языки программирования (ЯП) – это класс искусственных языков, предназначенных для обработки информации с помощью компьютера. Любой язык программирования – это строгая (формальная) знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от тысячи до десяти тысяч различных языков программирования.

  • Информатика (Computer Science) - наука о закономерностях записи, хранения, переработки, передачи и использования информации с помощью технических средств.



Поиск информации (Information Retrieval ) – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и

т. д.), которые соответствуют поступившему запросу.

«Информационно-поисковая система (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

Машинная лексикография (Сomputational Lexicography) занимается автоматизацией подготовки словарей и решает задачи разработки электронных

словарей.

Машинный перевод – это преобразование компьютером текста на одном

естественном языке в эквивалентный по содержанию текст на другом

естественном языке.

Гипертекст – это технология организации информации и особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.


    Фрейм - это структура для представления декларативного знания о типизированной тематически единой ситуации, т.е. структура данных о стереотипной ситуации.

  • Сценарий – это последовательность нескольких эпизодов во времени, это тоже представление стереотипной ситуации или стереотипном поведении, только элементами сценария являются шаги алгоритма или инструкции.
  • План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели.



Ученые в области компьютерной лингвистики:

  • Советские и российские ученые : Алексей Ляпунов, Игорь Мельчук, Ольга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемьянов, З.М. Шаляпина, Игорь Богуславский, А.С. Нариньяни, А.Е. Кибрик, Баранов А.Н.

  • Западные ученые : Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови.


Ассоциации и конференции по компьютерной лингвистике :
  • «Диало́г» - главная российская конференция по компьютерной лингвистике с международным участием.

Приоритетом Диалога является компьютерное моделирование русского языка. Рабочие языки конференции русский и английский. Для привлечения зарубежных рецензентов основная часть прикладных работ подается на английском языке.

Основные направления конференции :
  • Лингвистическая семантика и семантический анализ

  • Формальные модели языка и их применение

  • Теоретическая и компьютерная лексикография

  • Методы оценки (evaluation) систем анализа текстов и машинного перевода

  • Корпусная лингвистика . Создание, применение, оценка корпусов

  • Интернет как лингвистический ресурс. Лингвистические технологии в Интернете

  • Онтологии . Извлечение знаний из текстов

  • Компьютерный анализ документов: реферирование, классификация , поиск

  • Автоматический анализ тональности текстов

  • Машинный перевод

  • Модели общения. Коммуникация, диалог и речевой акт

  • Анализ и синтез речи



2. Ассоциация по Компьютерной лингвистике (ACL) является международным научным и профессиональным обществом людей, работающих над проблемами, включающими естественный язык и вычисление. Годовое собрание проводится каждое лето в местоположениях, где значительное исследование компьютерной лингвистики выполнено. Основана в 1962, первоначально назвали Ассоциацией для Машинного перевода и Компьютерной лингвистики (AMTCL) . В 1968 это стало ACL.
  • УACL есть европейская (EACL) и североамериканская (NAACL) ветви.

  • Журнал ACL, Компьютерная лингвистика , является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press .
  • Книжная серия ACL, Исследования в Обработке естественного языка , издана издательством Кембриджского университета .

  • Каждый год ACL и его главы организуют международные конференции в разных странах.

ACL 2014 проводился в Балтиморе, США.

  • Использованная литература :

  • 1. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие/Ю.Н. Марчук.- М.:АСТ: Восток –Запад, 2007ю- 317 с.

  • 2. Шилихина К.М. Основы прикладной лингвистики: учебное пособие по специальности 021800 (031301) – Теоретическая и прикладная лингвистика, Воронеж, 2006.

  • 3. Боярский К.К. Введение в компьютерную лингвистику. Учебное пособие.- СПб: НИУ ИТМО, 2013.- 72 с.

  • 4. Щипицина Л.Ю. Информационные технологии в лингвистике: учебное пособие/ Л.Ю. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие/ Е.П.Соснина.- 2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. -110 с.

  • 6. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие.- М.: Эдиториал УРСС, 2001.- 360 с.

  • 7. Прикладное языкознание: Учебник/ Л.В. Бондарко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. Редактор А.С. Герд. СПб.: изд-во С.-Петербург. Ун-та, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.