Болезни Военный билет Призыв

Компьютерная филология. Компьютерная лингвистика. План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели

План:

1. Что такое компьютерная лингвистика?

2. Объект и предмет компьютерной лингвистики

4. Задачи компьютерной лингвистики

5. Методы исследования компьютерной лингвистики

6. История и причины возникновения компьютерной лингвистики

7. Основные термины компьютерной лингвистики

8. Ученые занимавшиеся проблемой компьютерной лингвистики

9. Ассоциации и конференции по компьютерной лингвистике

10. Использованная литература.


Компьютерная лингвистикасамостоятельное направление в прикладной лингвистике, ориентированное на использование компьютеров для решения задач, связанных с использованием естественного языка. (Щилихина К.М.)


Компьютерная лингвистика – будучи одним из направлений прикладной лингвистики, изучает лингвистические основы информатики и все аспекты связи языка и мышления, моделирование языка и мышления в компьютерной среде с помощью компьютерных программ, а ее интересы лежат в области: 1) оптимизации коммуникации на основе лингвистических знаний 2)создание естественно-языкового интерфейса и типологий понимания языка для общения человека с машиной 3) создание и моделирование информационных компьютерных систем (Соснина Е.П.)


Объект компьютерной лингвистики – анализ языка в его естественном состоянии в процессе использования людьми в различных ситуациях общения, а , как особенности языка могут быть сформулированы.


Задачи компьютерной лингвистики:


Методы исследования компьютерной лингвистики:

1. метод моделирования- специальный объект изучения, который недоступен в прямом наблюдении. По определению математика К. Шеннона модель является представлением объекта в некоторой форме, отличной от формы их реального существования.

2. метод теории представления знаний подразумевает способы представления знаний, ориентированные на автоматическую обработку современными компьютерами.

3. метод теории языка программирования (programming language theory) – это область информатики, связанная с проектированием, анализом, определением характеристик и классификацией языков программирования и изучением их индивидуальных особенностей.


Причины возникновения компьютерной лингвистики

1. Появление ЭВМ

2. Проблема общения с компьютерами неподготовленных пользователей


1.Система поиска по словарю, разработанная в колледже Беркбек в Лондоне в 1948г.

2. Меморандум Уоррена Уивера

3.Начало внедрения первых вычислительных машин в сфере машинного перевода

4. Джорджтаунский проект в 1954


1. ALPAC(Automatic Language Processing Advisory Committee) / Консультативный Комитет по автоматической обработке языка 2. новый этап в развитии компьютерных технологий и их активное использование в лингвистических задачах 3. создание нового поколения компьютеров и языков программирования 4. возрастание интереса к машинному переводу 60

-70ые годы ХХ века


Конец 80х – начало 90х годов ХХ века

    Появление и активное развитие сети Интернет

  • Бурный рост объемов текстовой информации в электронном виде

  • Необходимость автоматической обработки текстов на естественном языке


1. Продукты компании PROMT и ABBY (Lingvo) 2. Технологии машинного перевода 3. Технологии Translation Memory

Современные коммерческие системы

  • Оживление текстов

  • Модели коммуникации

  • Компьютерная лексикография

  • Машинный перевод

  • Корпус текстов


Анализ текстов на естественном языке

3 уровня структуры текста:
  • Поверхностная синтаксическая структура

  • Глубинная синтаксическая структура

  • Семантический уровень


Задача синтеза обратная по отношению в анализу

Оживление текста

1. Обмен текстами посредством зрительных образов на экране дисплея

2. 2 модальности мышления человека: символьная и зрительная.


1.Имитация процесса общения 2. Создание эффективной модели диалога Модели коммуникации


Гипертекст -особый способ организации и представления текста, при котором несколько текстов или фрагментов текста могут быть связаны между собой по различным типам связей.


Отличия гипертекста от традиционного текста

Гипертекст

    1. обработка устной речи

  • 2. обработка письменного текста


Обработка устной речи

1. автоматический синтез речи

А) развитие синтезаторов типа «текст-речь». Включает 2 блока: блок лингвистической обработки текста и блок акустического синтеза.

2. автоматическое распознавание речи


1) распознавание текста

2) анализ текста

3) синтез текста


ИПС (информационно-поисковая система) – это программные системы для хранения, поиска и выдачи интересующей информации.

Захаров В.П. считает что, ИПС – это упорядоченная совокупность документов и информационных технологий , предназначенных для хранения и поиска информации – текстов или данных.


3 вида ИПС

3 вида ИПС

    Ручные – это поиск в библиотеке.

  • Механизированные ИПС представляют собой технические средства, которые обеспечивают отбор нужных документов

  • Автоматические - поиск информации с помощью компьютеров


Компьютерная лексикография

Компьютерная лексикография – одно из важных направлений прикладной лингвистики, занимается теорией и практикой составления словарей.

В лексикографии выделяют 2 направления:
  • Традиционная лексикография занимается составлением традиционных словарей

  • Машинная лексикография занимается автоматизацией подготовки словарей и решает задачи разработки электронных словарей


Задачи компьютерной лексикографии

  • Автоматическое получение из текста различных словарей

  • Создание словарей, которые являются электронными версиями традиционных словарей или комплексных электронных лингвистических словарей для традиционных словарных работ, например LINGVO

  • Разработка теоретических и практических аспектов составления специальных компьютерных словарей, например для информационного поиска, машинного перевода


Машинный перевод

Машинный перевод – преобразование текста на одном естественном языке на другой естественный язык при помощи компьютера.

Виды машинного перевода
  • FAMT (Fully Automated Machine Translation) – полностью автоматический перевод

  • HAMT (Human Aided machine Translation) – машинный перевод с участием человека

  • MAHT (Machine Aided Human Translation) – перевод, осуществляемый человеком с привлечением вспомогательных программных и лингвистических средств.


  • 2) профессиональный МП – более качественный перевод с последующим редактированием человеком

  • 3) интерактивный МП – считается переводом в специальных системах поддержки , проходит в режиме диалога с компьютерной системой. Качество МП зависит от возможностей настройки, ресурсов, типа текстов.

Корпус текстов

Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты.

Языковой корпус- большой, представленный в электронном виде, унифицированный, структурированный, размеченный, филологически компетентный массив языковых данных, предназначенный для решения конкретных лингвистических задач.


Репрезентативность – важнейшее свойство корпуса


Назначение языкового корпуса – показать функционирование лингвистических единиц в их естественной контекстной среде



На основе корпуса можно получить данные:

1. о частоте грамматических категорий

2. об изменениях частот

3. об изменениях контекстов в различные периоды времени

5. о совместной встречаемости лексических единиц

6. об особенностях их сочетаемости


Брауновский корпус


Корпус текстов - это некоторое собрание текстов, в основе которого лежит логический замысел, логическая идея, объединяющая эти тексты. Воплощение этой логической идеи: правила организации текстов в корпус алгоритмы и программы анализа корпуса текстов сопряжённая с этим идеология и методология. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Основные термины компьютерной лингвистики

    Языки программирования (ЯП) – это класс искусственных языков, предназначенных для обработки информации с помощью компьютера. Любой язык программирования – это строгая (формальная) знаковая система, при помощи которой записываются компьютерные программы. По разным оценкам, в настоящее время существует от тысячи до десяти тысяч различных языков программирования.

  • Информатика (Computer Science) - наука о закономерностях записи, хранения, переработки, передачи и использования информации с помощью технических средств.



Поиск информации (Information Retrieval ) – это процесс отыскания в некоторой системе хранения информации таких документов (текстов, записей и

т. д.), которые соответствуют поступившему запросу.

«Информационно-поисковая система (ИПС) – это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации – текстов (документов) или данных (фактов).

Машинная лексикография (Сomputational Lexicography) занимается автоматизацией подготовки словарей и решает задачи разработки электронных

словарей.

Машинный перевод – это преобразование компьютером текста на одном

естественном языке в эквивалентный по содержанию текст на другом

естественном языке.

Гипертекст – это технология организации информации и особым образом структурированный текст, разбитый на отдельные блоки, имеющий нелинейное представление, для эффективной презентации информации в компьютерных средах.


    Фрейм - это структура для представления декларативного знания о типизированной тематически единой ситуации, т.е. структура данных о стереотипной ситуации.

  • Сценарий – это последовательность нескольких эпизодов во времени, это тоже представление стереотипной ситуации или стереотипном поведении, только элементами сценария являются шаги алгоритма или инструкции.
  • План – представление знаний о возможных действиях, которые необходимы для достижения определенной цели.



Ученые в области компьютерной лингвистики:

  • Советские и российские ученые : Алексей Ляпунов, Игорь Мельчук, Ольга Кулагина, Ю.Д. Апресян, Н.Н. Леонтьева, Ю.С. Мартемьянов, З.М. Шаляпина, Игорь Богуславский, А.С. Нариньяни, А.Е. Кибрик, Баранов А.Н.

  • Западные ученые : Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови.


Ассоциации и конференции по компьютерной лингвистике :
  • «Диало́г» - главная российская конференция по компьютерной лингвистике с международным участием.

Приоритетом Диалога является компьютерное моделирование русского языка. Рабочие языки конференции русский и английский. Для привлечения зарубежных рецензентов основная часть прикладных работ подается на английском языке.

Основные направления конференции :
  • Лингвистическая семантика и семантический анализ

  • Формальные модели языка и их применение

  • Теоретическая и компьютерная лексикография

  • Методы оценки (evaluation) систем анализа текстов и машинного перевода

  • Корпусная лингвистика . Создание, применение, оценка корпусов

  • Интернет как лингвистический ресурс. Лингвистические технологии в Интернете

  • Онтологии . Извлечение знаний из текстов

  • Компьютерный анализ документов: реферирование, классификация , поиск

  • Автоматический анализ тональности текстов

  • Машинный перевод

  • Модели общения. Коммуникация, диалог и речевой акт

  • Анализ и синтез речи



2. Ассоциация по Компьютерной лингвистике (ACL) является международным научным и профессиональным обществом людей, работающих над проблемами, включающими естественный язык и вычисление. Годовое собрание проводится каждое лето в местоположениях, где значительное исследование компьютерной лингвистики выполнено. Основана в 1962, первоначально назвали Ассоциацией для Машинного перевода и Компьютерной лингвистики (AMTCL) . В 1968 это стало ACL.
  • УACL есть европейская (EACL) и североамериканская (NAACL) ветви.

  • Журнал ACL, Компьютерная лингвистика , является основным форумом для исследования в области компьютерной лингвистики и обработки естественного языка. С 1988 журнал был издан для ACL MIT Press .
  • Книжная серия ACL, Исследования в Обработке естественного языка , издана издательством Кембриджского университета .

  • Каждый год ACL и его главы организуют международные конференции в разных странах.

ACL 2014 проводился в Балтиморе, США.

  • Использованная литература :

  • 1. Марчук Ю.Н. Компьютерная лингвистика: учебное пособие/Ю.Н. Марчук.- М.:АСТ: Восток –Запад, 2007ю- 317 с.

  • 2. Шилихина К.М. Основы прикладной лингвистики: учебное пособие по специальности 021800 (031301) – Теоретическая и прикладная лингвистика, Воронеж, 2006.

  • 3. Боярский К.К. Введение в компьютерную лингвистику. Учебное пособие.- СПб: НИУ ИТМО, 2013.- 72 с.

  • 4. Щипицина Л.Ю. Информационные технологии в лингвистике: учебное пособие/ Л.Ю. Щипицина.- М.: ФЛИНТА: наука, 2013.- 128 с.

  • 5. Соснина Е.П. Введение в прикладную лингвистику: учебное пособие/ Е.П.Соснина.- 2-е изд., испр. и доп. – Ульяновск: УлГТУ, 2012. -110 с.

  • 6. Баранов А.Н. Введение в прикладную лингвистику: Учебное пособие.- М.: Эдиториал УРСС, 2001.- 360 с.

  • 7. Прикладное языкознание: Учебник/ Л.В. Бондарко, Л.А. Вербицкая, Г.Я. Мартыненко и др.; Отв. Редактор А.С. Герд. СПб.: изд-во С.-Петербург. Ун-та, 1996.- 528 с.

  • 8. Шемякин Ю.И. Начала компьютерной лингвистики: Учебное пособие. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.

  • Лингви́стика (от лат. lingua -
    язык), языкозна́ние, языкове́дение - наука,
    изучающая языки.
    Это наука о естественном человеческом языке вообще
    и обо всех языках мира как его
    индивидуализированных представителях.
    В широком смысле слова, лингвистика
    подразделяется на научную и практическую. Чаще
    всего под лингвистикой подразумевается именно
    научная лингвистика. Является частью семиотики как
    науки о знаках.
    Лингвистикой профессионально занимаются учёныелингвисты.

    Лингвистика и Информатика.
    В жизни современного общества важную роль играют автоматизированные
    информационные технологии. Но развитие информационных технологий происходит
    весьма неравномерно: если современный уровень вычислительной техники и
    средств связи поражает воображение, то в области смысловой обработки
    информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от
    достижений в изучении процессов человеческого мышления, процессов речевого
    общения между людьми и от умения моделировать эти процессы на ЭВМ. А это задача чрезвычайной сложности.Когда речь идет о создании перспективных
    информационных технологий, то проблемы автоматической обработки текстовой
    информации, представленной на естественных языках, выступают на передний план.
    Это определяется тем, что мышление человека тесно связано с его языком. Более
    того, естественный язык является инструментом мышления. Он является также
    универсальным средством общения между людьми – средством восприятия,
    накопления, хранения, обработки и передачи информации.
    Проблемами использования естественного языка в системах автоматической
    обработки информации занимается наука компьютерная лингвистика. Эта наука
    возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов
    прошлого столетия. Поначалу, в период своего становления, она имела различные
    названия: математическая лингвистика, вычислительная лингвистика, инженерная
    лингвистика. Но в начале восьмидесятых годов за ней закрепилось название
    компьютерная лингвистика.

    Компьютерная лингвистика - это область знаний, связанная с решением задач
    автоматической обработки информации, представленной на естественном языке.
    Центральными научными проблемами компьютерной лингвистики являются проблема
    моделирования процесса понимания смысла текстов (перехода от текста к
    формализованному представлению его смысла) и проблема синтеза речи (перехода от
    формализованного представления смысла к текстам на естественном языке). Эти проблемы
    возникают при решении ряда прикладных задач:
    1) автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ,
    2) автоматического анализа и синтеза устной речи,
    3) автоматического перевода текстов с одних языков на другие,
    4) общения с ЭВМ на естественном языке,
    5) автоматической классификации и индексирования текстовых документов, их
    автоматического реферирования, поиска документов в полнотекстовых базах данных.
    За прошедшие полвека в области компьютерной лингвистики были получены
    значительные научные и практические результаты: были созданы системы машинного
    перевода текстов с одних естественных языков на другие, системы автоматизированного
    поиска информации в текстах, системы автоматического анализа и синтеза устной речи и
    многие другие. Но были и разочарования. Например, проблема машинного перевода
    текстов с одних языков на другие оказалась значительно сложнее, чем это представляли
    себе пионеры машинного перевода и их последователи. То же самое можно сказать об
    автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной
    речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы
    достигнуть нужных результатов.

    Обработка естественного языка (англ. natural language processing; синтаксический,
    морфологический, семантический анализы текста). Сюда включают также:
    Корпусная лингвистика, создание и использование электронных корпусов текстов
    Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари
    используют, например, для автоматического перевода, проверки орфографии.
    Автоматический перевод текстов. Среди русских переводчиков популярным
    является Промт. Среди бесплатных известен переводчик Google Translate
    Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact
    extraction, text mining)
    Автореферирование (англ. automatic text summarization). Эта функция включена,
    например, в Microsoft Word.
    Построение систем управления знаниями. См. Экспертные системы
    Создание вопросно-ответных систем (англ. question answering systems).
    Оптическое распознавание символов (англ. OCR). Например, программа FineReader
    Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО
    Автоматический синтез речи

    1. Деятельность по формализации знаний о естественном языке на разных его уровнях с целью использования в компьютерных технологиях. 2. Область знаний, решающая проблемы общения человека и компьютера на естественном языке. 3. Широкая область использования компьютерных инструментов - программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных областях.


    Искусственный интеллект – направление информатики, целью которого является разработка компьютерных систем, способных выполнять функции, традиционно считающиеся интеллектуальными, - понимание естественного языка, логический вывод, использование накопленных знаний, обучение, планирование действий и др.






    3. Построение алгоритмов лингвистического анализа – разработка алгоритмов анализа естественно - языковых текстов на всех языковых уровнях: фонемном, морфемном, морфологическом, синтаксическом, прагматическом. Построение синтаксического дерева зависимостей (проект Автоматическая Обработка Текста)


    4. Корпусная лингвистика – занимается разработкой, созданием и использованием текстовых (лингвистических) корпусов. Главная страница сайта Национального корпуса русского языка


    5. Машинный перевод - направление научных исследований, связанных с построением автоматических систем перевода текстов с одного естественного языка на другой. Главная страница сайта Google- переводчик


    6. Автоматическое реферирование – создание программ сжатого представления естественно - языковых текстов. Сервис построения реферата на сайте Визуальный мир


    7. Полнотекстовый информационный поиск – разработка информационно - поисковых систем с лингвистическим анализом текстов информационного массива и запроса пользователя. Главная страница информационно - поисковой системы Яндекс











    Содержание статьи

    КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

    Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

    Инструментарий компьютерной лингвистики.

    Компьютерная лингвистика как особая прикладная дисциплина выделяется прежде всего по инструменту – т.е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

    Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».

    Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

    Направления компьютерной лингвистики.

    Сфера КЛ весьма разнообразна и включает такие области, как компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерная лексикография. В узком смысле проблематика КЛ часто связывается с междисциплинарным прикладным направлением с несколько неудачным названием «обработка естественного языка» (перевод английского термина Natural Language Processing). Оно возникло в конце 1960-х годов и развивалось в рамках научно-технологической дисциплины «искусственный интеллект». По своей внутренней форме словосочетание «обработка естественного языка» охватывает все области, в которых компьютеры используются для обработки языковых данных. Между тем в практике закрепилось более узкое понимание этого термина – разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.

    Бурное развитие направления «обработки естественного языка» приходится на 1970-е годы, что было связано с неожиданным экспоненциальным ростом количества конечных пользователей ЭВМ. Поскольку обучение языкам и технологии программирования всех пользователей невозможно, возникла проблема организации взаимодействия с компьютерными программами. Решение этой проблемы коммуникации шло по двум основным путям. В первом случае предпринимались попытки адаптации языков программирования и операционных систем к конечному пользователю. В результате появились языки высокого уровня типа Visual Basic, а также удобные операционные системы, построенные в концептуальном пространстве привычных человеку метафор – ПИСЬМЕННЫЙ СТОЛ, БИБЛИОТЕКА. Второй путь – разработка систем, которые позволяли бы взаимодействовать с ЭВМ в конкретной проблемной области на естественном языке или каком-то его ограниченном варианте.

    Архитектура систем обработки естественного языка в общем случае включает блок анализа речевого сообщения пользователя, блок интерпретации сообщения, блок порождения смысла ответа и блок синтеза поверхностной структуры высказывания. Особой частью системы является диалоговый компонент, в котором зафиксированы стратегии ведения диалога, условия применения этих стратегий, способы преодоления возможных коммуникативных неудач (сбоев в процессе общения).

    Среди компьютерных систем обработки естественного языка обычно выделяются вопросно-ответные системы, диалоговые системы решения задач и системы обработки связных текстов. Изначально вопросно-ответные системы стали разрабатываться как реакция на плохое качество кодировки запросов при поиске информации в информационно-поисковых системах. Поскольку проблемная область таких систем была сильно ограничена, это несколько упрощало алгоритмы перевода запросов в представление на формальном языке и обратную процедуру преобразования формального представления в высказывания на естественном языке. Из отечественных разработок к программам такого типа относится система ПОЭТ, созданная коллективом исследователей под руководством Э.В.Попова. Система обрабатывает запросы на русском языке (с небольшими ограничениями) и синтезирует ответ. Блок-схема программы предполагает прохождение всех этапов анализа (морфологического, синтаксического и семантического) и соответствующих этапов синтеза.

    Диалоговые системы решения задач, в отличие от систем предшествующего типа, играют в коммуникации активную роль, поскольку их задача заключается в том, чтобы получить решение проблемы на основе тех знаний, которые представлены в ней самой, и той информации, которую можно получить от пользователя. Система содержит структуры знаний, в которых фиксируются типичные последовательности действий для решения задач в данной проблемной области, а также сведения о необходимых ресурсах. Когда пользователь задает вопрос или ставит определенную задачу, активизируется соответствующий сценарий. Если какие-то компоненты сценария пропущены или отсутствуют какие-то ресурсы, система выступает инициатором коммуникации. Так работает, например, система SNUKA, решающая задачи планирования военных операций.

    Системы обработки связных текстов довольно разнообразны по структуре. Их общей чертой можно считать широкое использование технологий представления знаний. Функции систем такого рода заключаются в понимании текста и ответах на вопросы о его содержании. Понимание рассматривается не как универсальная категория, а как процесс извлечения информации из текста, определяемый конкретным коммуникативным намерением. Иными словами, текст «прочитывается» только с установкой на то, что именно потенциальный пользователь захочет узнать о нем. Тем самым и системы обработки связных текстов оказываются отнюдь не универсальными, а проблемно-ориентированными. Типичными примерами систем обсуждаемого типа могут служить системы RESEARCHER и TAILOR, образующие единый программный комплекс, позволяющий пользователю получить информацию из рефератов патентов, описывающих сложные физические объекты.

    Важнейшим направлением компьютерной лингвистики является разработка информационно-поисковых систем (ИПС). Последние возникли в конце 1950-х – начале 1960-х годов как ответ на резкое возрастание объемов научно-технической информации. По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы – документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Информационно-поисковый язык – это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на информационно-поисковом языке называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на информационно-поисковом языке – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса и поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и поискового предписания. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью. В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Часто в дескрипторном информационно-поисковом языке налагаются ограничения на сочетаемость дескрипторов. В этом случае можно говорить о том, что информационно-поисковый язык обладает синтаксисом.

    Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М.Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Развитие современных информационно-поисковых систем связано с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка.

    К области компьютерной лингвистики в определенной степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания. Идея гипертекста связывается с именем Ванневара Буша – советника президента Ф.Рузвельта по науке. В.Буш теоретически обосновал проект технической системы «Мемекс», которая позволяла пользователю связывать тексты и их фрагменты по различным типам связей, преимущественно по ассоциативным отношениям. Отсутствие компьютерной техники сделало проект труднореализуемым, поскольку механическая система оказалась чрезмерно сложной для практического воплощения.

    Идея Буша в 1960-е годы получила второе рождение в системе «Ксанаду» Т.Нельсона, которая уже предполагала использование компьютерной техники. «Ксанаду» позволял пользователю прочитывать совокупность введенных в систему текстов различными способами, в различной последовательности, программное обеспечение давало возможность как запоминать последовательность просмотренных текстов, так и выбирать из них практически любой в произвольный момент времени. Множество текстов со связывающими их отношениями (системой переходов) было названо Т.Нельсоном гипертекстом. Многие исследователи рассматривают создание гипертекста как начало новой информационной эпохи, противопоставленной эре книгопечатания. Линейность письма, внешне отражающая линейность речи, оказывается фундаментальной категорией, ограничивающей мышление человека и понимание текста. Мир смысла нелинеен, поэтому сжатие смысловой информации в линейном речевом отрезке требует использования специальных «коммуникативных упаковок» – членение на тему и рему, разделение плана содержания высказывания на эксплицитные (утверждение, пропозиция, фокус) и имплицитные (пресуппозиция, следствие, импликатура дискурса) слои. Отказ от линейности текста и в процессе его представления читателю (т.е. при чтении и понимании) и в процессе синтеза, по мнению теоретиков, способствовал бы «освобождению» мышления и даже возникновению его новых форм.

    В компьютерной системе гипертекст представлен в виде графа, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отношения задают потенциальные возможности передвижения, или навигации по гипертексту. Отношения могут быть однонаправленными или двунаправленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные – только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь, или маршрут.

    Компьютерные реализации гипертекста бывают иерархическими или сетевыми. Иерархическое – древовидное – строение гипертекста существенно ограничивает возможности перехода между его компонентами. В таком гипертексте отношения между компонентами напоминают структуру тезауруса, основанного на родо-видовых связях. Сетевой гипертекст позволяет использовать различные типы отношений между компонентами, не ограничиваясь отношениями «род – вид». По способу существования гипертекста выделяются статические и динамические гипертексты. Статический гипертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои комментарии, однако они не меняют существо дела. Для динамического гипертекста изменение является нормальной формой существования. Обычно динамические гипертексты функционируют там, где необходимо постоянно анализировать поток информации, т.е. в информационных службах различного рода. Гипертекстовой является, например, Аризонская информационная система (AAIS), которая ежемесячно пополняется на 300–500 рефератов в месяц.

    Отношения между элементами гипертекста могут изначально фиксироваться создателями, а могут порождаться всякий раз, когда происходит обращение пользователя к гипертексту. В первом случае речь идет о гипертекстах жесткой структуры, а во втором – о гипертекстах мягкой структуры. Жесткая структура технологически вполне понятна. Технология организации мягкой структуры должна основываться на семантическом анализе близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее время широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети гипертекста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз меняется и структура гипертекста.

    Технология построения гипертекстовых систем не делает различий между текстовой и нетекстовой информацией. Между тем включение визуальной и звуковой информации (видеороликов, картин, фотографий, звукозаписей и т.п.) требует существенного изменения интерфейса с пользователем и более мощной программной и компьютерной поддержки. Такие системы получили название гипермедиа, или мультимедиа. Наглядность мультимедийных систем предопределила их широкое использование в обучении, в создании компьютерных вариантов энциклопедий. Существуют, например, прекрасно выполненные CD-ромы с мультимедийными системами по детским энциклопедиям издательства «Дорлин Киндерсли».

    В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы – базы данных, компьютерные картотеки, программы обработки текста – позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ разделяются на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Автоматический словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. На рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), существует и компьютерная версия словаря Ожегова. Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.

    Компьютерное моделирование структуры сюжета – еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета – морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. Идеи о морфологическом устройстве структуры сюжета восходят к известным работам В.Я.Проппа (см .) о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки количество функций персонажей ограничено, и предложил аппарат для описания этих функций. Идеи Проппа легли в основу компьютерной программы TALE, моделирующей порождение сюжета сказки. В основу алгоритма программы TALE положена последовательность функций персонажей сказки. Фактически функции Проппа задавали множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала. Возможности сцепления различных ситуаций в правилах порождения определялись типичной последовательностью функций – в том виде, в котором это удается установить из текстов сказок. В программе типичные последовательности функций описывались как типовые сценарии встреч персонажей.

    Теоретическую основу синтаксического подхода к сюжету текста составили «сюжетные грамматики», или «грамматики повествования» (story grammars). Они появились в середине 1970-х годов в результате переноса идей порождающей грамматики Н.Хомского на описание макроструктуры текста. Если важнейшими составляющими синтаксической структуры в порождающей грамматике были глагольные и именные группы, то в большинстве сюжетных грамматик в качестве базовых выделялись экспозиция (setting), событие и эпизод. В теории сюжетных грамматик широко обсуждались условия минимальности, то есть ограничения, определявшие статус последовательности из элементов сюжета как нормальный сюжет. Оказалось, однако, что чисто лингвистическими методами это сделать невозможно. Многие ограничения носят социокультурный характер. Сюжетные грамматики, существенно различаясь набором категорий в дереве порождения, допускали весьма ограниченный набор правил модификации повествовательной (нарративной) структуры.

    В начале 1980-х годов одной из учениц Р.Шенка – В.Ленерт в рамках работ по созданию компьютерного генератора сюжетов был предложен оригинальный формализм эмоциональных сюжетных единиц (Affective Plot Units), оказавшийся мощным средством представления структуры сюжета. При том, что он был изначально разработан для системы искусственного интеллекта, этот формализм использовался в чисто теоретических исследованиях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как последовательная смена когнитивно-эмоциональных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные характеристики. В этом отношении формализм Ленерт отчасти оказывается возвращением к идеям Проппа.

    К компетенции компьютерной лингвистики относится и машинный перевод, переживающий в настоящее время второе рождение.

    Литература:

    Попов Э.В. Общение с ЭВМ на естественном языке . М., 1982
    Садур В.Г. Речевое общение с электронно-вычислительными машинами и проблемы их развития . – В кн.: Речевое общение: проблемы и перспективы. М., 1983
    Баранов А.Н. Категории искусственного интеллекта в лингвистической семантике. Фреймы и сценарии . М., 1987
    Кобозева И.М., Лауфер Н.И., Сабурова И.Г. Моделирование общения в человеко-машинных системах . – Лингвистическое обеспечение информационных систем. М., 1987
    Олкер Х.Р. Волшебные сказки, трагедии и способы изложение мировой истории . – В кн.: Язык и моделирование социального взаимодействия. М., 1987
    Городецкий Б.Ю. Компьютерная лингвистика: моделирование языкового общения
    Маккьюин К. Дискурсивные стратегии для синтеза текста на естественном языке . – Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика. М., 1989
    Попов Э.В., Преображенский А.Б. Особенности реализации ЕЯ-систем
    Преображенский А.Б. Состояние развития современных ЕЯ-систем . – Искусственный интеллект. Кн. 1, Системы общения и экспертные системы. М., 1990
    Субботин М.М. Гипертекст. Новая форма письменной коммуникации . – ВИНИТИ, Сер. Информатика, 1994, т. 18
    Баранов А.Н. Введение в прикладную лингвистику . М., 2000

    

    КУРСОВАЯ РАБОТА

    по дисциплине «Информатика»

    по теме: «Компьютерная лингвистика»


    ВВЕДЕНИЕ

    1. Место и роль компьютерной лингвистики в лингвистических исследованиях

    2. Современные интерфейсы компьютерной лингвистики

    ЗАКЛЮЧЕНИЕ

    ЛИТЕРАТУРА


    Введение

    В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

    Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


    В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

    Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

    Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

    Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

    Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

    Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

    Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

    В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

    Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

    1. Автоматизация составления и лингвистической обработки машинных словарей;

    2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

    3. Автоматическое индексирование документов и информационных запросов;

    4. Автоматическая классификация и реферирование документов;

    5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

    6. Машинный перевод текстов с одних естественных языков на другие;

    7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

    8. Извлечение фактографической информации из неформализованных текстов.

    Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

    В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

    Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

    Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.