Болезни Военный билет Призыв

Что такое машинный перевод и где он используется. Как переводит компьютер. Что можно и что нельзя переводить машинным способом

1947 - дата рождения машинного перевода (МП) как научно­го направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Вине­ру, в котором рассматривал задачу перевода текстов с одних язы­ков на другие как еще одну область применения техники дешиф­рования. За этим письмом последовало множество дискуссий.

1947 - А. Бут и Д. Бриттен разработали подробный «код»
для пословного машинного перевода.

1948 - Р. Риченс предложил правила разбиения словоформ
на основу и окончание.

1952 - первая конференция по МП в Массачусетском тех­нологическом институте.

1954 - представлена первая система МП - IBM Mark II - русско-английская, которая имела словарь в 250 единиц и 6


грамматических правил. Последовавшее за этим десятилетие было временем бурного развития МП.

1967 - специально созданная в США Комиссия Националь­ной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу о том, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом.

70-е годы - возрождение интереса к работам в области МП. С развитием вычислительной техники появились новые воз­можности машинной реализации лингвистических алгоритмов.

80-е годы - время работы персональных компьютеров зна­чительно подешевело, машинный перевод наконец-то стал эко­номически выгодным.

90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet/ Intranet. Преимущества использования машинного перевода осо­бенно очевидны при получении онлайнового перевода.

В 1990 г. Ларри Чаилдс, специалист по машинному перево­ду, предложил следующую классификацию систем машинного перевода:

FAMT (Fully-automated machine translation) - полностью ав­
томатизированный машинный перевод;

НАМТ (Human-assisted machine translation) - машинный
перевод при участии человека;

МАНТ (Machine-assisted human translation) - перевод, осу­
ществляемый человеком с использованием компьютера.

Как переводит компьютер

Машинный перевод - это такая специфическая область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом.

Во-первых, очевидно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания боль­ших словарей для систем.


Во-вторых, ясно, что система должна переводить предложе­ния типа «Привет, как дела?». Значит, еще одна проблема - на­учить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам пере­водится, а значит, есть еще одна проблема: записать все эти пра­вила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно явля­ются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Словарь

Методы организации больших баз данных достаточно хоро­шо разработаны, но для перевода не менее, а может быть, и бо­лее важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соот­ветствовать обыкновенному русскому слову «программа»? И вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет рас­познать много слов из текста?

При ближайшем рассмотрении оказывается, что, например, существительные в русском языке изменяются по падежам и по числам, т.е. для одного существительного может существовать до 12 разных форм, а для глаголов и прилагательных, как прави­ло, существует еще большее количество различных форм (более тридцати). Следовательно, чтобы переводить предложения, со­держащие слова «программу», «программе», «программы» и т.д., хорошо было бы иметь способ соотнесения словарной статьи из автоматического словаря для слова «программа» с соответству­ющей словоформой из текста. Поэтому для описания и входно­го, и выходного языка в системе должен существовать некото­рый формальный метод описания морфологии, на котором ос­новывается выбор единицы словаря.

Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной ста­тьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, она не­обходима для выполнения программой собственно процедур перевода. Какая же информация нужна в словарной статье и как должны быть описаны правила перевода для того, чтобы про­грамма переводила?

Грамматика

Тут необходимо сделать небольшое историческое отступле­ние, поскольку машинный перевод как область прикладной лингвистики имеет драматическую историю. В 1950-х годах прак­тически с появлением первых вычислительных машин возник­ла идея машинного перевода, кстати, сам термин «машинный перевод» существует именно с тех времен. Кажущаяся простота задачи породила некоторую лингвистическую эйфорию, и было начато несколько глобальных проектов по созданию систем пе­ревода для разных языков. Ни один из них не привел к созда­нию работающих систем, и в 1967 г. специальная комиссия На­циональной Академии наук США объявила машинный перевод неперспективным и не заслуживающим финансирования. Толь­ко в начале 80-х годов лингвисты более или менее оправились от столь сурового вердикта и возобновили исследования в обла­сти МП. Конечно, во многом это оживление было связано с развитием вычислительной техники вообще и с интересом к проблемам искусственного интеллекта как области применения компьютеров в частности.

Глобальные проекты по-прежнему были ориентированы на решение задачи перевода в целом. В них рассматривались раз­работка описания лексических единиц в словаре и разработка алгоритмов перевода как разные задачи. Появилось множество лингвистических работ, предлагающих структуру описания свойств живого слова в словарной статье машинного словаря. Не появ-


лялось только реальных коммерческих систем, в которых эти исследования хоть как-то соединялись бы. Все системы, кото­рые так или иначе существовали, имели скромное дополнение «экспериментальная» или «прототип». Но реально ни одна из таких систем никогда не была доработана до системы массового использования. Это происходило потому, что применяемые ме­тоды описания перевода при переносе их в естественную среду (т.е. при применении к произвольным текстам) приходили в противоречие с методами, предлагаемыми для формирования словарных статей.

В то же время локальные проекты были ориентированы на решение только узких задач. Установкой разработчиков было получение хоть каких-то практических результатов.

Хотя оба эти подхода не дали коммерческих систем, работы, которые проводились в этом направлении, позволили осознать сложность задачи и, по крайней мере, установить узкие места в подобных разработках. Так или иначе, но именно из локальных проектов появились системы перевода, которые сейчас предла­гаются конечному пользователю.

Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получе­ние результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамма­тики, с которой работает система.

Вместо принятого лингвистического подхода, предполагаю­щего выделение последовательных процессов анализа и синте­за предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с объектно-ори­ентированной организацией, основанной на иерархии обрабатыва­емых компонентов предложения.

Сначала поясним некоторые определения. Вместе с разви­тием машинного перевода как области прикладной лингвисти­ки появились и классификации систем. Стало принято делить системы перевода на системы типа TRANSFER и системы типа

INTERLINGUA. Это разделение основано на особенностях ар­хитектурных решений для лингвистических алгоритмов.

Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структу­ры в аналогичную структуру выходного языка (TRANSFER) и за­тем синтез выходного предложения по полученной структуре.

Системы типа INTERLINGUA предполагают априори нали­чие некоторого метаязыка структур (INTERLINGUA), на кото­ром можно описать все структуры как входного, так и выходно­го языков в общем случае. Поэтому алгоритм перевода в систе­ме типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения вы­ходного языка. «Единственная» сложность в этом случае - раз­работать сам метаязык и описать естественный язык в соответ­ствующих терминах.

Несмотря на то что эта классификация существует и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится ваша система, не было раз­работано еще ни одной реальной системы, основанной на принципе INTERLINGUA.

Хотелось бы надеяться, что эти сведения позволят потенци­альным пользователям систем перевода понять, что создание системы машинного перевода - задача не такая уж простая и, что называется, наукоемкая. Следовательно, количество дей­ствительно пригодных к использованию систем перевода, кото­рое может появляться в единицу времени, принципиально ог­раничено.

2.2.3. Классификация систем

1. Системы машинного перевода (МП)

Системы машинного перевода - программы, осуществ­ляющие полностью автоматизированный перевод. Главным


критерием программы является качество перевода. Кроме этого, для пользователя важным является удобство интер­фейса, легкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита, пополне­ния словаря. С появлением Интернета основные поставщики систем МП включили в свои продукты web-интерфейсы, обеспечив при этом их интеграцию с остальным программ­ным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода web-страниц, элек­тронных писем и онлайновых разговорных сеансов.

2. Системы с функцией Translation Memory (TM)

Системы с функцией Translation Memory (TM) предостав­ляют средства для так называемого Machine-assisted human translation (МАНТ) - перевода, выполняемого человеком с помощью машины.

Они основаны на технологии Translation Memory (TM) в противоположность МП, машинному переводу. Идея зак­лючается в хранении базы данных переводов, сделанных профессиональным переводчиком, для того чтобы в процес­се перевода предлагать человеку уже готовый перевод фразы или куска текста, если он уже был однажды переведен. При­чем совпадение фразы не обязательно должно быть букваль­ным, а может определяться критериями «похожести», зало­женными в программу, с возможностью их настройки пользо­вателем. ТМ-программы очень полезны в ситуациях, в кото­рых необходимо сделать перевод обновленной версии доку­мента, переведенного ранее. Такая необходимость возника­ет при поддержке мультиязычных сайтов. Программа быст­ро обнаружит в документе места, подвергшиеся изменениям со времени предыдущей версии документа, и человеку оста­нется перевести только эти изменившиеся части. ТМ-про­граммы значительно повышают эффективность работы пе­реводчика, избавляя его от рутинной, повторяющейся рабо­ты. Во многих фирмах, занимающихся переводом, владение одной из таких программ является существенным критери­ем при приеме на работу.


3. Контролируемый язык и машинный перевод на основе базы знаний

В системах на основе контролируемого языка реализован пе­реход от свободного входного языка к контролируемому входно­му языку. Контроль входного языка предусматривает определен­ные ограничения лексики, грамматики, семантики. Контроли­руемый входной язык используется для упрощения выражений исходного текста, чтобы повысить качество перевода.

■-

4. On-line переводчики

Службы онлайнового перевода выполняют перевод прямо в окне броузера, не требуя установки программы на компью­тер пользователя. Достаточно большое количество ссылок на бесплатные сервисы машинного перевода с указаниями на­правлений переводов приведено по адресу http://rivendel. com/~ric/resources/free. html.

Как правило, существует ограничение на объем вводимо­го текста.

Бесплатный онлайновый перевод можно сделать также по адресам:

Http://www.t-mail.com/;

Http://www.freetranslation.com/.

5. Словари on-line

Наиболее полный список словарей представлен по адре­су http://members.aol.com/Mgierhake/trans.html. В словарях on-line существует возможность поиска, есть строка ввода и меню для выбора входного и выходного языка. Среди слова­рей данного вида известны LOGOS ONLINE DICTIONARY (английский, французский, немецкий, испанский, итальян­ский, чешский), TRADOS MultiTerm, Langenscheidt"s New College Dictionary on-line и т.д.

6. Услуги по переводу в Интернете

Практически каждая компания - производитель систем МП предлагает услуги по переводу. Например, на странице

Languge Partners International (http://www.languagepartners. com/reg-forms/inq-trans.html) организована служба перево­дов, которая обрабатывает любой электронный документ с помощью систем МП и отправляет обратно без редактиро­вания. Пользователь может предоставить термины для по­полнения словаря по своей тематике (за дополнительную плату) или сам его создать. Скорость перевода - 1 рабочий день. Стоимость - 0,04 доллара за слово (приблизительно 8 долларов за страницу). За дополнительную плату предос­тавляются услуги по сканированию. Направления перевода: английский-французский-английский, английский-не­мецкий-английский, английский-итальянский-английс­кий, английский-испанский-английский, английский- португальский -английский, английский-японский-анг­лийский, английский-русский-английский. Однако чаще всего пользователю предоставляется возможность выбора: получить только машинный перевод, либо машинный пере­вод с последующим редактированием профессиональным переводчиком, либо перевод, выполненный профессио­нальным переводчиком. Такого рода сервис можно встре­тить по адресу http://www.plustranslation.com/ (сервис ком­пании Transparent Language). Цена варьируется от 0,01 дол­лара за слово при машинном переводе до 0,38 при переводе с участием переводчика. Подобные услуги есть у SYSTRAN, L&H, Langscheidt, Language Engineering Corporation.

2.2.4. Инновационные технологии компании ПРОМТ

Ведущие сотрудники компании ПРОМТ начали заниматься исследованиями в области прикладной лингвистики и изучать модели построения систем машинного перевода более 20 лет на­зад, в конце 1970-х годов. Исследования велись в лаборатории ин­женерной лингвистики ЛГПИ им. А.И. Герцена (ныне педагоги­ческий университет). Накопленный теоретический багаж лег в основу технологий МП, разрабатываемых в компании ПРОМТ.


За 10 лет с момента основания компании ПРОМТ удалось создать передовые технологии МП, в основе которых заложены современные лингвистические алгоритмы, разработки в облас­ти математического моделирования и нейронных сетей. На базе этих технологий были разработаны системы машинного пере­вода, которые по качеству на 30% превосходят ведущие миро­вые аналоги.

В 2000 г. компания ПРОМТ выпустила семейство систем МП на основе нового ядра перевода. В новом ядре реализованы тех­нологии расширенных сетей переходов и формализма нейрон­ных сетей, что вывело машинный перевод на качественно но­вый уровень, а также последние разработки в области алгорит­мов семантического анализа и синтаксического разбора.

Новым шагом в развитии МП компании ПРОМТ стало ис­пользование технологии F2F, обеспечивающей сохранение всей форматной информации в процессе перевода, что позволило осуществлять перевод сложноформатированных документов без потери форматных признаков.

Помимо развития собственно технологии машинного пере­вода, были приложены специальные усилия к тому, чтобы реа­лизовать в новых системах возможность лингвистической на­стройки, которая обеспечивает значительное улучшение каче­ства перевода для специализированных текстов.

В частности, появление поддержки тематик в новом ядре позволило кардинально изменить подход к переводу специали­зированных текстов. Использование тематик решило проблему лингвистической настройки системы на специализированные тексты и обеспечило эффективность их сохранения.

Легкость и удобство лингвистического администрирования систем МП было реализовано на базе следующих технологий:

AutoDetect для реализации автоматического определения
темы документа;

SmartFolders для предварительного задания тематики пере­
вода всем документам, находящимся в определенной папке;

KeyWords - выбор тематики на основе предварительного за­
данного списка ключевых слов;

SmartURL - возможность предварительного задания тема­тики перевода для конкретного URL.

Компания ПРОМТ предлагает онлайновые сервисы перево­да текста, web-страниц и электронных писем для английского, немецкого, французского, испанского, итальянского и русско­го языков. Для перевода специализированных текстов можно подключать тематические словари.

Перевод текста. Позволяет переводить любые тексты, на­бранные в окне перевода или скопированные из буфера обмена (Clipboard).

Перевод web-страниц. Позволяет полностью переводить web-страницы, включая гиперссылки, с сохранением исходного форматирования.

Перевод электронной почты. Позволяет переводить и от­правлять электронные письма непосредственно в онлайне.

WAP-переводчик. Новый сервис перевода для пользователей мобильных телефонов.

  • I. Религия имеет несколько исторических форм и прошла длительный путь развития
  • I. Характеристика состояния сферы создания и использования информационных и телекоммуникационных технологий в Российской Федерации, прогноз ее развития и основные проблемы
  • I.) История возникновения и развития компьютерных вирусов
  • II Основные этапы и главные сражения Великой Отечественной войны (2 часа)

  • Обзор продуктов

    С возникновением письменности люди получили мощный инструмент для сохранения знаний и для коммуникации. Первые письмена, дошедшие до нас на стенах храмов и гробниц, повествуют о деяниях царей и полководцев, происшедших много веков назад. Кроме того, люди записывали результаты хозяйственной деятельности, для того чтобы успешно торговать, собирать налоги и т.д.

    Чтобы облегчить письменное общение между народами были созданы первые словари. Один из таких словарей был написан шумерскими жрецами на глиняных табличках. Каждая табличка была поделена на две равные части. С одной стороны записывалось шумерское слово, а с другой - аналогичное по значению слово на другом языке, иногда с кратким пояснением. С тех времен до наших дней структура словарей практически не изменилась.

    С появлением персонального компьютера стали создаваться электронные словари, облегчившие поиск нужного слова и предложившие множество новых полезных функций (озвучивание слова, поиск синонимов и т.д.).

    Технология машинного перевода постепенно совершенствовалась. И если качество и скорость перевода первых систем оставляли желать лучшего, то теперь компьютер действительно может связно переводить текст с одного языка на другой. А более современные системы с приемлемым качеством переводят 1 страницу текста за 1 секунду.

    Кому и зачем нужен машинный перевод

    В последнее время активно обсуждаются возможности и перспективы технологий машинного перевода (MП). В дискуссиях принимают участие как профессиональные переводчики, так и производители систем МП. Попробуем оценить возможности МП, опираясь на опыт применения реальных систем.

    Справедливости ради следует отметить, что в обозримом будущем машинная технология не сможет полностью заменить переводчика-человека. По качеству перевода программы МП не смогут состязаться с человеком. Однако с помощью подобных программ можно существенно повысить эффективность труда переводчика.

    Основываясь на формальном описании языков, программа анализирует текст на одном языке, а затем синтезирует фразу на другом. Алгоритмы анализа и синтеза, как правило, довольно сложны и управляются словарной информацией, приписанной лексическим единицам в словарях системы как для языка исходного текста, так и для языка его перевода.

    Где же находят применение системы МП? Во-первых, программы-переводчики могут быть использованы для быстрого перевода текста в целях понимания его смысла. Конечно, по качеству машинный перевод не может сравниться с переводом, сделанным человеком, но зато пользователь получает ответ «здесь и сейчас». Кроме того, с помощью систем МП можно читать информацию, размещенную на зарубежных сайтах, а также понять текст присланного письма, написанного на французском, немецком, японском или ином языке.

    Помимо этого системы МП могут быть использованы для решения задач профессионального перевода и значительно повысить эффективность работ. Сравним оба способа - традиционный и машинный. Традиционный перевод обычно включает несколько этапов: перевод, редакторская правка, верстка, корректура. При этом в целях ускорения перевод, как правило, выполняют несколько переводчиков. Вследствие этого возникает проблема единой терминологии и единого стиля перевода, что увеличивает затраты на редакторскую правку. Кроме того, значительные усилия приходится тратить на переверстку документа.

    Что дает применение систем МП и где оно наиболее целесообразно? Системы МП, используя для перевода общую словарную базу, в значительной степени минимизируют затраты на поддержание единой терминологии, а следовательно, на редакторскую правку. При этом технический редактор получает от системы МП перевод, выполненный в едином стиле. Таким образом, использование систем машинного перевода наиболее эффективно для организации технологического процесса по переводу больших массивов однотипных документов в сжатые сроки с обеспечением единства терминологии и стиля по всему массиву документов.

    Возможность применения системы МП определяется ее способностью адаптироваться к переводу документов различной тематики. Качество получаемого перевода в значительной степени зависит от настройки. Помимо общелексического словаря должны использоваться специализированные словари, отражающие как тематику перевода, так и специфику конкретных документов. Кроме того, качество переводов зависит от возможности создания переводчиком собственных пользовательских словарей, которые должны включать терминологию, характерную для данной документации, а также часто встречающиеся обороты/фразы/выражения (микросегменты), перевод которых не может быть формальным. Подобная настройка гарантирует качество, при котором применение МП становится эффективным для решения задач «промышленного» перевода.

    Для оценки эффективности использования систем МП компания ПРОМТ предоставила свою систему PROMT 2000 Translation Office центру переводов ЛОНИИС. Эксперимент показал, что использование МП позволяет сократить суммарное время выполнения проекта примерно в 2 раза.

    Следует отметить и ряд ограничений на использование систем МП. Не имеет смысла переводить с помощью программы-переводчика художественные тексты, пословицы и поговорки. Небольшие по объему тексты различной тематики также лучше переводить традиционным способом.

    PROMT Translation Office 2000

    PROMT Translation Office 2000 (далее - PROMT) ценой 300 долл. - это набор профессиональных инструментов, обеспечивающий перевод с основных европейских языков на русский и обратно. С его помощью можно не только переводить, но и редактировать перевод и работать со словарями всех языковых направлений одновременно.

    В PROMT входят следующие коллекции словарей:

    • «Легкая промышленность» (180 долл.);
    • «Тяжелая промышленность» (180 долл.);
    • «Коммерция» (99 долл.);
    • «Наука» (120 долл.);
    • «Техника» (199 долл.).

    Для обеспечения высокого качества перевода в системе PROMT предусмотрена возможность настройки на перевод конкретного текста - посредством подключения специализированных предметных словарей, поставляемых отдельно, а также создания собственных пользовательских словарей. Удобным средством настройки системы является также возможность выбора тематики документа: какие словари подключать, какие слова оставить без перевода и как обрабатывать специальные конструкции типа электронного адреса, даты и времени.

    Система PROMT включает следующие модули:

    • PROMT- профессиональная среда для перевода;
    • Dictionary Editor - средство для пополнения и редактирования словарей систем машинного перевода семейства PROMT;
    • PROMT Electronic Dictionary - электронный словарь, предоставляющий пользователю широкие возможности доступа к лексико-грамматической информации, собранной в специализированных словарях семейства PROMT. Может быть использован при любой работе с текстами (например, для быстрого получения информации о переводных эквивалентах данного слова или словосочетания);
    • WebView - браузер, позволяющий получить синхронный перевод HTML-страниц при навигации в Интернете. WebView содержит два окна для отображения HTML-страниц: верхнее отображает исходную страницу, полученную из Интернета, нижнее - ее перевод с сохранением ссылок, картинок, вставленных объектов и т.д. Осуществлять переход по ссылкам можно как в верхнем окне, содержащем исходный текст, так и в нижнем, содержащем перевод;
    • SmarTool - инструмент, реализующий функции перевода в приложениях Microsoft Office 97 (Word, Excel) и Microsoft Office 2000 (Word, Excel, PowerPoint, FrontPage, Outlook). Меню и инструментальная панель перевода встраиваются во все основные приложения Microsoft Office 2000 и Microsoft Office 97, что позволяет получить перевод открытого документа непосредственно в этих приложениях;
    • QTrans - программа, предназначенная для быстрого перевода неформатированного текста. С ее помощью можно легко и быстро перевести текст, текстовый файл или буфер обмена (Clipboard). Для улучшения качества перевода можно выбрать подходящую тематику, подключить специализированные словари и зарезервировать слова;
    • Clipboard Translator - программа, предназначенная для быстрого перевода текста, предварительно скопированного в буфер обмена. Текст может быть скопирован из любого Windows-приложения (Help, Notepad, Word, Word Perfect, PageMaker и др.);
    • «Интегратор» - средство доступа ко всем приложениям пакета.

    Перевод документа в системе PROMT

    Меткой отмечен текущий абзац исходного текста и перевод этого абзаца (текущим из них является тот, в котором в данный момент установлен курсор).

    Все документы, с которыми работает программа PROMT, появляются в окнах документов. Одновременно могут быть открыты несколько документов - каждый в своем окне (рис. 4 , ).

    Выполненный перевод можно уточнить, воспользовавшись электронными словарями, разработанными другими фирмами (если они, конечно, установлены на вашем компьютере). Могут быть использованы электронные словари:

    • Lingvo 6.0 (программа фирмы ABBYY);
    • «Контекст 3.0» (программа фирмы «Информатик»);
    • «МультиЛекс 1.0, 2.0, 3.0» (программа фирмы «МедиаЛингва»);
    • PROMT Electronic Dictionary 1.0 (программа фирмы ПРОМТ).

    При переводе система PROMT не использует электронные словари других производителей. Поэтому, если какого-либо слова нет в словарях системы PROMT или вас не устраивает перевод какого-либо слова или словосочетания, можно вызвать электронный словарь и воспользоваться им как справочным.

    Для перевода HTML-документов в комплект поставки входит браузер WebView.

    Последовательность действий при выполнении перевода

    1. Откройте файл с исходным текстом или создайте новый документ (новый текст можно набрать непосредственно в окне PROMT).
    2. Проверьте разбивку текста на абзацы (после перевода форматирование по абзацам сохранится).
    3. Проверьте орфографию и отредактируйте исходный текст, если это необходимо.
    4. Выберите шаблон тематики, подходящий для перевода данного текста (шаблон тематики для данного направления перевода - это набор словарей и список зарезервированных слов; он устанавливается для повышения качества перевода).
    5. Уточните тематику документа, настроив ее компоненты:
      • подключите словари, которые будут использоваться при переводе текста. Если не подключен ни один словарь, при переводе будет использоваться только общелексический генеральный словарь;
      • зарезервируйте слова, которые в тексте перевода должны оставаться на языке исходного текста;
      • подключите препроцессор, если хотите отменить перевод некоторых конструкций, например адресов электронной почты, имен файлов, а также выбрать форму представления даты и времени в тексте перевода;
      • отметьте абзацы, не требующие перевода.
    6. Переведите текст (сразу весь документ или по абзацам).
    7. Введите незнакомые слова в свой пользовательский словарь, если хотите, чтобы они в дальнейшем переводились.
    8. Воспользуйтесь электронным словарем для уточнения значений слов.
    9. Сохраните результаты перевода.

    Системные требования

    • IBM PC-совместимый компьютер с процессором P166 или выше;
    • 32 Мбайт оперативной памяти;
    • примерно 160 Мбайт на жестком диске (для системы со всеми компонентами);
    • видеоадаптер SVGA или лучшего разрешения;
    • устройство для чтения компакт-дисков CD-ROM (для инсталляции);
    • мышь или совместимое устройство;
    • ОС: Windows 98 (русская версия или панъевропейская с поддержкой русского языка и русскими региональными установками), или Windows NT 4.0 SP3 (или выше) с поддержкой русского языка и русскими региональными установками, или Windows 2000 Professional (с поддержкой русского языка и русскими региональными установками);
    • Microsoft Internet Explorer 5.x (входит в поставку).
    • IBM PC-совместимый компьютер с процессором PII-300 или выше;
    • 64 Мбайт оперативной памяти

    Перевод документа в системе «Сократ Персональный»

    Вид главного окна программы показан на рис. 6 .

    При первом запуске основное окно программы по умолчанию открывается на закладке «Переводчик». Перевод текста, набранного в окне программы: набрав текст в верхнем окне закладки «Переводчик» и нажав кнопку кнопку «Перевести» на панели инструментов или в меню «Перевод», в нижнем окне закладки вы получите перевод текста.

    Для того чтобы воспользоваться словарем (рис. 7), достаточно щелкнуть мышью на соответствующей закладке. Кроме того, окно словаря может быть вызвано при помощи горячих клавиш.

    С помощью словаря вы можете получить перевод искомого слова следующими способами:

    • набрать слово в поле ввода, расположенном в верхнем правом окне словаря. Перемещение по словарной базе осуществляется по мере ввода букв, до тех пор пока не будет получено максимально возможное совпадение;
    • вставить слово в поле ввода из буфера обмена. В этом случае будет осуществлен быстрый переход к слову, максимально совпадающему с введенным;
    • выбрать ранее переведенное слово из окна истории поля ввода, после чего будет осуществлен быстрый переход к тому слову, которое имеет максимально возможное совпадение с введенным;
    • выделить слово в другом приложении и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Во всплывающем окне появится перевод выделенного слова;
    • использовать сочетание горячих клавиш, предварительно поместив необходимое слово в буфер обмена.

    Перевод слов или текста из других приложений

    В системе «Сократ Персональный 4.0» предусмотрена возможность работы с переводчиком и словарем в других приложениях без выхода из них. Перевод осуществляется во всплывающем окне.

    Для того чтобы получить перевод текста из другого приложения (например, текстового редактора), необходимо выделить подлежащий переводу текст и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появится всплывающее окно, содержащее перевод выделенного фрагмента.

    Для того чтобы получить перевод слова из другого приложения, необходимо выделить интересующее вас слово и, удерживая клавишу Shift, щелкнуть по выделению правой кнопкой мыши. Появившееся всплывающее окно будет содержать перевод выделенного слова.

    При необходимости из этого окна можно перейти непосредственно на закладку «Словарь», воспользовавшись гиперссылкой всплывающего окна.

    Системные требования

    Минимальная конфигурация компьютера:

    • IBM PC-совместимый компьютер с процессором Pentium 90 или выше;
    • Операционная система Windows 98/Me или Windows NT/2000;
    • 32 Мбайт оперативной памяти;
    • 16 Мбайт свободного места на жестком диске.

    Результаты тестирования PROMT Translation Office 2000 и «Сократ Персональный 4.0»

    Для сравнения качества и скорости перевода двух систем были выбраны несколько фрагментов текстов на русском и английском языках: отдельные фразы, новости от компаний, отрывки из Библии, «законы Мерфи», технический, медицинский, юридический тексты. Оценки выставлялись по 10-балльной шкале. После этого было проведено сравнение результатов перевода с английского языка на русский и наоборот (табл. 1).

    Следует отметить, что PROMT Translation Office 2000 и «Сократ Персональный 4.0» - продукты, предназначенные для решения разных задач. PROMT Translation Office 2000 - это профессиональная система МП, с помощью которой гораздо эффективнее переводить большие объемы информации. Кроме того, в системе PROMT грамотно реализованы грамматические правила того или иного языка. Поэтому качество перевода весьма высокое. Недостатками системы PROMT являются высокие требования к аппаратным ресурсам и значительное время перевода при подключении нескольких дополнительных словарей.

    «Сократ Персональный 4.0» - это система автоматического перевода, которая помогает быстро и легко получить перевод непонятной фразы или термина. Ее основное назначение - быть всегда под рукой.

    Перевести с помощью «Сократ Персональный 4.0» короткое письмо или фразу из текста гораздо проще и быстрее, чем с помощью системы PROMT. Однако для перевода большого объема текста целесообразно воспользоваться PROMT Translation Office 2000.

    Lingvo 7.0

    Lingvo 7.0 - это мощный профессиональный словарь, очень удобный для пользователя. Нажмите горячую клавишу в любом Windows-приложении - и на экране появится самый полный перевод слова из всех словарей, подключенных к системе. Грамматические комментарии на любое слово, озвучивание наиболее важных слов, проверка правильности написания, возможность создания собственных словарей - всё это предлагает ABBYY Lingvo 7.0 (рис. 9). Lingvo 7.0 содержит более 1,2 млн. слов и словосочетаний в 18 общих и специализированных словарях.

    При запуске Lingvo на экране появляется главное окно (рис. 10). В строке ввода пользователь может набрать нужное слово. По мере набора программа будет искать наиболее подходящее слово. Нажав клавишу ввода или пиктограммку «Перевести текст», пользователь увидит окно карточки, в которой находится словарная статья выбранного (найденного при поиске) слова (рис. 11).

    Если вы читаете справочный раздел какой-либо программы, работаете с текстовым редактором, браузером или любым другим Windows-приложением, выделите слово или несколько слов в тексте и нажмите клавиши Ctrl+Ins+Ins. Или просто перетащите (drag-and-drop) слово в строку ввода. При этом активизируется главное окно Lingvo и откроется карточка с переводом выделенного слова. Если таких карточек много, появится окно «Перевод», содержащее слова и словосочетания из запроса.

    Для того чтобы вставить перевод в редактируемый текст, выделите перевод в карточке и нажмите Ctrl+Ins. Переключитесь на окно текстового редактора и проделайте операцию «Вставить». Также можно перетащить перевод на окно вашего текстового редактора.

    При переводе с английского языка на русский не всегда очевидно, имеем мы дело со словами, которые можно переводить независимо, или со словосочетанием, которое переводится как целое. В решении этой проблемы помогает функция «Перевести текст из строки», позволяющая найти в переводимом фрагменте устойчивые словосочетания, для которых есть отдельные словарные статьи. Оставшиеся непереведенными фрагменты можно попытаться отыскать в примерах с помощью функции полнотекстового поиска, устанавливая нужные опции (и/или, с учетом порядка или без учета и т.д.)

    При переводе с русского языка на английский выделение сочетаний и грамматических конструкций не представляет труда, и если данных сочетаний нет в словаре, можно сразу же обратиться к функции полнотекстового поиска. Результаты поиска позволяют оценить, как переводится интересующее вас выражение в реальных примерах.

    Основные особенности Lingvo:

    • перевод 1,2 млн. слов и словосочетаний;
    • 18 общих и специализированных словарей (2 медицинских и 2 юридических словаря в Lingvo 7.0 - новые);
    • современная лексика;
    • вызов словаря из любого Windows-приложения;
    • совершенная система поиска;
    • 5 тыс. английских слов озвучено диктором из Оксфорда;
    • возможность создания собственных пользовательских словарей;
    • 23 бесплатных пользовательских словаря на http://www.lingvo.ru/ ;
    • подробные толкования и объяснения употребления слов;
    • современные лингвистические технологии;
    • новые дополненные версии общих и специализированных словарей.

    Системные требования

    Минимальная конфигурация компьютера:

    • IBM PC-совместимый компьютер с процессором Pentium 133 или выше;
    • операционная система Windows 95/98/Mе, Windows 2000/Windows NT 4.0 (SP3 или выше);
    • 16 Mбайт оперативной памяти для Windows 95/98/Mе, 32 Mбайт оперативной памяти для Windows 2000/Windows NT 4.0;
    • от 85 до 265 Мбайт свободного пространства на жестком диске;
    • дисковод 3.5” и CD-ROM-устройство, мышь;
    • Microsoft Internet Explorer 5.0 и выше (дистрибутив ABBYY Lingvo 7.0 включает в себя Microsoft Internet Explorer 5.5 - при его установке потребуется дополнительно от 27 до 80 Мбайт);
    • звуковая плата, совместимая с операционной системой; наушники или колонки (рекомендуется).

    Контекст 4.0

    «Контекст 4.0» - это система электронных словарей, включающая в себя развитую программную оболочку и обширный набор словарей - как общей лексики, так и специализированных. Уникальное свойство «Контекста» - учет морфологии поддерживаемых языков. Благодаря этому «Контекст» переводит слова и словосочетания в любой грамматической форме. Наиболее полно в «Контексте» представлены англо-русские и русско-английские словари. Библиотека «Контекста» новой версии расширена англо-французским, англо-немецким, англо-испанским, англо-итальянским, англо-португальским, англо-сербским и англо-хорватским словарями.

    Словари «Контекста» являются двусторонними. Программа осуществляет перевод с одного языка на другой и обратно без какой-либо специальной настройки. Поиск перевода может быть осуществлен как по всем словарям, входящим в комплект, так и по конкретному словарю. При этом набор активных (участвующих в поиске) словарей, а также порядок поиска по ним можно легко изменять.

    Работать с «Контекстом» можно набирая в специальное поле ввода интересующее пользователя слово или словосочетание (рис. 12).

    Удобно работать с «Контекстом» и из приложений Windows. Перевод осуществляется методом drag-and-drop или через буфер обмена. В настройках можно указать горячую клавишу или включить опцию запуска перевода при помещении текста в буфер обмена.

    Для пользователей, работающих в редакторе MS Word, реализована возможность вызова «Контекста» из самого редактора. Для этого следует нажать на иконку «Контекста», находящуюся на панели инструментов MS Word, причем пользователю не нужно выделять слово или словосочетание в тексте. «Контекст» переведет слово, на котором стоит курсор и заодно проверит несколько слов справа и слева, не входят ли они в состав словосочетания.

    «Контекст» комплектуется словарями по заказу пользователя. Если пользователь купил оболочку и некоторые словари, он может докупить любые другие понадобившиеся ему словари.

    4-я версия «Контекста» обладает рядом интересных возможностей, которых не было в предыдущих версиях. Например, словарь осуществляет поиск в частичных словосочетаниях. При этом все словосочетания, коэффициент релевантности которых по отношению к строке поиска больше заданного порогового значения, выдаются в окно перевода (рис. 13 , ).

    Появилась новая функция быстрого набора (Fast Typing). При вводе слова пользователь получает подсказки близких слов из текущего словаря с учетом уже введенных символов (рис. 15). Далее пользователь может выбрать из списка или продолжить набор самостоятельно.

    Для совместной работы словарей на разных языках наряду с автоматическим определением добавлена функция выбора языка (рис. 16).

    В новой версии появилась возможность добавления и редактирования словарных статей, что делает работу системы словарей более гибкой. В предыдущей версии «Контекста» была реализована возможность работы со словарем пользователя. Новая версия программы «Контекст» позволяет заводить несколько словарей и редактировать их. Словари пользователя и стандартные словари, и словари пользователя являются равноправными в системе словарей «Контекста». Формат статьи словаря пользователя приближен к формату стандартного словаря, то есть к обычному книжному формату. В статью могут входить как слова и выражения, так и примеры использования слов в составе устойчивых выражений и толкования (

    МультиЛекс 3.5

    «МультиЛекс 3.5» - это электронный словарь, в состав которого входят электронные версии известных печатных словарей. В оболочке «МультиЛекс 3.5 Английский» выпускаются самые разные англо-русские и русско-английские словари (Новый англо-русский словарь В.К. Мюллера, англо-русский/русско-английский словарь О.С.Ахмановой, русско-английский словарь под ред. А.И.Смирницкого). Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций.

    «МультиЛекс 3.5 Английский» позволяет пользователю постепенно подобрать для себя оптимальный набор словарей, которые и будут работать вместе.

    Особенности словаря «МультиЛекс»:

    • удобство и простота в использовании;
    • озвучивание большого количества словарных статей;
    • быстрый доступ к важным статьям: при помощи закладок можно отметить важные для вас словарные статьи, а затем обращаться к ним напрямую;
    • функция «быстрого набора» - при наборе слова возникает список похожих слов, из которых пользователь может выбрать слово для перевода, не набирая его целиком;
    • перевод слова или фразы и перенос результатов перевода в Windows-приложение через буфер обмена или drag-and-drop;
    • ввод примечаний: при коллективной работе важно соблюдать единство терминологии. Здесь придет на помощь механизм примечаний - к любой словарной статье вы можете написать свои примечания;
    • словарь пользователя.

    Окно «МультиЛекс» содержит рамку окна, строку меню, под которой расположены панель словарей, панель инструментов и строка поиска. Под строкой поиска находится собственно рабочая область окна «МультиЛекса» .

    Рабочая область по вертикали разделена на две части: панель заголовков статей (левая) и панель текста словарной статьи (правая). Границу между панелями можно передвигать вправо-влево.

    Левая панель содержит список заголовков статей того словаря, который показывается в панели словарей при помощи пиктограммы в виде открытой книги (используется для просмотра заголовков словарных статей). Правая панель всегда показывает словарную статью, соответствующую заголовку, выделенному в правой панели. Словарная статья начинается с заголовка, за которым следует его транскрипция. Далее указывается часть речи, даются возможные переводы, пояснения, примеры.

    Панель словарей позволяет выбрать нужный словарь. Каждому словарю соответствует своя пиктограмма, принимающая три различных состояния: закрытая книга, полуоткрытая книга или открытая книга. Форма значков показывает, какой из словарей сейчас открыт и в каких словарях в результате последнего поиска было что-либо найдено.

    Если значок словаря изображает открытую книгу (блокнот) - данный словарь сейчас открыт, полуоткрытую книгу (блокнот) - данный словарь сейчас не открыт, но в нем содержится информация, соответствующая вашему запросу, а если пиктограмма изображает закрытую книгу (блокнот) - данный словарь закрыт и нужной вам информации в нем нет.

    В июле 2001 года вышла новая версия словаря «МультиЛекс 3.5 Английский Популярный» (англо-русский, русско-английский словарь общей лексики под редакцией О.С. Ахмановой и Е.А.М.Уилсон). Он содержит более 40 тыс. словарных статей.

    Версия 3.5 обладает рядом достоинств, которые вы не найдете в предыдущей версии:

    • возможность доустановки словарей. Купив любой английский словарь (версии не ниже 3.5), вы сможете легко встроить его в ваш «МультиЛекс». Планируется выпуск технической, медико-биологической, экономико-юридической и других коллекций;
    • всплывающий перевод. В «МультиЛекс 3.5» предусмотрена поддержка перевода по горячим клавишам из любого приложения, поддерживающего Clipboard. Для этого просто выделите слово, нажмите соответствующую функциональную клавишу (по умолчанию F10) - и на экране появится окно с переводом. Перевод в окне является гиперссылкой. Если необходима более полная информация по интересующему вас слову, нажатием на левую кнопку мыши вызовите «МультиЛекс» с уже готовыми вариантами перевода запрашиваемого слова. Окно всплывающего перевода можно установить поверх всех окон, выбрав соответствующий пункт в контекстном меню, которое становится доступным при нажатии на правую кнопку мыши по иконке «МультиЛекс» (в правом нижнем углу экрана). Подобную же функцию выполняет кнопка в левой части окна «всплывающего перевода». С помощью этой кнопки вы можете «прикрепить» полученный перевод в любом месте своего экрана;
    • звуковая плата, совместимая с операционной системой, наушники или колонки (рекомендуется).

    Резюме

    В заключение несколько слов о личном опыте использования систем машинного перевода и словарями.

    Три года назад я использовал систему машинного перевода для подготовки отчета западному работодателю. Несколько человек, которые занимались офшорным программированием, писали программу навигационного приемника. К сожалению, мало кто из группы владел английским настолько, чтобы описать результаты своей работы на языке заказчика. В связи с этим возникла необходимость перевода отчетов, составленных на русском языке. Именно тогда мне в голову пришла идея опробовать систему машинного перевода Stylus (первые версии систем компании ПРОМТ назывались именно так). Эта попытка оказалась очень удачной: я перевел 140-страничный документ раза в три быстрее, чем планировал. Конечно, перевод, выполненный программой, был не идеален. Мне пришлось много и долго его редактировать. Но выигрыш налицо.

    С того времени при переводе текстов объемом более 10 страниц я всегда пользуюсь системами машинного перевода.

    Эту историю я рассказал своему другу-предпринимателю. Тогда он начинал торговать обувью и налаживал связи с немецкими поставщиками. Он также купил подобную систему и до сих пор успешно переписывается с немцами по электронной почте (ни английского, ни немецкого он не знает). Написав письмо по-русски, он переводит его на немецкий и отсылает, а полученный ответ переводит на русский. И все довольны. В итоге мой друг на днях открывает уже пятый обувной магазин в Москве.

    С электронными словарями я ознакомился еще раньше, когда у меня возникла необходимость читать зарубежные книги и журналы по техническим дисциплинам со специфической лексикой. Технические электронные словари, словари по телекоммуникациям и информатике позволили мне сохранить много времени и сил. Спасибо Lingvo!

    Надеемся, что мой рассказ о новых системах машинного перевода и словарях поможет вам эффективно организовать свою работу и в конечном итоге добиться успеха.

    Редакция благодарит за помощь в подготовке статьи: Александра Андреева, компания ПРОМТ; Андрея Соколова, компания «Информатика»; Анастасию Савину, компания ABBYY; Константина Конина и Наталью Талпы, компания «МедиаЛингва»; Алексея Буханова, компания «Арсеналъ».

    КомпьютерПресс 9"2001



    Материал подготовил А. А. Тараскин


    Осуществление перевода компьютером – сложная, но интересная научная задача. Основная ее сложность состоит в том, что естественные языки плохо поддаются формализации. Отсюда и невысокое качество получаемого с помощью систем МП текста, содержание и форма которого служит неизменным объектом шуток. Однако идея машинного перевода уходит корнями далеко в прошлое. Впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж, разработавший в 1836-1848 гг. проект цифровой аналитической машины. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить.

    А через 100 лет, в 1947 году, У. Уивер (директор отделения естественных наук Рокфеллеровского фонда) написал письмо Норберту Винеру. В этом письме он предлагал использовать технику дешифрования для перевода текстов. Этот год считается годом рождения машинного перевода. В этом же году был разработан алгоритм осуществления пословного перевода, а в 1948 году Р. Риченс предложил правило разбиения слова на основу и окончание. В последующие два десятилетия системы машинного перевода бурно развивались. В январе 1954 года на машине IBM – 701 была продемонстрирована первая система машинного перевода IBM Mark II. Но в 1967 году специально созданная Комиссия Национальной Академии Наук США признала машинный перевод нерентабельным, что существенно затормозило исследования в этой области. Новый подъем машинный перевод переживает в 70-е годы, а в 80-е становится экономически выгодным за счет сравнительной дешевизны машинного времени.

    Однако в СССР исследования в области машинного перевода продолжались. После демонстрации системы IBM Mark II группа ученых ВИНИТИ начала разработку системы машинного перевода для машины БЭСМ. Первый образец перевода с английского на русский язык был получен к концу 1955 года.

    Другое направление работ возникло в Отделении прикладной математики Математического института АН СССР (ныне ИПМ им. М. В. Келдыша РАН) по инициативе А. А. Ляпунова. Первые программы машинного перевода, разработанные этим коллективом, были реализованы на машине "Стрела". Благодаря работе над созданием систем МП оформилось такое направление, как прикладная лингвистика.

    В 70-е годы над созданием систем МП трудилась группа разработчиков ВИНИТИ РАН под руководством проф. Г.Г. Белоногова. Первая их система МП была разработана в 1993 году, а в 1996 году после ряда доработок была зарегистрирована в РОСАПО под названием Retrans. Эта система использовалась министерствами обороны, путей сообщения, науки и технологии.

    Параллельные исследования велись в лаборатории Инженерной Лингвистики ЛГПИ им. А. И. Герцена (ныне Педагогический Университет). Именно они и легли в основу наиболее популярной сейчас системы МП “PROMT”. Последние версии этого программного продукта используют наукоемкие технологии и построены на основе технологии расширенных сетей переходов и формализма нейронных сетей.

    Классификация систем машинного перевода по Лари Чайлду

    Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

    Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

    Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

    Полностью автоматический перевод;

    Автоматизированный машинный перевод при участии человека;

    Перевод, осуществляемый человеком с использованием компьютера.

    Полностью автоматизированный машинный перевод

    Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

    Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

    Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

    Автоматизированный машинный перевод при участии человека.

    Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

    Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

    Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

    Перевод, осуществляемый человеком с использованием компьютера

    При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

    Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

    Вот список наиболее известных систем ТМ:

    Transit швейцарской фирмы Star,

    Trados (США),

    Translation Manager от IBM,

    Eurolang Optimizer французской фирмы LANT,

    DejaVu от ATRIL (США),

    WordFisher (Венгрия).

    Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

    В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

    Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

    Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

    Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

    Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

    Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

    Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

    Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

    Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

    Системы машинного перевода (МП)

    В соответствии с указанной выше классификацией, целью данной работы является исследование и анализ систем МП второй группы, поскольку систем МП первой группы еще не существует в природе, а системы третьей группы в сущности не являются системами МП, а более напоминают электронные словари.

    Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода.

    Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными.

    Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода:

    1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы.

    2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте и пр.), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

    3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число).

    4. Синтез выходных словоформ и предложения в целом на выходном языке.

    В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

    В настоящее время существует две концепции развития систем МП:

    1. Модель «большого словаря со сложной структурой», которая заложена в большинство современных программ-переводчиков;

    2. Модель «смысл-текст», впервые сформулированная А.А. Ляпуновым, но пока что не реализована ни в одном коммерческом продукте.

    На сегодняшний день наиболее известны такие системы машинного перевода, как

    PROMT 2000/XT компании PROMT;

    Retrans Vista компаний Vista и Advantis;

    Сократ – набор программ компании Арсеналъ.

    В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку:

    Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы (продукты серии PROMT XT предоставляют пользователю множество возможностей для этого), что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати.

    Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать.

    Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании.

    Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

    Система МП Retrans Vista

    Системы машинного перевода текстов с одних естественных языков на другие моделируют работу человека-переводчика. Их эффективность зависит, прежде всего, от того, в какой степени в них учитываются объективные законы функционирования языка и мышления. К сожалению, эти законы пока еще недостаточно изучены. Решая проблему машинного перевода, необходимо учитывать богатый опыт межнационального общения и опыт переводческой деятельности, накопленный человечеством. А этот опыт свидетельствует о том, что в процессе перевода в качестве основных единиц смысла рассматриваются, прежде всего, фразеологические словосочетания, выражающие целостные понятия, а не отдельные слова. Именно понятия являются теми элементарными мыслительными образами, используя которые можно строить более сложные мыслительные образы, соответствующие переводимому тексту.

    Условимся называть системы машинного перевода, в которых в качестве основных минимальных единиц смысла рассматриваются не отдельные слова, а фразеологические словосочетания, системами фразеологического машинного перевода. В этих системах отдельные слова также могут использоваться, но они рассматриваются как вспомогательные единицы смысла, к которым приходится прибегать за неимением лучших.

    Система фразеологического машинного перевода должна включать в свой состав базу знаний, содержащую переводные эквиваленты для наиболее часто встречающихся фраз, фразеологических сочетаний и отдельных слов, и программные средства для морфологического и синтаксического анализа и синтеза текстов и для их редактирования человеком. В процессе перевода текстов система использует хранящиеся в ее базе знаний переводные эквиваленты в следующем порядке: сначала делается попытка перевести всю фразу как целостную единицу; далее, в случае неудачи, входящие в ее состав словосочетания; и, наконец, осуществляется пословный перевод тех фрагментов текста, которые не удалось перевести первыми двумя способами. Фрагменты выходного текста, полученные всеми тремя способами, должны грамматически согласовываться друг с другом (с помощью процедур морфологического и синтаксического синтеза).

    Принципы построения систем фразеологического машинного перевода текстов были впервые сформулированы в 1975 году в предисловии к книге Д. Жукова "Мы переводчики". В более полном виде они были изложены в 1983 году в книге Г. Г. Белоногова и Б. А. Кузнецова "Языковые средства автоматизированных информационных систем". Наконец, в 1993 году были опубликованы две статьи, в которых были описаны система машинного перевода, построенная на этих принципах, и методы автоматизированного составления двуязычных словарей по параллельным (русских и английским) текстам. Важнейшими среди этих принципов являются следующие:

    1. Основными единицами языка и речи, которые, прежде всего, следует включать в машинный словарь, должны быть фразеологические единицы (словосочетания, фразы). Отдельные слова также могут включаться в словарь, но они должны использоваться только в тех случаях, когда не удается осуществить перевод, опираясь только на фразеологические единицы.

    2. Наряду с фразеологическими единицами, состоящими из непрерывных последовательностей слов, в системах машинного перевода следует использовать и так называемые "речевые модели" - фразеологические единицы с "пустыми местами", которые могут заполняться различными словами и словосочетаниями, порождая осмысленные отрезки речи.

    3. Реальные тексты, независимо от их принадлежности к той или иной тематической области, обычно бывают политематическими, если они имеют достаточно большой объем. Поэтому машинный словарь, предназначенный для перевода текстов даже только из одной тематической области, должен быть политематическим, а для перевода текстов из различных предметных областей - тем более. Он должен создаваться, прежде всего, на основе автоматизированной обработки двуязычных текстов, являющихся переводами друг друга, и в процессе функционирования систем перевода.

    4. Наряду с основным политематическим словарем большого объема, в системах фразеологического машинного перевода целесообразно использовать также набор небольших по объему дополнительных тематических словарей. Дополнительные словари должны содержать только ту информацию, которая отсутствует в основном словаре (например, информацию о приоритетных переводных эквивалентах словосочетаний и слов для различных предметных областей).

    На основе описанных принципов в ВИНИТИ РАН (см. выше) были построены две системы фразеологического машинного перевода:

    1) система русско-английского перевода (RETRANS)

    2) система англо-русского перевода (ERTRANS).

    Обе системы имеют одинаковую структуру и примерно одинаковые объемы машинных словарей. Поэтому мы рассмотрим только первую систему.

    Система RETRANS имеет следующие характеристики:

    1. Область применения, назначение, функциональные возможности. Система предназначена для автоматизированного перевода научно-технических текстов с русского языка на английский. Русско-английский политематический машинный словарь системы содержит терминологию по естественным и техническим наукам, экономике, бизнесу, политике, законодательству и военному делу. В частности, он содержит термины и фразеологические единицы по следующим тематическим областям: Машиностроение, Электротехника, Энергетика, Транспорт, Аэронавтика. Космонавтика, Робототехника, Автоматика и Радиоэлектроника, Вычислительная Техника, Связь, Математика, Физика, Химия, Биология, Медицина, Экология, Сельское Хозяйство, Строительство и Архитектура, Астрономия, География, Геология, Геофизика, Горное Дело, Металлургия и др.

    Перевод текстов может осуществляться в автоматическом и в диалоговом режимах.

    2. Объем политематического машинного словаря: более 1.300.000 словарных статей; 77 процентов из них составляют словосочетания длиной от двух до семнадцати слов. Объем дополнительных машинных словарей (для настройки системы на различные тематические области) - более 200.000 словарных статей.

    Система МП PROMT XT

    В основу программных продуктов компании PROMT поставлено решение следующих фундаментальных проблем:

    Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема - проблема создания больших словарей для систем.

    Во-вторых, ясно, что система должна переводить такие предложения: ПРИВЕТ, КАК ДЕЛА? Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

    В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

    Самое интересное, что эти проблемы действительно являются основными при разработке систем машинного перевода, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

    Методы организации больших баз данных достаточно хорошо разработаны, но для перевода не менее, а может быть, и более важно правильно структурировать информацию, которая приписывается элементу базы, правильно выбрать этот самый элемент. Сколько, например, записей в словаре должно соответствовать обыкновенному русскому слову "программа"? И, вообще, большой словарь - это словарь, который содержит много словарных статей, или словарь, который позволяет распознать много слов из текста? Очевидно, более верно второе. Поэтому для описания и входного, и выходного языка в системе должен существовать некоторый формальный метод описания морфологии, на котором основывается выбор единицы словаря.

    Практически во всех системах, которые претендуют на то, чтобы считаться системами перевода, проблема представления морфологических моделей так или иначе решается. Но одни системы могут распознать миллион словоформ при объеме словаря в пятьдесят тысяч словарных статей, а другие при объеме словаря в сто тысяч словарных статей могут распознать именно эти сто тысяч.

    В системах семейства PROMT разработано практически уникальное по полноте морфологическое описание для всех языков, с которыми системы умеют обращаться. Оно содержит 800 типов словоизменений для русского языка, более 300 типов, как для немецкого, так и для французского языка, и даже для английского, который не принадлежит к флективным языкам, выделено более 250 типов словоизменений. Множество окончаний для каждого языка хранится в виде древесных структур, что обеспечивает не только эффективный способ хранения, но и эффективный алгоритм морфологического анализа.

    Кроме того, используемая модель морфологии позволила разработать экспертную систему для пользователя - создателя словаря. Эта система фактически автоматизирует процедуру выделения основы и определения типа словоизменения при вводе новых словарных статей.

    Такой возможности нет ни в одной из существующих систем машинного перевода, даже в таких распространенных системах как Power Translator (Globalink, США), Language Assistant (MicroTac, США), TRANSEND (Intergaph,США), где пользователям приходится вручную спрягать и склонять слова для задания морфологической модели.

    Однако разработка описания морфологии позволяет решить только проблему того, что является заголовком словарной статьи, по которому происходит идентификация единицы текста и единицы словаря. Но ведь идентификация слова из текста со словарной статьей происходит не ради идентификации, как это требуется в спеллерах или электронных словарях, она необходима для выполнения программой собственно процедур перевода. Какая же нужна информация в словарной статье и как должны быть описаны правила перевода для того, чтобы программа переводила?

    Во многих системах МП в прошлом (как, впрочем, и сейчас) словарное описание и описание алгоритмов рассматривались как стороны одной проблемы, но решение, как правило, искалось в ограничении рассматриваемого мира, либо грамматического, либо семантического. Например, на основе признака "принадлежность к части речи" описывалась грамматика такого типа:

    именная группа - это существительное

    именная группа - это прилагательное + именная группа

    глагольная группа - это глагол + именная группа

    предложение - это именная группа + глагольная группа

    Понятно, что некоторая часть предложений естественного языка описывается такой грамматикой, но эта часть очень незначительна, и на ее основе нельзя правильно анализировать и переводить хоть сколько-нибудь реальный текст. Но зато можно использовать эффективные методы построения преобразователя по заданной грамматике или, на худой конец, написать программу, которая путем перебора построит древа зависимостей для ограниченного множества предложений. Такие системы точно так же получали определения "экспериментальные".

    Так или иначе, но именно из таких проектов появились системы перевода, которые сейчас предлагаются конечному пользователю. Это и Power Translator (компания Globalink) и Language Assistant (компания MicroTac) и TRANSEND (компания Intergraph).

    Системы семейств STYLUS и PROMT - не исключение, поскольку многие специалисты компании PROMT имели опыт работы в такого типа проектах. Однако при разработке систем PROMT впервые был применен фактически революционный подход, который и позволил получить впечатляющие результаты. Системы перевода семейства PROMT - это системы, спроектированные на основе не лингвистических, а кибернетических методов.

    Оказалось, что очень продуктивно рассматривать систему перевода не как транслятор, задачей которого является перевод текста, допустимого с точки зрения входной грамматики, а как некоторую сложную систему, задачей которой является получение результата при произвольных входных данных, в том числе и для текстов, которые не являются правильными для грамматики, с которой работает система.

    Вместо принятого лингвистического подхода, предполагающего выделение последовательных процессов анализа и синтеза предложения, в основу архитектуры систем было положено представление процесса перевода как процесса с "объектно-ориентированной" организацией, основанной на иерархии обрабатываемых компонентов предложения. Это позволило сделать системы PROMT устойчивыми и открытыми.

    Кроме того, такой подход дал возможность применения различных формализмов для описания перевода разных уровней. В системах работают и сетевые грамматики, близкие по типу к расширенным сетям переходов, и процедурные алгоритмы заполнения и трансформаций фреймовых структур для анализа сложных предикатов.

    Описание лексической единицы в словарной статье, которое фактически не ограничено по размерам и может содержать множество различных признаков, тесно взаимосвязано со структурой алгоритмов системы и структурировано не на основе извечной антитезы синтаксис - семантика, а на основе уровней компонентов текста.

    При этом системы могут работать и с не полностью описанными словарными статьями, что является важным моментом при открытии словарей для пользователя, от которого нельзя требовать тонкого обращения с лингвистическим материалом.

    Первая система машинного перевода, выпущенная компанией PROMT в 1991 году, переводила с английского языка на русский специализированные тексты по программному обеспечению. Она использовала небольшой словарь - около 17 тыс. слов и выражений, работала в среде ДОС и не имела средств настройки для пользователя. Но уже эта первая система была правильно устроена, и нынешняя технология разработки алгоритмов машинного перевода, применяемая в компании PROMT, не претерпела значительных изменений. Напротив, найденный тогда подход оказался очень плодотворным для самых разных языков.

    Сначала поясним некоторые определения: вместе с развитием машинного перевода как области прикладной лингвистики появились и классификации систем, и стало принято делить системы перевода на системы типа TRANSFER и системы типа INTERLINGUA. Это разделение основано на особенностях архитектурных решений для лингвистических алгоритмов.

    Алгоритмы перевода для систем типа TRANSFER строятся как композиция трех процессов: анализ входного предложения в терминах структур входного языка, преобразование этой структуры в аналогичную структуру выходного языка (TRANSFER) и затем синтез выходного предложения по полученной структуре.

    Системы типа INTERLINGUA предполагают априори наличие некоторого метаязыка структур (INTERLINGUA), на котором можно описать все структуры как входного, так и выходного языков в общем случае; поэтому алгоритм перевода в системе типа INTERLINGUA предполагается как более простой: анализ входного предложения в терминах метаязыка и затем синтез из метаструктуры соответствующего предложения выходного языка. "Единственная" сложность в этом случае - разработать сам метаязык и описать естественный язык в соответствующих терминах.

    Несмотря на то, что эта классификация существует, и в среде разработчиков машинного перевода считается хорошим тоном спросить, к какому типу относится система PROMT, не было разработано еще не одной реальной системы, основанной на принципе INTERLINGUA.

    Система PROMT не является исключением, и на этот вопрос мы отвечаем: наша система выполняет перевод типа TRANSFER. Но это очень простой ответ, он практически не отражает особенностей архитектуры системы PROMT. А особенности состоят в том, что этот метод (TRANSFER) применен в системе не в соответствии с лингвистическим стандартным подходом.

    Дело в том, что система перевода, как правило, работает в условиях не полностью описанных данных, ведь в язык - это живая система, которая развивается очень быстро: постоянно появляются новые слова, новые функции старых слов, и, вместе с новыми сущностями, новые значения. В этих условиях определяющим структурным свойством алгоритмов перевода становится их устойчивость к произвольным входным данным, и в основу алгоритмов, выполняющих перевод в системе PROMT, вместо последовательного TRANSFER"а был заложен иерархический подход, разделяющий процесс перевода на взаимосвязанные TRANSFER"ы для разных единиц анализа.

    В системе выделяется уровень лексических единиц, уровень групп, уровень простых предложений и уровень сложных предложений. Все эти процессы связаны и взаимодействуют иерархически в соответствии с иерархией текстовых единиц, обмениваясь синтезируемыми и наследуемыми признаками. Такое устройство алгоритмов позволяет использовать разные формальные методы для описания алгоритмов разных уровней.

    Рассмотрим уровень лексических единиц: лексическая единица - это слово или словосочетание, которое является единицей самого низкого уровня. И в случае входного, и в случае выходного языка слово описывается как совокупность основы и окончания. Это обеспечивает возможность, с одной стороны, распознавания входных слов и анализа входной морфологии и, с другой стороны, удобного синтеза выходных слов по их морфологической информации (основа, тип словоизменения и адрес окончания в массиве окончаний этого типа). Таким образом, если ввести правила преобразования входной морфологической информации в выходную морфологическую информацию, осуществляется TRANSFER на морфологическом уровне.

    Уровень групп рассматривает структуры более сложные: группы существительных, прилагательных, наречий и сложные глагольные формы. Этот уровень при анализе, основываясь на формальных сетевых грамматиках, умеет соединять группы в синтаксические единицы, каждая из которых характеризуется синтезированной структурной информацией и главным элементом группы. По входной структуре, полученной в терминах непосредственных составляющих, вместе с синтезированными признаками формируется выходная группа как набор лексических единиц со значениями морфологических признаков, которые могут наследоваться исходя из результатов анализа группы. Таким образом, реализуется TRANSFER на уровне групп.

    Анализ простых предложений как структур, состоящих из синтаксических единиц, выполняется на основе фреймовых предикатных структур, которые позволяют эффективно выполнять преобразования. Глагол считается для простых предложений главным элементом и его валентности определяют заполнение соответствующего фрейма. Для каждого типа фреймов существует некоторый закон преобразования в выходной фрейм и оформление актантов. Таким образом, осуществляется TRANSFER на уровне предложений. Анализ сложных предложений требуется в случае формирования согласования времен и правильного перевода союзов.

    40-е: первые шаги

    История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П.П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). В марте 1947 г. Уоррен Уивер (Warren Weaver ), директор отделения естественных наук Рокфеллеровского фонда (Rockefeller Foundation ), в переписке с Эндрю Бутом (Andrew D. Booth ) и Норбертом Винером (Norbert Wiener ) впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду.

    У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text. " ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код, чтобы извлечь информацию, заключенную в тексте"). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны .

    Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva : стадия передачи информации разделена два этапа; на первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

    Меморандум Уивера вызвал самой живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens ) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

    В те годы довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов . В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов (последние также были тесно связаны с военной сферой). Поэтому на ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

    В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г в Нью-Йорке была представлена первая система МП - IBM Mark II , разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

    50-е: первое разочарование

    К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня . Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word ) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

    В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel ) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT ) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy . (Джон искал свою игрушечную коробку. Наконец он её нашёл. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen ). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

    Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee) , основываясь, в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

    60-е: низкий старт

    Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS ) и финансировалась Мормонской церковью, заинтересованной в переводе Библии ; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO ; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

    70-80-е: новый импульс

    С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в эпоху "Ренессанса". При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из "врага" и "конкурента" профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

    О возрождении МП в 70-80-е гг. свидетельствуют следующие факты: Комиссия Европейских общин (CEC ) покупает англо-французскую версию Systran , а также систему перевода с русского на английский (последняя развивалась после доклада ALPAC и продолжала использоваться ВВС США и НАСА); кроме того, CEC заказывает разработку франко-английской и итальяно-английской версий. В то время благодаря CEC были заложены основы проекта EUROTRA , основанного на разработках групп SUSY и GETA . Одновременно происходит быстрое расширение деятельности по созданию систем МП в Японии (главным образом основанных на технологии interligva , разработанной Уивером в конце 40-х гг.); в США Панамериканская организация здравоохранения (PAHO) заказывает разработку испано-английского направления (система SPANAM ); ВВС США финансируют разработку системы МП в Лингвистическом исследовательском центре при Техасском университете в Остине; группа TAUM в Канаде достигает заметных успехов в разработке своей системы METEO (которая использовалась в основном для перевода метеорологических сводок). Целый ряд проектов, начатых в 70-80-е гг. впоследствии развились в полноценные коммерческие системы.

    За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

    Одной из новых разработок стала технология TM (translation memory) , работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге "не нужно дважды переводить одно и то же предложение!". В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM , является система TRADOS (основана в 1984 г.) .

    От 90-х к XXI веку

    90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

    В настоящее несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran , IBM , L&H (Lernout & Hauspie), Transparent Language , Cross Language , Trident Software , Atril , Trados , Caterpillar Co., LingoWare, Ata Software ; Lingvistica b.v. и др. (подробнее о зарубежных разработчиках МП и их системах ).

    Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: alphaWorks ; PROMT"s Online Translator ; LogoMedia.net ; Yahoo! Babel Fish ; InfiniT.com .

    С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики.

    В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation) . В 1991 г. было создано ЗАО "ПРОект МТ" , и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

    В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows . В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT , а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT , одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

    В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite .

    В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98 . Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet , и переводчик для корпоративных почтовых систем - PROMT Mail Translator . Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS) . В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000 .

    Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT"s Online Translator , InfiniT.com и др.

    Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, подробнее .

    Прошлое и будущее машинного перевода. Основные даты
    Впервые опубликовано на сайте Wired

    1966 ALPAC публикует отчёт по машинному переводу с выводами о том, что годы исследований в этом направлении не принесли ожидаемого результата. Это привело прекращению финансирования государством программ развития МП.

    1982 Джанет и Джим Бейкер основали фирму Dragon Systems (г. Ньютон, Массачусетс).

    1983 Представлена автоматическая система обработки речи (ALPS ) - первая программа МП для микрокомпьютеров.

    1988 Учёные из Исследовательского центра Томаса Дж. Уотсона компании IBM возвращаются к разработке статистического метода МП, при котором сравниваются параллельные тексты и подсчитывается вероятность соответствия слов.

    1990 Dragon Systems выпускает программу DragonDictate , первую систему преобразования устной речи в письменную, способную распознавать 30 тысяч слов.

    DAPRA запускает программу "Системы разговорной речи" (SLS ) с целью разработки приложений, обеспечивающих голосовое взаимодействие между человеком и машиной.

    1991 Появилась первая рабочая станция переводчика, объединяющая программы STAR"s Transit , IBM"s TranslationManager , Canadian Translation Services" PTT и Eurolang"s Optimizer .

    1992 ART-ITL основала Консорциум исследований в области перевода с естественных языков (C-STAR ), который организует первую публичную демонстрацию телефонного перевода между английским, немецким и японским языками.

    1993 В Германии идет работа над проектом Verbmobil . Исследователи сосредоточили свое внимание на переносных системах обеспечения перевода деловых переговоров с английского на немецкий и японский.

    2264 "Человек глуп, как мешок опилок" , заявило Устройство 296. "Только абсолютно наивным учёным могло прийти в голову разработать технологию для понимания того, что произносят эти неопрятные куски протоплазмы. В шуме, который они производят из отверстий в голове, решительно намного меньше смысла, чем в космическом излучении" .

    Составители: Кристин Демос ([email protected]) и Марк Фраунфельдер ([email protected]). 1629-2000: K. D.; 2001-2264: M. F.

    Андреева Елена Владимировна

    хостинг для сайтов Langust Agency 1999-2019, ссылка на сайт обязательна

    Для начала, следует обозначить некоторые важные даты в истории машинного перевода:

    1947 - дата рождения машинного перевода, как научного направления. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, написал письмо Норберту Винеру, в котором рассматривал задачу перевода текстов с одних языков на другие, как еще одну область применения техники дешифрования. За этим письмом последовало множество дискуссий. 1947 - А.Бут и Д.Бриттен разработали подробный "код" для пословного машинного перевода. 1948 - Р.Риченс предложил правила разбиения словоформ на основу и окончание. 1952 - первая конференция по машинному переводу в Массачусетском технологическом институте. 1954 - представлена первая система машинного перевода - IBM Mark II - русско-английская, имела словарь в 250 единиц и 6 грамматических правил. Последовавшее за этим десятилетие было временем бурного развития машинного перевода. 1967 - специально созданная в США Комиссия Национальной Академии наук, исходя из реальной ситуации с переводами в США и показателей стоимости различных способов перевода, пришла к выводу, что машинный перевод нерентабелен. Доклад существенно затормозил развитие МП в целом. 70-е годы - новый подъем работ в области МП. С развитием вычислительной техники появились новые возможности машинной реализации лингвистических алгоритмов. 80-е годы - время работы персональных компьютеров значительно подешевело, машинный перевод наконец-то стал экономически выгодным. 90-е годы - отмечается очередной рост интереса к машинному переводу, что связано с появлением и бурным развитием Internet. Возможности перевода в режиме он-лайн позволяют преодолеть языковой барьер и осуществлять навигацию по иностранным сайтам.

    А сейчас следует рассмотреть эти факты подробнее:

    Итак, впервые мысль о возможности машинного перевода высказал Чарльз Бэббидж (1791-1871), разработавший в 1836-1848 гг. проект цифровой аналитической машины - механического прототипа электронных цифровых вычислительных машин, появившихся через 100 лет. Идея Ч. Бэббиджа состояла в том, что память объемом 1000 50-разрядных десятичных чисел (по 50 зубчатых колес в каждом регистре) можно использовать для хранения словарей. Ч. Бэббидж привел эту идею в качестве обоснования для запроса у английского правительства средств, необходимых для физического воплощения аналитической машины, которую ему так и не удалось построить (см. Апокин и др. Чарльз Бэббидж. М., Наука, 1981).

    Мысль использовать ЭВМ для перевода была высказана в 1946 году, сразу после появления первых ЭВМ. Датой рождения МП как области исследований принято считать 1947 г.: все началось с письма Уоррена Уивера, директора отделения естественных наук Рокфеллеровского фонда, к Норберту Винеру в марте того же года, в котором задача перевода сравнивалась с задачей дешифровки текстов. Последняя в то время уже стала выполняться на электромеханических устройствах. За этим письмом последовало множество дискуссий, появился меморандум о целях, и, наконец, были выделены средства на исследования. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году.Несмотря на примитивность той системы (словарь в 150 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

    Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода «слово за словом», «фраза за фразой». Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения (так же, как учат детей языку в средней школе), а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (от английского слова transfer - преобразование).

    Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

    Однако, слишком много трудностей и неясностей было в том, как нужно формализовать и строить алгоритмы для работы с текстами, какие словари надо вводить в машину, какие лингвистические закономерности следует использовать при машинном переводе и каковы вообще эти закономерности.

    Выяснилось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

    Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности, ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

    А к середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

    • · MARK (в Департаменте иностранной техники ВВС США);
    • · GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

    Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведенных текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом ее выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

    Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъему этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

    Впрочем, мечты, с которыми род людской взялся полвека назад за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз. В 1990 г. Ларри Чаилдс, специалист по машинному переводу, предложил следующую классификацию систем машинного перевода:

    • · FAMT (Fully-automated machine translation) - полностью автоматизированный машинный перевод;
    • · HAMT (Human-assisted machine translation) - машинный перевод при участии человека;
    • · MAHT (Machine-assisted human translation) - перевод, осуществляемый человеком с использованием компьютера.

    В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. В России большой вклад в развитие машинного перевода внесла группа под руководством профессора Пиотровского (Российский государственный педагогический университет им. Герцена, Санкт-Петербург).