Болезни Военный билет Призыв

Что такое машинный перевод и где он используется. Основные этапы развития машинного перевода

Московский Авиационный Институт

(государственный технический университет)

«Институт иностранных языков МАИ»

Кафедра И-01

«Теория и практика английского языка»

Реферат

«Машинный перевод»

Москва 2012 г.

Машинный перевод и для чего он необходим……………………………………………………………….………………3 Классификация систем машинного перевода………………………………………………………………………………..4 Как осуществляется машинный перевод………………………………………………………………………………………..7 История развития систем машинного перевода……………………………………………………………………………11 Современное состояние машинного перевода на основе «Яндекс.Перевод»……………………….…..18 Вывод………………………………………………………………………………………………………………….……………………………20

Список использованной литературы…………………………………..…………………………………………………….…..21

Машинный перевод и для чего он необходим

В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц. Таким образом, оказывается, даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер. Системы машинного перевода (МП) давно перестали быть диковинкой. Они постепенно выходят из младенческого возраста и вместо бессвязного детского лепета начинают изъясняться на вполне понятном, "человеческом" языке. До последнего времени такие программы были не только очень дороги, уступая в цене разве что мощным графическим и издательским системам, но и весьма сложны и капризны в работе. И вот появились первые переводчики, пригодные для использования на домашнем ПК. Давайте познакомимся с ними поближе и узнаем, на что они способны.

Классификация систем машинного перевода

Полностью автоматизированный машинный перевод.

Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова – "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека.

Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека – вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов – процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера.

При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод – точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM). Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Как осуществляется машинный перевод

В ее основе лежит алгоритм перевода – последовательность однозначно и строго определенных действий над текстом для нахождения соответствий в данной паре языков L1 – L2 при заданном направлении перевода (с одного конкретного языка на другой). Обычные словари и грамматики разных языков не применимы для машинного перевода, так как описывают значения слов и грамматические закономерности в нестрогой форме, никак не приемлемой для «машинного» использования. Следовательно, нужна формальная грамматика языка, т.е. логически непротиворечивая и явно выраженная (безо всяких подразумеваний и недомолвок). Как только начали появляться формальные описания различных областей языка – прежде всего морфологии и синтаксиса, – наметился прогресс и в разработке систем автоматического перевода. Чтобы успешно работать, система машинного перевода включает в себя, во-первых, двуязычные словари, снабженные необходимой информацией (морфологической, относящейся к формам слова, синтаксической, описывающей способы сочетания слов в предложении, и семантической, т.е. отвечающей за смысл), а во-вторых – средства грамматического анализа, в основе которых лежит какая-нибудь из формальных, т.е. строгих, грамматик. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода.

1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например дательного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы, например, каким членом предложения может быть данное слово. В школьном грамматическом разборе предложения мы опираемся и на значения слов, составляющих предложение (например, отыскивая подлежащее, задаем вопрос: о чем говорится в предложении?). Для машины же совмещение двух этих операций – и грамматического разбора, и обращения к смыслу слов – задача трудная. Лучше сделать синтаксический анализ не зависящим от смысла слов, а словарь использовать на других этапах перевода.

Что такое независимый синтаксический анализ, можно понять, если попытаться разобрать фразу, из которой «убраны» значения конкретных слов. Блестящим образцом фразы такого рода является придуманное академиком Л. В. Щербой предложение: Глокая куздра штетко будланула бокра и кудрячит бокрёнка. Бессмысленная фраза? Как будто да: в русском языке нет слов, из которых она состоит (кроме союза и). И все же в какой-то степени мы ее понимаем: «куздра» – это существительное (мы даже можем предположить, что оно обозначает какое-то животное), «глокая» – определение к нему, «будланула» – глагол-сказуемое (похожий на толканула, боднула), «штетко» – скорее всего, обстоятельство образа действия (что-то вроде сильно, резко), «бокра» – это прямое дополнение («будланула» кого? – «бокра») и т. д.

То есть машина осуществляет синтаксический анализ предложения без опоры на значения составляющих его слов, с использованием информации только об их грамматических свойствах. В результате синтаксического анализа возникает синтаксическая структура, которая изображается в виде дерева зависимостей: «корень» – сказуемое, а «ветви» – синтаксические отношения его с зависимыми словами. Каждое слово предложения записывается в своей словарной форме, а при ней указываются те грамматические характеристики, которыми обладает это слово в анализируемом предложении.

2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа in case of, in accordance with получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, их роли в данном предложении и пр.), производимое в рамках входного языка; разрешение неоднозначности (скажем, англ. round может быть существительным, прилагательным, наречием, глаголом или же предлогом); анализ и перевод слов. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, притом, что в оригинале может быть и единственное число).

4. Синтез выходных словоформ и предложения в целом на выходном языке. Здесь не получится обойтись простым переводом «узлов» дерева на другой язык. Синтаксис каждого языка устроен на свой лад: то, что в русском предложении – подлежащее, в другом языке может (или должно) быть выражено дополнением, а дополнение, наоборот, должно преобразоваться в подлежащее; то, что в одном языке обозначается группой слов, переводится на другой всего одним словом и т. д. Так, при переводе русской фразы «У меня была интересная книга» на английский язык глагол «быть» надо перевести глаголом to have – «иметь», сочетание «у меня» преобразовать в подлежащее I («я»), а слово «книга», которое в русском языке – подлежащее, по-английски должно стать прямым дополнением: I had an interesting book (буквально: «Я имел интересную книгу»). В связи с этим в машинную память помимо наборов синтаксических правил для каждого языка «вкладывают» и правила преобразования синтаксических структур. К этому добавляют правила перехода от уже преобразованной структуры к предложению того языка, на который делается перевод. Такой переход от структуры к реальному предложению называется синтаксическим синтезом.

В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей (такова, например, связь местоимения с замещаемым им существительным – скажем, местоимения им со словом местоимения в самом этом пояснении в скобках).

Для решения проблемы многозначности слова используется анализ контекста. Дело в том, что каждое из нескольких значений многозначного слова в большинстве случаев реализуются в своем наборе контекстов. То есть у каждого из «конкурирующих» (при интерпретации) значений – свой набор контекстов. И именно вот эта зависимость значения от окружения позволяет слушающему понять высказывание правильно. Для правильного понимания высказывания необходимо в полной мере учитывать также правила обусловленности выбранного значения лексическим окружением (действующие при «фразеологической» интерпретации слова), правила обусловленности выбранного значения семантическим контекстом (так называемые законы семантического согласования) и правила обусловленности выбранного значения грамматическим (морфолого-синтаксическим) контекстом. То есть для решения проблемы «моносемизации» слов при автоматическом переводе основой служит изучение и тщательное описание закономерностей лексической, семантической и грамматической сочетаемости. При этом правила такой сочетаемости достаточно подробно описываются в словарях – а именно, (а) с мощным охватом лексики, но весьма бегло и нетщательно, а также весьма имплицитно это делается в традиционной лексикографии; и, с другой стороны, (б) в выборочном порядке (со слабым охватом лексики), но зато весьма аккуратно и тщательно, и довольно-таки эксплицитно это делается в работах по «толково-комбинаторной» лексикографии (последних сорока лет).

Действующие системы машинного перевода, как правило, ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования.

История развития систем машинного перевода

40-е: первые шаги

История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века (если не считать механизированное переводное устройство П. П. Смирнова-Троянского, своего рода лингвистический арифмометр, изобретенный в 1933 году). Теоретической основой начального (конец 1940-х – начало 1950-х годов) периода работ по машинному переводу был взгляд на язык как кодовую систему. Пионерами МП были математики и инженеры. Описания их первых опытов, связанных с использованием только что появившихся ЭВМ для решения криптографических задач, были опубликованы в США в конце 1940-х годов. Датой рождения машинного перевода как исследовательской области обычно считают март 1947; именно тогда специалист по криптографии Уоррен Уивер в своем письме Норберту Винеру впервые поставил задачу машинного перевода, сравнив ее с задачей дешифровки.

Тот же Уивер после ряда дискуссий составил в 1949 г. меморандум, в котором теоретически обосновал принципиальную возможность создания систем машинного перевода. У. Уивер писал: «I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text» («У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все, что мне нужно, - это взломать код, чтобы извлечь информацию, заключенную в тексте»). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingva: стадия передачи информации разделена на два этапа. На первом этапе исходное предложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка.

Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс (Richard Richens) произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания). Вскоре началось финансирование исследований. На ранних этапах разработка МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому.

Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 г. английским математиком А. Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками с одной стороны и лингвистами – с другой установилось продуктивное сотрудничество.

В 1952 г. состоялась первая конференция по МП в Массачусетском технологическом университете, а в 1954 г. в Нью-Йорке была представлена первая система МП - IBM Mark II, разработанная компанией IBM совместно с Джоржтаунским университетом (это событие вошло в историю как Джорджтаунский эксперимент). Была представлена очень ограниченная в своих возможностях программа (она имела словарь в 250 единиц и 6 грамматических правил), осуществлявшая перевод с русского языка на английский. В том же 1954-м первый эксперимент по машинному переводу был осуществлен в СССР И. К. Бельской (лингвистическая часть) и Д. Ю. Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю. А. Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Казалось, что создание систем качественного автоматического перевода вполне достижимо в пределах нескольких лет (при этом акцент делался на развитии полностью автоматических систем, обеспечивающих высококачественные переводы; участие человека на этапе постредактирования расценивалось как временный компромисс). Профессиональные переводчики всерьез опасались в скором времени остаться без работы…

50-е: первое разочарование

К началу 50-х годов целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

В 1959 г. философ Й. Бар-Хиллел (Yohoshua Bar-Hillel) выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив). Pen в данном случае должно переводиться не как «ручка» (инструмент для письма), а как «детский манеж» (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода «человеко-машинный симбиоз»).

Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально созданная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций (в числе которых ВВС США, Комиссия США по ядерной энергии, Центр Евроатома в Италии).

60-е: низкий старт

Следующие десять лет разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживает работа в этой области отечественных лингвистов, таких, как И. А. Мельчук и Ю. Д. Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

70-80-е: новый импульс

Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП (датой ее рождения обычно считают 1956 г.), получила название искусственного интеллекта, а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

При этом несколько сместились акценты: исследователи теперь ставили целью развитие «реалистических» систем МП, предполагавших участие человека на различных стадиях процесса перевода. Системы МП из «врага» и «конкурента» профессионального переводчика превращаются в незаменимого помощника, способствующего экономии времени и человеческих ресурсов.

За период 1978-93 гг. в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов. Вместе с тем разработки в области МП стимулировали развитие не только лингвистики. Результаты работ по МП способствовали началу и развитию исследований и разработок в области автоматизации информационного поиска, логического анализа естественно-языковых текстов, экспертных систем, способов представления знаний в вычислительных системах и т.д.

Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

Одной из новых разработок этого периода стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. А в конечном итоге «не нужно дважды переводить одно и то же предложение!». В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

В СССР с середины 70-х годов были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю. А. Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ; была также разработана система МП с русского языка на английский АСПЕРА. На этих разработках основываются такие системы машинного перевода, как Stylus, Socrat и другие.

От 90-х к XXI веку

90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

В настоящее время несколько десятков компаний занимаются разработкой коммерческих систем МП, в их числе: Systran, IBM, L&H (Lernout & Hauspie), Language Engineering Corporation, Transparent Language, Nova Incorporated, Trident Software, Atril, TRADOS, Caterpillar Co., LingoWare; Ata Software; Lingvistica b.v. и др.

В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов». Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Все практические системы без исключения используют идею переводных соответствий, т.е. в их основе лежит модель «текст-текст», и они реализуют краткую схему перевода. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу.

За рубежом эксплуатируется целый ряд систем машинного перевода. Наиболее известной из их числа является система Systran, разработанная и поддерживаемая компанией Systran Software Inc, используемая службой машинного перевода при комиссии Европейского союза.

Появилась возможность воспользоваться услугами автоматических переводчиков непосредственно в Сети: www.alphaworks.ibm.com/ aw.nsf/html/mt; www.freetranslation.com; www.transtlate.ru; www.logomedia.net/text.asp; www.foreignword.com/Tools/transnow.htm; babelfish.altavista.com/translate.dyn; infinit.reverso.net/traduire.asp; www.t-mail.com .

С начала 1990-х годов на рынок систем ПК выходят отечественные разработчики.

В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer’s Machine Translation). В 1991 г. было создано ЗАО «ПРОект МТ», и уже в 1992 г. компания «ПРОМТ» выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе).

Несмотря на такую долгую историю, фактически всеми системами осуществляется перевод только на уровне поверхностного синтаксиса, поскольку еще не разработаны (по всей видимости) эффективные модели формального представления смысла, носителем которого должен выступать язык-посредник – интерлингва, хотя для отдельных узких отраслей такие модели строятся (например, METEO и LingoWare). Специалисты связывают построение адекватных систем МП с развитием искусственного интеллекта: машина сможет переводить с одного языка на другой, когда научится думать, как человек.

Другой путь совершенствования МП, более доступный на современном этапе, – составить корпус соответствий на двух языках. Можно предположить, что такие работы ведутся, и многими разными командами, но их действия не скоординированы, и потому результат слишком мал.

Критики современных систем МП полагают, что установка на жанровую ограниченность (научить машину сначала понимать совсем простые, специально отобранные тексты) на практике привела к тому, что задача моделирования естественного языка фактически уступила место задаче моделирования ограниченных (и крайне примитивных) подъязыков отдельных отраслей знания. При этом наилучшего результата на этом пути, как известно, достигла канадская система TAUM-METEO, отлично выполняющая задачу англо-французского перевода сводок погоды. Простейшим видом систем такого рода являются автоматические разговорники для туристов, предлагающие пользователю более или менее разнообразные «меню» стандартных вопросов и ответов на двух или нескольких языках.

Существующий в настоящее время «словоцентрический» подход (когда машина выбирает и переводит главным образом отдельные слова) объясняется тем, что выделяется то, что легко выделить (слова разделены пробелами), и, соответственно, это переводится. Однако человек (в том числе тот, который занимается переводом) имеет дело с текстом, когда отдельное предложение приобретает смысл как часть более широкого контекста: соседние предложения определяют и объясняют многие невыраженные или неоднозначные элементы каждого отдельного высказывания. На настоящем же этапе часто самыми удобными для понимания оказываются такие системы МП, которые выполняют перевод пословно: фраза корявая, но видно, как она получилась, и, если есть поддержка в виде знания исходного языка, легко догадаться, что же было в оригинале, и увидеть, какие слова переведены неверно. Те системы, которые переводят текст пословно, зачастую оказываются удобнее: видно, откуда фраза взялась. Если хотя бы поверхностно знать язык оригинала, можно понять, что же было в первоначальном варианте, и какие слова переведены неверно. Системы МП, которые обрабатывают фразу синтаксически, избегая «корявости», часто выдают гладкие, но совершенно невразумительные переводы.

Современное состояние машинного перевода на основе “Яндекс.Перевод”

Сам Яндекс.Перевод вышел из беты несколько месяцев назад. От других немногочисленных подобных сервисов его отличает автословарь, уникальная технология которого разработана командой лингвистов и программистов Яндекса. Во время его разработки удалось объединить современные статистические подходы машинного перевода и традиционные лингвистические инструменты.

Чтобы понять, насколько значимым шагом в развитии машинного перевода является появление автословаря, стоит вспомнить, что 20 лет назад были распространены синтаксические переводчики, для которых таблицы соответствия фраз на разных языках составляли вручную. Процесс их создания стал меняться только в конце 1990-х, когда появились первые статистические переводчики. Для обучения их моделям переводов стали использовать параллельные тексты. Документы, в которых одно и то же написано на разных языках, извлекали, например, из дипломатической документации. Большой базой параллельных текстов стали документы ООН. Но на подобной лексике создать общелексический переводчик не получилось, потому что даже неформальные тексты он переводил сухим дипломатическим языком.

Решением проблемы обучения универсальной модели перевода стало использование параллельных документов, извлечённых из индексов поисковых машин. И это не только мультиязычные сайты, которые изначально были созданы на нескольких языках. К примеру, в интернете появился документ с текстом о каком-то событии. Для него создаётся своеобразный «паспорт» с характерными (контрастными) словами, который потом сравнивается с паспортами других документов, и при их совпадении делается вывод, что это текст об одном и том же, но на разных языках. Этот процесс требует значительных вычислительных ресурсов, потому что приходится обрабатывать миллиарды веб-документов.

Естественно, не все предложения в таких текстах будут последовательными переводами друг друга. Чтобы составить таблицы соответствия слов и фраз со всеми возможными переводами, нужно сделать специальное выравнивание и выкинуть те, которые случайно туда попали. В итоге получается, что, например, каждому русскому слову соответствует 20–30 английских.

Практически весь вышеописанный процесс основывается на статистических методах и теории вероятностей. Автоматический переводчик знает величину вероятности каждого перевода и на её основе быстро делает свой выбор по языковой модели из десятков вариантов, а иногда и сотен.

Кажется, что для точности перевода и учёта стилистики текста, нужно всего лишь показывать варианты переводов человеку и он подберёт наиболее подходящее по контексту и стилю слово. Но это статистические фрагменты текста, которые сами по себе могут не нести для простого пользователя никакого смысла. Как минимум, потому что он может увидеть тысячи вариантов для одного слова, что ему никак не поможет. Особенно, если человек не очень хорошо знает язык, на который переводит.

Автословарь решает проблему выбора, выбирая только самые подходящие переводы и показывая их в читабельной для простого пользователя форме. Для этого наша команда специалистов провела сложную и ресурсоёмкую работу. Во-первых, мы сделали так, что автословарь показывает словарную форму слова. Во-вторых, научили выявлять из всего набора фраз действительно устойчивые словосочетания, которые человек может потом сформулировать.

В составлении автоматического словаря есть и другие трудности. Например, когда пользователь запрашивает перевод слова без контекста, то для группировки вариантов на другом языке приходится выводить все его значения. И зачастую на языке, который ему незнаком. Чтобы помочь человеку сориентироваться среди вариантов переводов, нужно не просто показать все главные значения слова, но и сделать группировку по их смысловым значениям.

Для этого используется словарь синонимов, который тоже строится на основе статистических данных, накопленных нами в процессе построения модели перевода. Благодаря тому, что в Яндекс.Переводе есть оба направления перевода, мы знаем, что разные слова одного языка часто переводят в одно и то же слово другого языка. Это позволяет предположить, что они являются синонимами. Таким образом, мы автоматически формируем группы переводов, каждая из которых имеет свое смысловое значение.

В результате пользователю Яндекс.Перевода не нужно дополнительно смотреть статьи из обычных словарей, чтобы подобрать более точный перевод. Автословарь покажет ему автоматически сформированную статью, в которой даже будут примеры употребления слова. К тому же, основанный на статистике словоупотребления в интернете, автоматический словарь быстрее обновляется. Благодаря всему этому, переводы, выполненные с помощью машинного переводчика Яндекса, будут гораздо качественнее.

Машинный перевод, как живой организм, с каждым годом развивается. Разработчики находят различные алгоритмы и решения, которые позволяют максимально приблизить машинный перевод к переводу человека. И если посмотреть глубоко в историю, то можно легко заметить как МП развивался и эволюционировал.

Но даже в наши дни нельзя сказать, что машинный перевод может полностью заменить человека, но он может существенно облегчить ему процесс перевода. И грамотное использование различных программных средств снижает временные затраты и экономит умственные силы.

Сейчас человек может выбирать переводчики для своих нужд из многочисленного числа программных средств и сопоставить их. Это позволяет делать перевод более точным и целым.

    Вид работы:

    Отчет по практике по теме: Машинный перевод.Система машинного перевода PROMT

    21.03.2012 10:20:09

    Тип файлов:

    Проверка на вирусы:

    Проверено - Антивирус Касперского

  • Полный текст:


    Введение…………………………………………………………………………..2

    Глава I. Машинный перевод

    История машинного перевода………………………………………….…4

    Как осуществляется машинный перевод………………………………..10

    Системы машинного перевода и их классификация…………...............13

    Качество машинного перевода…………………………………………..18

    Глава II. Система машинного перевода PROMT

    2.1 Возможности машинного переводчика семейства PROMT…………...22

    2.2 Сравнительный анализ переводов художественного текста сделанный системой машинного перевода и человеком…………………………...…26

    Заключение………………………………………………………………….….30

    Библиография…………………………………………………………………..31

    Введение


    Перевод (вид языкового посредничества, при котором содержание иностранного текста оригинала передается на другой язык путем создания на этом языке коммуникативно равноценного текста.(№ 7)) имеет долгую историю, он восходит к временам когда праязык начал распадаться на отдельные языки и возникла необходимость в людях, способных быть посредниками при общении представителей разных языковых общин.

    Коммуникативная равноценность понимается как способность переведенного текста выступать в качестве полноправной замены исходного текста.(№ 7).

    Коммуникативная эквивалентность нового текста по отношению к исходному обеспечивается следующим:

    · передача содержания оригинала в полном объёме;

    · соответствие текста перевода тексту оригинала по нормам языка перевода;

    · текст перевода должен соответствовать оригиналу с точки зрения лаконичности и развернутости высказываний для достижения схожего стилистического эффекта. Также перевод должен быть примерно сопоставим по объёму.

    Актуальность данной проблемы обусловлена тем, что история развития и внедрения в повседневную жизнь персональных компьютеров (способных осуществлять автоматический перевод) насчитывает не более пятнадцати – двадцати лет. Сегодня программы переводчики умеют строить осмысленные фразы и простые предложения, за последние несколько лет качество перевода улучшилось.

    Объектом исследования является система машинного перевода.

    Предметом исследования является перевод осуществлённый системой PROMT XT.

    Однако данные компьютерные программы еще недостаточно хорошо разбираются в грамматике, жаргонных выражениях, стилистических приемах и многих других казалось бы мелочах, но именно из них, складывается красивый, понятный перевод. В современном мире компьютеры занимают значительное место и в среде переводчиков, лингвистов и специалистов нуждающихся в оперативном переводе иноязычной информации.

    Развитие кибернетики сделало возможным машинный перевод, т.е. выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст на другом языке а также результат такого действия. В настоящее время главные области применения машинного перевода это перевод Интернет – страничек, руководств к технике, электронных писем. При этом достигается лишь общее понимание текста. Другое применение этих систем – облегчение труда профессиональных переводчиков, уменьшение затрат времени на подстрочный перевод, который можно впоследствии редактировать.

    Цель данной работы – определение того насколько можно использовать современные программы для осуществления перевода, а также какова их эффективность.

    В соответствии с поставленной целью, задачами исследования являются:

    · Уяснение последовательности формальных операций, обеспечивающий анализ и синтез в системе машинного перевода (перевод);

    · Анализ работы систем машинного перевода на примере перевода произведенного программой PROMT XT;

    · Сравнение образцов перевода с переводом, сделанным человеком. Анализ причин несоответствия.

    В работе также будет обозначена история развития машинного перевода, как в нашей стране так и за рубежом. Рассмотрена алгоритм осуществления машинного перевода, классификация систем машинного перевода, проблема качества перевода.


    Глава I. Машинный перевод.

    1.1 История машинного перевода

    Впервые идею использования механизмов для перевода с одного языка на другой предложили Лейбниц и Декарт. Они предприняли попытку создать словарь, основанный на числовых кодах. Еще издавна существовали идеи о языке, понятном всем, построенном исключительно на логике, использующем символы – пиктограммы. Самой известной разработкой в этой области стала «interlingua» Джона Вилкинса. Гораздо позже были созданы еще несколько искусственных языков, наиболее известный из которых – эсперанто Льва Знаменгофа. По свидетельству биографов, знаменитый математик Чарльз Бэббидж, пытаясь убедить британское правительство финансировать его разработку «аналитической машины», обещал, что в недалеком будущем его машина кроме всего прочего сможет переводить разговорную речь. Но машина так и не была построена.

    В 1933 году было выдано два патента на механическую систему перевода – в России и во Франции. Французский армянин Жорж Арсуни изобрел схему устройства на бумажной ленте для перевода произвольного слова на другой язык и в 1937г. продемонстрировал прототип системы. В России патент достался Петру Смирнову – Троянскому, который изобрел своеобразный лингвистический арифмометр. Он выделял три стадии механического перевода: на первой стадии человек, знающий входной язык, представлял слова и предложения в «основной» форме и расставлял синтаксические функции слов. На второй стадии машина переводила эти формы и функции на выходной язык, а затем, на третьей стадии, полученный текст редактировал носитель выходного языка. Смирнов – Троянский считал, что по крайней мере вторая стадия может быть автоматизирована.(№ 15)

    История машинного перевода как научно-прикладного направления началась в конце 40-х годов прошлого века. В марте 1947 г. Уоррен Уивер, директор отделения естественных наук Рокфеллеровского фонда, в переписке с Эдрю Бутом и Норбертом Винером впервые сформулировал концепцию машинного перевода, которую несколько позже (в 1949 г.) развил в своем меморандуме, адресованном Фонду. У.Уивер писал: "I have a text in front of me which is written in Russian but I am going to pretend that it is really written in English and that it has been coded in some strange symbols. All I need to do is strip off the code in order to retrieve the information contained in the text."" ("У меня перед глазами текст, написанный по-русски, но я собираюсь сделать вид, что на самом деле он написан по-английски и закодирован при помощи довольно странных знаков. Все что мне нужно - это взломать код чтобы извлечь информацию, заключенную в тексте."). Аналогия между переводом и дешифрованием была естественной в контексте послевоенной эпохи, если учитывать успехи, которых достигла криптография в годы Второй мировой войны.

    · исследование чисто внешних характеристик сообщения, та­ких как частота отдельных элементов и сочетаний элементов;

    · исследование дистрибуции элементов, составляющих текст;

    · анализ билингв с целью выявления совпадающих элемен­тов и использования некоторых ключевых элементов (собствен­ных имен и пр.) с учетом статистических и дистрибутивных характеристик;

    · нахождение ключа и применение его ко всей последова­тельности закодированных сообщений.(№ 11)


    Примерно в то же время Клод Шеннон сформулировал теорию информации, а Норберт Винер изложил концептуальные основы кибернетики. И вскоре на исследования были выделены деньги, а машинный перевод стал самостоятельным научным направлением, рожденным на стыке математики и программирования.

    Идеи Уивера легли в основу подхода к МП, основанного на концепции interlingua: стадия передачи информации разделена на два этапа; на первом этапе исходноепредложение переводится на язык-посредник (созданный на базе упрощенного английского языка), а затем результат этого перевода представляется средствами выходного языка. Меморандум Уивера вызвал самый живой интерес к проблеме МП. В 1948 г. А. Бут и Ричард Риченс произвели некоторые предварительные эксперименты (так, Риченс разработал правила разбиения словоформ на основы и окончания).

    В те годы компьютеры довольно сильно отличались от современных. Это были очень большие и дорогие машины, которые занимали целые комнаты и требовали для своего обслуживания большой штат инженеров, операторов и программистов. В основном эти компьютеры использовались для осуществления математических расчетов для нужд военных учреждений, а также математических и физических факультетов университетов. Поэтому на ранних этапах разработка систем МП активно поддерживалась военными, при этом в США основное внимание уделялось русско-английскому направлению, а в СССР - англо-русскому. В 1952 состоялась первая конференция по машинному переводу, организованная логиком и математиком Й.Бар-Хиллелом. Помимо очевидных практических нужд важную роль в становлении машинного перевода сыграло то обстоятельство, что предложенный в 1950 английским математиком А.Тьюрингом знаменитый тест на разумность («тест Тьюринга») фактически заменил вопрос о том, может ли машина мыслить, на вопрос о том, может ли машина общаться с человеком на естественном языке таким образом, что тот не в состоянии будет отличить ее от собеседника-человека. Тем самым вопросы компьютерной обработки естественно-языковых сообщений на десятилетия оказались в центре исследований по кибернетике (а впоследствии по искусственному интеллекту), а между математиками, программистами и инженерами-компьютерщиками, с одной стороны, и лингвистами – с другой установилось продуктивное сотрудничество.

    Фактически история машинного перевода начинается с "Джорджтаунского эксперимента". фирма IBM совместно с Джорджтаунским университетом (США) успешно осуществили первый эксперимент (вошедший в историю под названием Джорджтаунского), в ходе которого система, использовавшая словарь из 250 слов и грамматику из 6 синтаксических правил, осуществила перевод 49 заранее отобранных предложений. В том же 1954 первый эксперимент по машинному переводу был осуществлен в СССР И.К.Бельской (лингвистическая часть) и Д.Ю.Пановым (программная часть) в Институте точной механики и вычислительной техники Академии наук СССР, а первый промышленно пригодный алгоритм машинного перевода и система машинного перевода с английского языка на русский на универсальной вычислительной машине были разработаны коллективом под руководством Ю.А.Моторина. После этого работы начались во многих информационных институтах, научных и учебных организациях страны. Идея машинного перевода стимулировала развитие исследований в теоретическом и прикладном языкознании во всем мире. Появились теории формальных грамматик, большое внимание стало уделяться моделированию языка и отдельных его аспектов, языковой и мыслительной деятельности, вопросам языковой формы и количественных распределений лингвистических явлений. Возникли новые направления лингвистической науки – вычислительная, математическая, инженерная, статистическая, алгоритмическая лингвистика и ряд других отраслей прикладного и теоретического языкознания. В течение 1950-х годов в учебных центрах многих стран мира были открыты отделения прикладной лингвистики и машинного перевода. Исследования и разработки по машинному переводу развернулись также во Франции, Англии, США, Канаде, Италии, Германии, Японии, Нидерландах, Болгарии, Венгрии и других странах, а также в международных организациях, где велик объем переводов с различных языков.

    Первое поколение систем машинного перевода базировалось на алгоритмах последовательного перевода "слово за словом", "фраза за фразой". Возможности таких систем определялись доступными размерами словарей, прямо зависящими от объема памяти компьютера. Перевод текста осуществлялся отдельными предложениями, смысловые связи между ними никак не учитывались. Такие системы называют системами прямого перевода. На смену им со временем пришли системы последующих поколений, в которых перевод от языка к языку осуществлялся на уровне синтаксических структур. В алгоритмах перевода использовался набор операций, позволяющий путем анализа переводимого предложения построить его синтаксическую структуру по правилам грамматики языка входного предложения, а затем преобразовать ее в синтаксическую структуру выходного предложения и синтезировать выходное предложение, подставляя нужные слова из словаря. Такие системы называются Т-системами (Т - от английского слова "transfer - преобразование").

    Наиболее совершенным считается подход к построению систем машинного перевода на основе получения некоторого, независимого от языков, смыслового представления входного предложения путем его семантического анализа. Затем производится синтез выходного предложения по полученному смысловому представлению. Такие системы называют И-системами (И - от слова "интерлингва"). Считается, что следующие поколения систем машинного перевода будут относиться к классу И-систем.

    В 50-х годах целый ряд исследовательских групп в США и в Европе работали в области МП. В эти исследования были вложены значительные средства, однако результаты очень скоро разочаровали инвесторов. Одной из главных причин невысокого качества МП в те годы были ограниченные возможности аппаратных средств: малый объем памяти при медленном доступе к содержащейся в ней информации, невозможность полноценного использования языков программирования высокого уровня. Другой причиной было отсутствие теоретической базы, необходимой для решения лингвистических проблем, в результате чего первые системы МП сводились к пословному (word-to-word) переводу текстов без какой-либо синтаксической (а тем более смысловой) целостности.

    Оказалось, что традиционная лингвистика не располагает ни фактическим материалом, ни идеями и представлениями, нужными для построения систем машинного перевода, которые использовали бы смысл переводимого текста.

    Традиционная лингвистика не могла дать исходные представления не только в части семантики, но и в части синтаксиса. Ни для одного языка в то время не существовало перечней синтаксических конструкций, не были изучены условия их сочетаемости и взаимозаменяемости, не были разработаны правила построения крупных единиц синтаксической структуры из более мелких. В сущности ни на один вопрос, поставленный в связи с построением систем машинного перевода, традиционная лингвистика в 50-х годах не могла дать ответа.

    Потребность в создании теоретических основ машинного перевода привела к формированию нового направления в лингвистике, называемого структурной, прикладной, математической лингвистикой.

    В 1959г. философ, математик, логик Бар-Хиллел выступил с утверждением, что высококачественный полностью автоматический МП (FAHQMT) не может быть достигнут в принципе. В качестве примера он привел проблему нахождения правильного перевода для слова pen в следующем контексте: John was looking for his toy box. Finally he found it. The box was in the pen. John was very happy. (Джон искал свою игрушечную коробку. Наконец он ее нашел. Коробка была в манеже. Джон был очень счастлив.). Pen в данном случае должно переводиться не как "ручка" (инструмент для письма), а как "детский манеж" (play-pen). Выбор того или иного перевода в этом случае и в ряде других обусловлен знанием внеязыковой действительности, а это знание слишком обширно и разнообразно, чтобы вводить его в компьютер. Однако Бар-Хиллел не отрицал идею МП как таковую, считая перспективным направлением разработку машинных систем, ориентированных на использование их человеком-переводчиком (своего рода "человеко-машинный симбиоз").

    Это выступление самым неблагоприятным образом отразилось на развитии МП в США. В 1966 г. специально создананная Национальной Академией наук комиссия ALPAC (Automatic Language Processing Advisory Committee), основываясь в том числе и на выводах Бар-Хиллела, пришла к заключению, что машинный перевод нерентабелен: соотношение стоимости и качества МП было явно не в пользу последнего, а для нужд перевода технических и научных текстов было достаточно человеческих ресурсов. За докладом ALPAC последовало сокращение финансирования исследований в области МП со стороны правительства США - и это несмотря на то, что в то время как минимум три различные системы МП регулярно использовались рядом военных и научных организаций.

    Следующие десять лет (60 – е) разработка систем МП осуществлялась в США университетом Brigham Young University в Прово, штат Юта (ранние коммерческие системы WEIDNER и ALPS) и финансировалась Мормонской церковью, заинтересованной в переводе Библии; в Канаде группами исследователей, в числе которых TAUM в Монреале с ее системой METEO; в Европе - группами GENA (Гренобль) и SUSY (Саарбрюкен). Особого упоминания заслуживают работа в этой области отечественных лингвистов, таких, как И.А.Мельчук и Ю.Д.Апресян (Москва), результатом которой стал лингвистический процессор ЭТАП. В 1960 г. в составе Научно-исследовательского института математики и механики в Ленинграде была организована экспериментальная лаборатория машинного перевода, преобразованная затем в лабораторию математической лингвистики Ленинградского государственного университета.

    С развитием вычислительной техники в конце 70-х годов (появление микрокомпьютеров, развитие сетей, увеличение ресурсов памяти) машинный перевод вошел в новую колею. При этом несколько сместились акценты: исследователи теперь ставили целью развитие "реалистических" систем МП, предполагавших участие человека на различных стадиях процесса перевода.

    Новый подъем исследований в области МП начался в 1970-х годах и был связан с серьезными достижениями в области компьютерного моделирования интеллектуальной деятельности. Соответствующая область исследований, возникшая несколько позже МП, получила название искусственного интеллекта , а создание систем машинного перевода было осмыслено в 1970-е годы как одна из частных задач этого нового исследовательского направления.

    Можно выделить два основных стимула к развитию работ по машинному переводу в современном мире. Первый – собственно научный; он определяется комплексностью и сложностью компьютерного моделирования перевода. Как вид языковой деятельности перевод затрагивает все уровни языка – от распознавания графем (и фонем при переводе устной речи) до передачи смысла высказывания и текста. Кроме того, для перевода характерна обратная связь и возможность сразу проверить теоретическую гипотезу об устройстве тех или иных языковых уровней и эффективности предлагаемых алгоритмов. Эта характеристическая черта перевода вообще и машинного перевода в частности привлекает внимание теоретиков, в результате чего продолжают возникать все новые теории автоматизации перевода и формализации языковых данных и процессов.

    Второй стимул – социальный, и обусловлен он возрастающей ролью самой практики перевода в современном мире как необходимого условия обеспечения межъязыковой коммуникации, объем которой возрастает с каждым годом. Другие способы преодоления языковых барьеров на пути коммуникации – разработка или принятие единого языка, а также изучение иностранных языков – не могут сравниться с переводом по эффективности. С этой точки зрения можно утверждать, что альтернативы переводу нет, так что разработка качественных и высокопроизводительных систем машинного перевода способствует разрешению важнейших социально-коммуникативных задач.

    За период 1978-93 в США на исследования в области МП истрачено 20 миллионов долларов, в Европе - 70 миллионов, в Японии - 200 миллионов.

    Одной из новых разработок стала технология TM (translation memory), работающая по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение) и его перевод, в результате чего образуется лингвистическая база данных; если идентичный или подобный исходному сегмент обнаруживается во вновь переводимом тексте, он отображается вместе с переводом и указанием совпадения в процентах. Затем переводчик принимает решение (редактировать, отклонить или принять перевод), результат которого сохраняется системой. В настоящее время разработчиком известной коммерческой системы, основанной на технологии TM, является система TRADOS (основана в 1984 г.).

    В СССР в качестве головной организации по машинному переводу был в 1974 определен Всесоюзный центр переводов научно-технической литературы и документации (ВЦП), взявший на себя координацию работ в масштабе страны. Под его эгидой был проведен ряд крупных международных научных конференций по машинному переводу и проблемам научно-технического перевода. В ВЦП были созданы промышленные системы машинного перевода с английского языка на русский АМПАР (на основе исследований и разработок коллектива Ю.А.Моторина), с немецкого языка на русский НЕРПА, с французского языка на русский ФРАП, автоматические терминологические словари в помощь человеку-переводчику. Система АМПАР длительное время находилась в промышленной эксплуатации; впоследствии на ее базе были созданы более эффективные системы МП для персональных компьютеров семейства СПРИНТ. В ВПЦ была также разработана система МП с русского языка на английский АСПЕРА. Большой вклад в разработку промышленных систем МП был сделан ленинградской общесоюзной группой «Статистика речи» под руководством Р.Г.Пиотровского, а также группами специалистов по компьютерной лингвистике в Минске (А.В.Зубов), Кишиневе (В.А.Чижаковский), Махачкале (А.И.Чапля), Чимкенте (К.Б.Бектаев), Самарканде (Х.А.Арзикулов) и др. На базе исследований и научно-практического подхода группы «Статистика речи» были впоследствии разработаны и сейчас находятся в коммерческом использовании такие системы машинного перевода, как Stylus, Socrat и другие.

    Первые коммерческие продукты машинного перевода, нашедшие практическое использование, появились в середине 80-х годов.

    В настоящее время в Российской Федерации продолжаются в незначительных масштабах некоторые работы по системам МП, основанным на подходе «текст-смысл-текст», не всегда явно проговариваемым лозунгом которого в момент обоснования этого подхода в 1960-х годов был «машинный перевод без перевода, без машин, без алгоритмов» (см. обзор работ этого направления, принадлежащий Л.Н.Беляевой и М.И.Откупщиковой). Идея подхода заключалась в том, что от лингвиста требуется только декларативное описание фактов языка (т.е. лингвистическая теория, претендующая, правда, на особую точность и формализованность), а алгоритмы перевода составят программист и математик. В рамках этих исследований были получены значительные теоретико-лингвистические результаты (в частности, создана теория так называемых лексических функций, нашедшая применение в лексикографии), однако для создания практических систем подобного рода подход оказался недостаточно эффективным. Неизмеримо выросшие за последние десятилетия возможности вычислительной техники и новые программистские подходы никак не могут помочь реализовать идеи анализа и синтеза, основанные на приоритете выявления только синтаксической структуры с последующим переходом к смыслу. Выявление содержания текста в рамках человеко-машинного интерфейса может производиться, как и во всякой прикладной задаче, только с использованием как декларативных, так и процедурных знаний и при значительной опоре на лексику. Эта точка зрения обоснована, в частности, в недавних работах отечественного специалиста по программированию и искусственному интеллекту А.С.Нариньяни.

    1.2 Как осуществляется машинный перевод.


    Системы МП осуществляют автоматизированный перевод текста. Единицами перевода при этом служат слова или словосочетания, причем последние разработки позволяют учитывать морфологию переводимого слова. Развитые системы МП осуществляют перевод по заданным разработчиком и/или корректируемым пользователем алгоритмам перевода. Для осуществления машинного перевода в компьютер вводится специальная программа, реализующая алгоритм перевода, под которым понимается последовательность однозначно и строго определенных действий над текстом для нахождения переводных соответствий в данной паре языков А1 – А2 при заданном направлении перевода (с одного конкретного языка на другой). Система машинного перевода включает в себя двуязычные словари, снабженные необходимой грамматической информацией (морфологической, синтаксической и семантической) для обеспечения передачи эквивалентных, вариантных и трансформационных переводных соответствий, а также алгоритмические средства грамматического анализа, реализующие какую-либо из принятых для автоматической переработки текста формальных грамматик. Имеются также отдельные системы машинного перевода, рассчитанные на перевод в рамках трех и более языков, но они в настоящее время являются экспериментальными. Наиболее распространенной является следующая последовательность формальных операций, обеспечивающих анализ и синтез в системе машинного перевода: 1. На первом этапе осуществляется ввод текста и поиск входных словоформ (слов в конкретной грамматической форме, например винительного падежа множественного числа) во входном словаре (словаре языка, с которого производится перевод) с сопутствующим морфологическим анализом, в ходе которого устанавливается принадлежность данной словоформы к определенной лексеме (слову как единице словаря). В процессе анализа из формы слова могут быть получены также сведения, относящиеся к другим уровням организации языковой системы. 2. Следующий этап включает в себя перевод идиоматических словосочетаний, фразеологических единств или штампов данной предметной области (например, при англо-русском переводе обороты типа that is why, in the form of получают единый цифровой эквивалент и исключаются из дальнейшего грамматического анализа); определение основных грамматических (морфологических, синтаксических, семантических и лексических) характеристик элементов входного текста (например, числа существительных, времени глагола, синтаксических функций словоформ в данном тексте), производимое в рамках входного языка; разрешение омографии (конверсионной омонимии словоформ – скажем, англ. why может быть существительным, междометием, наречием); лексический анализ и перевод лексем. Обычно на этом этапе однозначные слова отделяются от многозначных (имеющих более одного переводного эквивалента в выходном языке), после чего однозначные слова переводятся по спискам эквивалентов, а для перевода многозначных слов используются так называемые контекстологические словари, словарные статьи которых представляют собой алгоритмы запроса к контексту на наличие/отсутствие контекстных определителей значения.

    3. Окончательный грамматический анализ, в ходе которого доопределяется необходимая грамматическая информация с учетом данных выходного языка (например, при русских существительных типа сани, ножницы глагол должен стоять в форме множественного числа, несмотря на то, что в оригинале может быть и единственное число. Но в то же время "Русское" слово «порося» оказывается возвратным глаголом со значением су­ществительного". Как бы ни анализировать русское слово «порося», с лингвистической точки зрения оно абсолютно не сопоставимо с возвратными глаголами на -ся . Лингвистическая членимость сло­ва и членимость слова, "удобная" для машины, не имеют между собой ничего общего. (№ 4))

    4. Синтез выходных словоформ и предложения в целом на выходном языке. В зависимости от особенностей морфологии, синтаксиса и семантики конкретной языковой пары, а также направления перевода общий алгоритм перевода может включать и другие этапы, а также модификации названных этапов или порядка их следования, но вариации такого рода в современных системах, как правило, незначительны. Анализ и синтез могут производиться как пофразно, так и для всего текста, введенного в память компьютера; в последнем случае алгоритм перевода предусматривает определение так называемых анафорических связей.

    Действующие системы машинного перевода ориентированы на конкретные пары языков (например, французский и русский или японский и английский) и используют, как правило, переводные соответствия либо на поверхностном уровне, либо на некотором промежуточном уровне между входным и выходным языком. Качество машинного перевода зависит от объема словаря, объема информации, приписываемой лексическим единицам, от тщательности составления и проверки работы алгоритмов анализа и синтеза, от эффективности программного обеспечения. Любой достаточно хороший словарь фиксирует не только слова, но и часто встречающиеся сочетания слов, т.е. микро­контекст соответствующих единиц. Например, при слове «настоящий» может быть дано сочетание «в настоящее время» - gegenwartig, actuellement, при слове «опыт» - сочета­ние: «проводить опыт» - Experiment, durchfiihren и сочетание «опыт по» - Experiment mit (experiences sur, essais de).

    Одновременно в хорошем словаре указываются сочетания «почтовый перевод», «денежный перевод» - нем. Post­"s anweisung, фр. mandat poste, и поскольку это сочетание нам не встретилось, то соответствующие переводы будут исключены. (№ 18)

    Современные аппаратные и программные средства допускают использование словарей большого объема, содержащих подробную грамматическую информацию. Информация может быть представлена как в декларативной (описательной), так и в процедурной (учитывающей потребности алгоритма) форме.

    Современный машинный перевод следует отличать от использования компьютеров в помощь человеку-переводчику. В последнем случае имеется в виду автоматический словарь, помогающий человеку быстрее подбирать нужный переводной эквивалент. Хотя и в том, и в другом случае компьютер работает вместе с человеком (переводчиком или редактором). В содержание термина «машинный перевод» входит представление о том, что главную, большую часть работы по переводу и отысканию переводных эквивалентов и переводных соответствий машина берет на себя, оставляя человеку лишь контроль и исправление ошибок, в то время как компьютерный словарь в помощь человеку – это чисто вспомогательное средство для быстрого нахождения переводных соответствий; при этом, однако, в такого рода словарях в ограниченной степени могут быть реализованы и некоторые функции, присущие системам машинного перевода.

    В практике переводческой деятельности и в информационной технологии различаются два основных подхода к машинному переводу. С одной стороны, результаты машинного перевода могут быть использованы для поверхностного ознакомления с содержанием документа на незнакомом языке. В этом случае он может использоваться как сигнальная информация и не требует тщательного редактирования. Другой подход предполагает использование машинного перевода вместо обычного «человеческого». Это предполагает тщательное редактирование и настройку системы перевода на определенную предметную область. Здесь играют роль полнота словаря, ориентированность его на содержание и набор языковых средств переводимых текстов, эффективность способов разрешения лексической многозначности, результативность работы алгоритмов извлечения грамматической информации, нахождения переводных соответствий и алгоритмов синтеза. На практике перевод такого типа становится экономически выгодным, если объем переводимых текстов достаточно велик (не менее нескольких десятков тысяч страниц в год), если тексты достаточно однородны, словари системы полны и допускают дальнейшее расширение, а программное обеспечение удобно для постредактирования. Такого рода системы машинного перевода используются в организациях, потребности которых в оперативных и качественных переводах достаточно велики.

    1.3 Системы машинного перевода и их классификация.

    В 1990 году Лари Чайлдс, специалист по машинному переводу, предложил следующую классификацию систем МП по принципу независимости машины от действий человека, ставшую сейчас общепринятой:

    · FAMT (Fully – automated machine translation) – полностью автоматизированный машинный перевод;

    · HAMT (Human – assisted machine translation) – машинный перевод при участии человека;

    · MAHT (Machine – assisted human translation) – перевод, осуществляемый человеком с использованием компьютера.

    Программы машинного перевода первой из названных категорий являются делом далекого будущего, поскольку даже в общем виде не решены проблемы автоматического понимания, перевода и синтеза текстов. Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова английского "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", “бидон”, “прекратить”, “перестать”,“колпак дымовой трубы”, "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

    Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Но тем не менее сегодня все «коробочные» продукты – переводчики, и онлайновые службы построены только по схеме FAMT.(№ 8,15)
    Программы второй категории разработчики называют МТ-программы (от Machine translation - машинный перевод). Реально автоматизированный (с участием человека) машинный перевод возможен только в условиях искусственно ограниченного, как по словарному запасу, так и по грамматике, языка. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций. Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики. Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков.

    В качестве реального успешного проекта МТ-программы всегда называют немецкую систему Meteo, выполняющую перевод метеопрогнозов с французского языка на английский и обратно.

    К МТ-программам относятся и продукты машинного перевода фирмы ПРОМТ.

    Программы третьей категории разработчики называют ТМ-программы (от translation memory - память перевода). Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Вот список наиболее известных систем ТМ: - Transit швейцарской фирмы Star, - Trados (США), - Translation Manager от IBM, - Eurolang Optimizer французской фирмы LANT, - DejaVu от ATRIL (США), - WordFisher (Венгрия). Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода. Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций: - Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода. - Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика. - Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем. - Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически. - Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения. Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM, основным недостатком является их дороговизна. Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

    Часто ТМ-программы используют в сочетании с МТ-программами. Наиболее популярным в мире ТМ-инструментарием является Translation"s Workbench фирмы Trados (для краткости часто также называемый Trados).

    Есть, однако, впечатление, что ресурсы развития в этом направлении уже практически исчерпаны и без перехода к новым технологиям, радикального улучшения качества пе­ревода достигнуть не удастся. К числу таких новых: техноло­гий относится вовлечение пользователя в процесс перевода, а также:

    · автоматическое определение контекста употребления слова с тем, чтобы выбирать для перевода адекватные словарные значения;

    · использование баз знаний, в которых собрана информация о предметной области;

    · самообучение системы в ходе взаимодействия с пользователем.

    Еще недавно о подобных возможностях на персональном компьютере не могло быть и речи. Сейчас мощности и объема памяти уже вполне достаточно, нет только систем, которые обеспечивали бы хорошее качество перевода.(№ 15)

    Современные коммерческие продукты машинного перевода предлагают отечественные фирмы:

    · "Виста Текнолоджиз" и "Адвентис", образованные в 1991 г. коллективом разработчиков, выделившихся из ВИНИТИ;

    · ПРОМТ, образованная в 1991 г.;

    · "Медиа Лингва".

    Наиболее известной из числа эксплуатируемых за рубежом систем машинного перевода является система SYSTRAN, разработанная и поддерживаемая компанией SYSTRAN Software Inc. и используемая службой машинного перевода при комиссии Европейского союза. Данная служба, объем переводов в которой составляет около 2,5 млн. страниц в год, использует систему SYSTRAN для перевода с английского на немецкий, французский, испанский, греческий и итальянский языки, а также с французского на английский, испанский и итальянский. Достоинства системы:

    · получаемый текст может подвергаться редактированию легко и быстро;

    · имеется возможность переводить большой объем научно-технических материалов;

    · система «многоязычна»;

    · инженерные решения достаточно простые (стандартные ЭВМ).

    Одно из главных достоинств заключается, в том, что при МП обеспечивается соблюдение последовательной, непротиво­речивой терминологии, в то время как в человеческом переводе терминологической лексики часто возникает разнобой. Это достоинство является весьма существенным для научно-технического перевода. Скорость перевода составляет 1 млн. слов в час за время (работы центрального процессора.

    Система обеспечивает правильный перевод диаграмм, гра­фиков и прочих нетекстовых включений. В ЭВМ могут вводить­ся изменения, например, при изменениях стандарта на терми­нологию. Поправки редакторов также постепенно накаплива­ются и вводятся в словарь.

    Лингвистический анализатор СИСТРАНа состоит из следую­щих четырех основных этапов. Первый этап разрешает омографию. Второй исследует предложение справа налево, запоминая при переходе от слова к слову, какие типы синтаксических отно­шений потенциально возможны внутри каждого самостоятель­ного предложения, если учесть типы встретившихся слов. Ис­пользуя набор регистров, в которых содержатся данные о возможных типах синтаксических отношений, этот этап затем устанавливает основные структуры внутри предложения (глагол плюс объект, предлог плюс объект и т. д.). Третий этап, двига­ясь слева направо, уточняет эти отношения, опознавая типы объектов, определительные структуры и пр. Четвертый этап, используя данные, полученные в результа­те работы предшествующих этапов, включая информацию о «границах предложений, типах главных и зависимых предложений, осуществляет анализ в границах этих предложений, определяя подлежащее и сказуемое в каждом из этих предложений.

    Следует отметить, что в некоторых случаях информация мо­жет передаваться от одного предложения к другому. В памяти ЭВМ отведено специальное место для такой информации. Она особенно необходима для перевода местоимений, антецеденты которых могут находиться в другом предложении. Основные задачи, ко­торые выполняются универсальным программным обеспечением СИСТРАНа, следующие:

    · считывание текста;

    · разбивка текста на слова;

    · поиск слов в различных словарях;

    · приписывание словарных кодов словам или словосочета­ниям текста;

    · распределение памяти под анализируемые предложения;

    · контроль за выполнением программ перевода;

    · подготовка перевода к печати, выдаче на микрофиши и пр.

    Программное обеспечение системы позволяет обеспечить скорость перевода в 200 000 -300 000 слов в час. (№ 11)


    90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало возможным, а главное востребованным, дальнейшее развитие систем МП. Появляются новые технологии, основанные на использовании нейронных сетей, концепции коннекционизма, статистических методах.

    Эффективность работы современной системы МП в решающей степени зависит от ее удачной настройки на конкретный подъязык (или микроподъязык) естественного языка, на определенную лексику и ограниченный набор грамматических средств, характерных для текстов данной предметной области, а также на определенные типы документов. Учение о подъязыках с точки зрения машинного перевода было впервые сформулировано Н.Д.Андреевым (Ленинградский университет) в 1967, хотя представления о языковых регистрах, стилях, жанрах письменного текста и т.п. были хорошо известны и в традиционной лингвистике. Подъязык, с точки зрения МП, определяется в первую очередь некоторым исходным набором текстов, в рамках которого определяется входной и выходной словари, степень распространения и характер лексической неоднозначности лексем, характер и распространенность синтаксических конструкций, способы их перевода в данной языковой паре и пр. Большую роль играют параллельные тексты и словари-конкордансы, с помощью которых можно достаточно эффективно изучить и использовать в составлении алгоритмов лексическую сочетаемость и дистрибуцию (распределение) языковых элементов в речи (дискурсе, тексте). Статистические характеристики подъязыков помогают упорядочить структуру соответствующих алгоритмов анализа и синтеза. Выходной словарь, ориентированный на потребности синтеза и передачи основных видов соответствий в конкретной языковой паре, обеспечивает приемлемый выходной текст. В любом из современных видов машинного перевода необходимо участие человека-редактора, удобство работы которого обеспечивается качеством и надежностью соответствующего программного обеспечения.

    Перспективы развития машинного перевода связаны с дальнейшей разработкой и углублением теории и практики перевода, как машинного, так и «человеческого». Для развития теории важны результаты сопоставительного языкознания, общей теории перевода, теории закономерных соответствий, способов представления знаний, оптимизации и совершенствования лингвистических алгоритмов. Новые и более эффективные словари с необходимой словарной информацией, строгие теории терминологизации лексики, теория и практика работы с подъязыками помогут повысить качество перевода лексических единиц. Формальные грамматики, ориентированные на перевод, дадут возможность оптимизировать алгоритмы нахождения переводных соответствий в данной коммуникативной ситуации, которая может быть описана в рамках соответствующих прикладных теорий представления знаний. Наконец, новые возможности программирования и вычислительной техники также будут вносить свой вклад в совершенствование и дальнейшее развитие теории и практики машинного перевода «Машинный перевод все ещё далек от совершенства, но любой желающий с его помощь. Сможет по крайней мере понять основной смысл документа.» (Луи Монье, технологический директор AltaVista.)

    1.4 Качество машинного перевода

    "Теория машинного перевода дает возможность не только кри­тически пересмотреть все важнейшие традиционные понятия грамматики (слова, части речи, члены предложения и т.д.), но и приостановить научные споры, которые велись вокруг этих поня­тий. С позиции, диктуемой машинным переводом, "слово - это то, что ограничено интервалами между буквами", а "предложение - это то, что ограничено определенными знаками препинания".(№ 12)Для машинного перевода с одного языка на другой действительно необходимо теоретическое изучение чисто фор­мальной структуры языка. Машине, которая переводит с одного языка на другой, в известной мере безразлично, что означают те формальные категории, которые она транспонирует с одного языка на другой. (№ 4)

    Так, многие, например, эмоционально окрашенные слова или определенные выражения могут неодинаково восприниматься разными людьми, (не говоря уже о машине) а эти люди представляют собой разные языковые и этнические коллективы (№ 1).В настоящее время качество машинного перевода оставляет желать много лучшего, и само наличие таких систем пока правильнее воспринимать как предмет научных исследований. В большинстве случаев при работе над проектом применение систем МП не оправдано, поскольку: - Системы МП не дают приемлемого качества выходного текста. Более высокого качества можно добиться с помощью предварительной настройки системы, что совершенно неприемлемо при небольших объемах переводимого текста, и/или путем последующего редактирования, а это только замедляет работу, если переводчик использует слепой метод печати. - Системы МП не гарантируют соблюдения единства терминологии, особенно при работе коллектива переводчиков над большим проектом. Вернее, могут гарантировать при условии очень внимательного обращения с пользовательскими словарями, а на это не всегда стоит рассчитывать. Однако в некоторых случаях использование систем МП все же помогает сократить временные затраты. Это происходит, если текст достаточно объемный и содержит однообразную терминологию, что позволяет сравнительно быстро настроить под него систему МП. Тогда редактирование текста не займет слишком много времени. Однако в этом случае следует особенно внимательно отнестись к стилю текста перевода. Машинный перевод формален, поэтому высока вероятность калькирования синтаксических структур языка оригинала, которое характерно для перевода вообще, а потому вполне может быть пропущено при редактировании. Вообще говоря, системы МП вполне могут применяться там, где используется максимально стандартизованный язык с простой грамматикой и сравнительно небольшим запасом слов. Довольно успешным проектом системы МП считается немецкая программа Meteo, выполняющая перевод метеопрогнозов с французского языка на английский и обратно. Для облегчения работы переводчиков и технических писателей компанией Boeing в свое время был разработан стандарт языка для написания технической документации, который известен как Boeing English.

    С филологической точки зрения перевод есть авторская опе­рация, которую человек-переводчик производит над текстом. Осознав характер задачи, действуя с определенной мерой осве­домленности, напряжением внимания и воли переводчик дости­гает коммуникативного эффекта, предполагаемого автором ори­гинала. Переводчик формирует новый текст, который в идеале обладает всеми особенностями оригинала. Предварительное чте­ние переводчиком оригинала обеспечивает возможность прило­жения определенного «стилевого усилия», поскольку всякий раз текст, составленный человеком, содержит определенные ошиб­ки против принятого норматива. Эти ошибки могут быть следствием разнообразных причин, но главным образом они суть следствие свободы воли говорящего, которой он пользуется для достижения нового эффекта, также прилагая стилевое усилие. Из-за нарушений норматива любая формальная грамматика не будет полна и не будет давать полного покрытия текстов. Для читателя текста перевода, в такой же степени, как и для читателя текста оригинала, важно психолингвистическое осознание текста.

    Машинный перевод есть перевод без авторства переводчика. В той мере, в какой создание и последующее пополнение алгоритмов и словарей есть работа коллектива, МП есть обезличен­ный коллективный перевод. МП базируется на чисто перевод­ных, языковых соответствиях, никакого предварительного чте­ния текста система МП производить не может, поэтому МП исключает текстологический анализ. Передача смысла в МП достигается особым знаковым преобразованием, так как МП: есть определенная операция над языком при условии идентич­ности содержания знака. Он осуществляет механические сино­нимические замещения на основе регулярных межъязыковых корреспонденции соотнесения. Эти регулярные корреспонденции не извлекаются автоматически из хранилищ или устройств, по­добных словарям. Невозможно моделировать коммуникативную функцию естественного языка, если рассматривать его только как кодовую систему; переводные соответствия есть элемент ди­намики пользования языком, и удовлетворительно моделирую­щая перевод система не может не рассматривать переводные соответствия как всеобъемлющие, многоуровневые, но каждый раз новые образования. Должны быть формализованы не сами переводные соответствия как таковые, но закономерности, по которым они возникают в текстах и с помощью которых они мо­гут быть обнаружены в деталях, важных и нужных для пере­вода. Такая формализация удается с помощью моделирования действий переводчика, при котором особое внимание уделяется семантико-синтаксическому анализу в терминах, близких к тра­диционно понятным всем пользователям языком.(№ 11)

    Никаких стилевых усилий машина-переводчик не произво­дит. Задача приложения этих усилий возлагается на читателя машинного перевода или редактора. Механические операции, ко­торые производит ЭВМ над текстом, носят сложный характер: система осуществляет максимально полные рекомбинации зна­ков и комплексную переработку массовой информации в языке. Производится опознание, различение и перевод между разными категориями двух языков, разведение синонимов и омонимов, процессное развертывание членов предложения, в результате чего обеспечивается инвариантность существенных семантиче­ских признаков значения в передаче его на другой язык.

    Исходя из концепции системной организации, особое внима­ние в МП уделяется словарю. Поскольку словарь для МП есть одновременно машинный словарь, который имеет аналоги в дру­гих системах автоматической обработки информации на естест­венном языке, возникает возможность сделать обобщения и го­ворить об общих свойствах машинных словарей. Эти общие свой­ства рассматриваются в противопоставлении свойствам обычных словарей, но не в абстрактном смысле (при котором такие про­тиворечия могут стираться подобно тому, как стирается различие между человеком и мыслящей машиной), а в представлениях инженерной лингвистики - прикладной лингвистики, направленной на решение технических задач.

    Для преодоления основных трудностей проблемы машинного перевода должны быть решены задачи автоматизированного представления контекста, смыслового содержания переводимого текста, знаний о понятиях предметной области, к которой относится переводимый текст. В первых системах реализовался так называемый "прямой" подход к переводу, в рамках которого, как уже отмечалось, все осуществляемые при переводе операции трактовались как операции межъязыкового перехода - преобразования текста оригинала в текст перевода. В машинном переводе в соответственном смысле этот подход приводит к так называемым "тотальным стратегиям" (№ 10). Общей характеристикой тотальных стратегий является стремление получить полностью автоматизированный высококачественный машинный перевод максимальным использованием семантического уровня языка. Этот подход внес значительный вклад, как в теорию, так и в практику машинного перевода.
    Второй подход хронологически возник раньше первого. Этот подход заключается в представлении о промежуточном языке и близко связан с идеей переводных соответствий на чисто языковом уровне. Методическая суть данного подхода заключается: в изучении поведения языковых единиц, особенно в языковом контексте; в моделировании человеческого владения языком, особенно в процессе межъязыкового перевода; в переходе от простого к более сложному. Многие исследователи, например, такие как Марчук Ю.Н., Нелюбин Л.Л., Ревзин И.И. считают, что программное обеспечение для работы с грамматикой основывалось на имевшихся теориях структуры языка в сочетании с придуманными на скорую руку правилами.
    Разработанные программы выдавали настолько плохой перевод, что его невозможно было понять. Проблема состоит в том, что смысл текста на естественном языке зависит не только от самого предложения, но также и от контекста.
    Скорее всего, эти первые проекты действительно не дали никаких реальных результатов. Однако были выявлены многие основные проблемы перевода текстов на естественном языке: многозначность слов и синтаксических конструкций, практическая невозможность глобального описания семантической структуры мира даже в ограниченной предметной области, отсутствие эффективных формальных методов описания лингвистических закономерностей и др. (№ 8).

    Современное состояние МП характеризуется некоторым слиянием результатов двух подходов, но не механическим соединением результатов, а слиянием их на базе новых моделей, созданных при основном внимании к собственно переводческому аспекту владения естественным языком. Центром исследования в современном МП становится моделирование действий человека-переводчика, особенно в части использования им двух- и многозначных переводных соответствий при переводе с одного языка на другой. МП, возникший вне лингвистики, вошел в нее главным образом благодаря важному аспекту моделирования.Качество перевода обеспечивается технологией, многоразмерной архитектурой словарей (два уровня перевода для каждого слова: активные и пассивные), механизмом ассоциа­тивной памяти, созданием и редактированием пользовательских словарей, а также подключе­нием специализированных и общих словарей больших объемов. (№ 14)

    Медленное повышение точности машинного перевода объясняется от­части тем, что такая программа нуждается в очень большой базе данных с текстами дни сравнения похожих фраз и их осмысления (№ 19).


    Еще в 1956 г. американские психологи Миллер и Биб-Сентер предложили следующие методы оценки качества перевода:

    · проставление оценки качества перевода испытуемыми по стабильной шкале;

    · подсчет процента слов, совпадающих в неотредактированном и отредактированном переводе;

    · изучение ответов человека, читавшего только перевод, на вопросы, поставленные по тексту оригинала.

    Психолог Ш. Пфаффлин использует для оценки качества пе­ревода следующие два критерия:

    Оценка понимания перевода путем постановки вопросов по тексту;

    Оценка ясности смысла перевода по шкале «ясно», «неяс­но», «бессмысленно» Ни один из этих методов не дает четкого ответа на вопрос о том, каковы критерии качества машинного перевода и каков до­пустимый уровень качества. (№ 11)

    Глава II . Система машинного перевода PROMT

    2.1 Возможности машинного переводчика семейства PROMT.

    С начала 1990-х гг. на рынок систем ПК выходят отечественные разработчики. В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer"s Machine Translation). В 1991 г. было создано ЗАО " ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система МП для Windows. В 1994 г. вышла версия STYLUS 2.0 для, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем МП.

    В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант - для поддержки нескольких языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.

    В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. Для корпоративных клиентов разработаны также специальные серверные решения – корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю , выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.

    В основе всех продуктов ПРОМТ лежит единое переводческое ядро – система анализа входного текста и синтез связного перевода на выходе; в них тоже реализованы общие принципы автоматизации перевода. Лингвистический редактор ПРОМТ позволяет переводить документы, проводить настройку на тематику документа и позволяет редактировать текст. Программа обеспечивает быстрый перевод, поддерживая практически все текстовые редакторы. Размер переводимого текста ограничен только ресурсами самого компьютера.

    Переводчик можно применять в двух режимах: без настроек для оперативного чернового перевода (включается только базовый словаря) и с дополнительной настройкой (подключение дополнительных тематических словарей) для обеспечения более качественного перевода. Программа включает более 100 специализированных словарей, что даёт возможность сделать перевод более точным, однако даже большое количество специализированных словарей не может заменить пользовательского словаря.

    Уникальной технологией реализованной в последних версиях компании ПРОМТ является механизм ассоциативной памяти (АП). Дело в том, что многие документы содержат часто встречающиеся одинаковые обороты и даже фрагменты текста, которые логично переводить единожды и впоследствии применять готовый перевод. В базе переводов АП сохраняются сегменты оригинального и переведенного текстов, которые используются при необходимости перевести аналогичный фрагмент текста. Это обеспечивает возможность обучения системы и сохранения результатов труда пользователя для последующего применения.

    Полезная особенность программ последнего поколения – способность исключать из процесса перевода имена собственные с возможностью их транслитерации. Еще одн способ настройки заключается в выборе лингвистических алгоритмов. Для каждого направления перевода существует свой список алгоритмов, которые может настроить пользователь. (№ 8,5)

    Система PROMT XT осуществляет перевод по следующим направлениям: англо-испанский, англо-немецкий, англо-русский, англо-французский, испанско-английский, испанско-русский, испанско-французский, итальянско-русский, немецко-английский, немецко-русский, немецко-французский, русско-английский, русско-немецкий, русско-французский, французско-английский, французско-испанский, французско-немецкий, французско-русский. Язык интерфейса системы: английский, русский, французский, немецкий.

    Системой предоставляются следующие дополнительные возможности:

    o редактирование словарных статей в пользовательских словарях (кроме некоторых специальных слов: предлогов, союзов, местоимений, некоторых омонимичных форм);

    o определение иерархии подключенных словарей (при наличии нескольких вариантов перевода система выбирает перевод из словаря, приоритет которого определен пользователем как самый высокий);

    o поиск переводов в электронных словарях (только для англо-русского и русско-английского направлений);

    o автоматическое определение тематики текста (по ключевым словам) и подключение специальных словарей;

    o установка алгоритмов перевода некоторых конструкций (например, перевод англ. you как "ты", "вы" или "Вы";

    o подключение препроцессоров (позволяющих не переводить некоторые специальные элементы, такие, как имена файлов, адреса электронной почты и веб-страниц);

    o определение зарезервированных слов (например, терминов, собственных имен), которые не будут переводиться программой

    o использование баз переводов Ассоциативной памяти (упрощенный вариант технологии Translation Memory).

    Последняя разработка компании ПРОМТ, электронный переводчик PROMT XT Office - первый продукт, реализующий новую концепцию автоматического перевода, основанную на технологии Ассоциированной Памяти. Новый уровень лингвистических алгоритмов обеспечивает улучшение качества перевода для не менее, чем 55% предложений.

    PROMT XT Office решает следующие задачи :

    · Перевод документов следующих форматов: DOC, RTF, TXT, HTML. Впервые реализована возможность перевода документов в формате Adobe Acrobat.

    · Комфортная работа с иноязычными документами в приложениях Microsoft Word, Excel, PowerPoint обеспечивается благодаря интеграции программы в приложения MS Office 2000/XP и Microsoft Office System 2003.

    · Перевод электронной почты.

    · Онлайн-перевод Web-сайтов с сохранением форматирования. (№ 9)

    Направления перевода: английский <-> русский, немецкий <-> русский, французский <-> русский, испанский <-> русский, итальянский -> русский, Гигант (англ.<->рус., нем.<->рус., фран.<->рус.)

    Основные возможности системы перевода:

    · Перевод документов основных форматов: DOC, RTF, HTML, TXT.

    · Сохранение форматирования при переводе.

    · Сохранение результата перевода в файлах формата: RTF и TXT.

    · Перевод PDF-документов непосредственно в Adobe Acrobat 4.х/5.х и Adobe Acrobat Reader 4.х/5.х.

    · Встраивание функций перевода во все основные приложения Microsoft Office 2000/XP (Word, Excel, PowerPoint, FrontPage) и Microsoft Office System 2003*.

    · Перевод электронной почты. Автоматический перевод электронной почты в Microsoft Outlook. Маршрутизация писем по папкам.

    o Все для работы в ИнтернетеОнлайн-перевод Web-сайтов с сохранением форматирования.

    o Перевод запросов для поисковых систем и отправка на указанный сервер.

    o Настройка перевода на базе технологии SmartURL - программа сама запоминает параметры перевода страниц. При повторном посещении страницы параметры перевода восстанавливаются.

    o Создание сайтов на иностранном языке во FrontPage при помощи интегрированных переводческих модулей.

    · Перевод содержимого буфера Windows Clipboard.

    · Интеллектуальные алгоритмы самообучения системы при использовании Ассоциированной Памяти. Ассоциированная Память (АП) - работает по принципу накопления: в процессе перевода сохраняется исходный сегмент (предложение или его часть) и его перевод. При подключении базы АП, система сравнивает каждое предложение с сохраненными в базе сегментами. Если сегмент идентичный исходному найден, он может быть использован для перевода.

    · Мощный лингвистический редактор PROMT, обеспечивающий возможность интерактивного управления переводом.

    o Удобные средства редактирования перевода - синхронная "прокрутка" оригинала и его перевода. Цветовая подсветка связанных фрагментов в оригинале и переводе.

    o Мгновенный перевод любого слова при подведении курсора мышки. Просмотр всех переводов и словоформ выделенного слова.

    o Интеллектуальные алгоритмы автоматического определения языка и тематики текста.

    o Сохранение параметров перевода в шаблонах тематики.

    · Повышение качества перевода за счет персональных настроек:

    o Возможность подключения специализированных словарей, выпускаемых компанией ПРОМТ для различных предметных областей;

    o Создание и пополнение собственных пользовательских словарей.

    o Создание списка зарезервированных слов. Резервирование слов с указанным форматом, например, выделенных курсивом. Резервирование выделенных фрагментов текста.

    o Задание признаков транслитерации незнакомых слов.

    o Выбор алгоритмов перевода (режимы перевода некоторых языковых конструкций, которыми невозможно управлять, модифицируя словарные данные).

    o Подключение макросов для обработки исходного текста и текста перевода.

    o Использование баз Ассоциированной Памяти (АП).

    · Эффективное средство настройки словарей - Dictionary Editor:

    o Возможность просмотра, редактирования, копирования, удаления и восстановления словарных статей из пользовательских словарей.

    o Различные режимы доступа к содержимому словарных статей - "Начинающий" и "Специалист".

    o Интеллектуальные алгоритмы пополнения словарей.

    o Одновременное пополнение связанных словарей в двух направлениях.

    o Возможность ввода в словарь из текстового файла и экспорта словарных статей в текстовый файл или документ RTF.

    · Большой электронный словарь для перевода отдельных слов (реализован для англо-русского, русско-английского, французско-русского, русско-французского, немецко-русского и русско-немецкого направлений перевода).

    · Поддержка внешних программ сканирования, проверки орфографии и электронных словарей.

    · Озвучивание текста при наличии установленных на компьютере средств синтеза речи, совместимых со стандартом Text-To-Speech (TTS). (№ 22,23)

    Программные продукты компании "ПРОМТ" удостоены целого ряда отечественных и зарубежных наград, объективно являются лучшими программами осуществляющими машинный перевод в нашей стране.

    2.2 Сравнительный анализ переводов художественно и политического текста сделанный системой машинного перевода и человеком.

    Чтобы лучше понять принципы действия систем МП, методы использования словарей, анализа грамматики и синтеза структур на выходном языке, необходимо на практике провести несколько опытов и перевести тексты (желательно разные по стилям и тематике), используя одну из систем машинного перевода.

    Для сравнения перевода художественного текста будет использована система машинного перевода PROMT XT. Также будет выполнен перевод этого текста, и произведен сравнительный анализ результатов.

    Возьмём для начала отрывок из сказки «Маленький Принц» на английском языке:

    «The little prince went away, to look again at the roses.

    "You are not at all like my rose," he said. "As yet you are nothing. No one has tamed you, and you have tamed no one. And the roses were very much embarrassed.

    "You are beautiful, but you are empty," he went on. "One could not die for you. To be sure, an ordinary passerby would think that my rose looked just like you - the rose that belongs to me. But in herself alone she is more important than all the hundreds of you other roses. And he went back to meet the fox. "Goodbye," said the fox. "And now here is my secret, a very simple secret: It is only with the heart that one can see rightly; what is essential is invisible to the eye."

    "What is essential is invisible to the eye," the little prince repeated, so that he would be sure to remember.

    "It is the time you have wasted for your rose that makes your rose so important."

    "It is the time I have wasted for my rose..." said the little prince, so that he would be sure to remember.

    "Men have forgotten this truth," said the fox. "But you must not forget it. You become responsible, forever, for what you have tamed. You are responsible for your rose..."

    "I am responsible for my rose," the little prince repeated, so that he would be sure to remember.» (№ 16)


    Вот перевод этого отрывка сделанный переводчиком:

    Маленький принц пошел взглянуть на розы.

    Вы совсем не похожи на мою розу, - сказал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили. И розы очень смутились.

    Вы красивые, но пустые, - продолжал Маленький принц. - Никто не захочетумереть ради вас. Конечно, случайный прохожий, поглядев на мою розу, скажет, что онаточно такая же, как вы. Но мне она одна дороже всех вас

    И Маленький принц возвратился к Лису.

    Прощай... - сказал он.

    Прощай, - сказал Лис. - Вот мой секрет, он очень прост: зорко одно лишь сердце. Самого главного глазами не увидишь.

    - Самого главного глазами не увидишь, - повторил Маленький принц, чтобы лучше запомнить.

    Твоя роза так дорога тебе потому, что ты отдавал ей все свои дни.

    Потому что я отдавал ей все свои дни... - повторил Маленький принц, чтобы лучшезапомнить.

    Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда в ответе за всех, кого приручил. Ты в ответе за твою розу.

    Я в ответе за мою розу... - повторил Маленький принц, чтобы лучше запомнить.

    В некоторых предложениях нам пришлось поменять порядок слов. Несколько слов были «выброшены» из перевода так как их отсутствие или присутствие не влияет на смысл и стилистику перевода. Но в то же время может «резать слух» потому что «по русски» так не говорят. А вот как сделан перевод того же отрывка системой PROMT XT.


    «Маленький принц ушел, снова смотреть на розы.

    "Вы нисколько не походите, мой повысился," он сказал. "Пока еще Вы не ничто. Никто не приручил Вас, и Вы не приручили никого..."

    И розы были очень обеспокоены. "Вы красивы, но Вы пусты," он продолжал. "Нельзя было умереть для Вас. Безусловно, обычный прохожий думал бы, что мой повысился, смотрел точно так же как Вы, повысился, который принадлежит мне. Но в себе один она более важна чем все сотни из Вас другие розы....

    "И он возвратился, чтобы встретить{выполнить} лису.

    "До свидания, " сказал лиса. "И теперь вот - моя тайна, очень простая тайна: только с сердцем можно видеть справедливо; что является существенным, невидим для глаза."

    "Что является существенным, невидим для глаза, " маленький принц повторился, так, чтобы он убедился, что помнил

    "Это - время, которое Вы потратили впустую для вашего, повысился, который делает ваш, повысился настолько важным."

    "Это - время, которое я потратил впустую для моего, повысился... "сказал маленький принц, так, чтобы он убедился, что помнил.

    "Мужчины забыли эту правду, "сказала лиса. "Но Вы не должны забыть это. Вы становитесь ответственными, навсегда, для того, что Вы приручили.

    Вы ответственны за ваш, повысился..."

    "Я ответственен за мой, повысился, " маленький принц повторился, так, чтобы он убедился, что помнил.

    Как мы видим, перевод текста сделан пословно. Программа не может менять местами слова в предложениях то есть в выходном языке порядок слов почти всегда такой же как, как и во входном. Также очень бросается в глаза перевод слова «rose» - «повысился», я согласна, слово «rose» очень многозначно. Но даже словарь выдает первым значение при переводе именно слово «роза», система же, даже не предлагает его в качестве варианта. Но в тоже время слово «роза», во множественном числе «roses», система переводит правильно (не учитывая при этом что «roses» - n, pl, AmE, sl «He uses roses - Он ударяет по аптеке»). Очевидно что в данном контексте слово должно переводиться как «роза», однако система не может проанализировать контекст и следовательно не может правильно выбрать эквивалент. Смущает слова «Вас» написанное с большой буквы, очевидно в настройках для этого пользователя слово «you» должно переводиться как «Вы» именно с большой буквы. А не как «ты» или «вы». Но в этой версии программы это легко поправимо, достаточно изменить настройки для текущего пользователя. Слово «look» переведено как «смотреть», не учитывая то, что можно также перевести как «выглядеть», что предпочтительно в данном случае. Выражение «in herself alone» переведенное как «в себе один». Естественно всем известно, что английские существительные утратили грамматическую категорию рода. Следовательно все они согласуются с местоимением 3 лице ед.числа «it» - среднего рода. В русском же языке категория рода у существительных присутствует. Упущением системы является невозможность согласования в роде на выходном языке. Слова «роза» в русском языке женского рода. Слова данные в скобках это варианты перевода слов (вторые значения), которые система оставляет на выбор редактора переводчика. Слово «rightly» переведено в первом значении, без дополнительных вариантов. Так же и со словом «essential». Слово «wasted» заданное не в начальной форме переведено электронным словарем ABBY Lingvo как: «wasted» прил.- истощенный; исхудавший, худой; чахлый; бледный; в данном же тексте его следует перевести как «провел», «отдавал».

    На данном этапе работы, целесообразно сравнить сделанные переводы с английского с переводами с французского (язык оригинала), для того чтобы наглядно выявить существуют ли те же проблемы в грамматике и словаре при переводе с французского.

    Le petit prince s"en fut revoir les roses:

    «Vous n"êtes pas du tout semblables à ma rose, vous n"êtes rien encore, leur dit-il. Personne ne vous a apprivoisées et vous n"avez apprivoisé personne.»

    Et les roses étaient bien gênées.

    «Vous êtes belles, mais vous êtes vides, leur dit-il encore. On ne peut pas mourir pour vous. Bien sûr, ma rose à moi, un passant ordinaire croirait qu"elle vous ressemble. Mais à elle seule elle est plus impor­tante que vous toutes

    Et il revint vers le renard:

    «Adieu, dit-il...

    Adieu, dit le renard. Voici mon secret. Il est très simple: on ne voit bien qu"avec le cœur. L"es­sentiel est invisible pour les yeux.

    L"essentiel est invisible pour les yeux, répéta le petit prince, afin de se souvenir.

    C"est le temps que tu as perdu pour ta rose qui fait ta rosé si importante.

    C"est le temps que j"ai perdu pour ma rose..., fit le petit prince, afin de se souvenir.

    Les hommes ont oublié cette vérité, dit le renard. Mais tu ne dois pas l"oublier. Tu deviens responsable pour toujours de ce que tu as apprivoisé. Tu es responsable de ta rose...

    Je suis responsable de ma rose...», répéta le petit prince, afin de se souvenir. (№ 5)


    Перевод сделанный переводчиком:

    «Маленький принц пошел взглянуть на розы.

    Вы совсем не похожи на мою розу, - ска­зал он им. - Вы еще ничто. Никто вас не при­ручил, и вы никого не приручили.

    И розы очень смутились.

    Вы красивые, но пустые, - сказал он наконец. - Никто не захочет умереть ради вас. Конечно, случайный прохожий, по­глядев на мою розу, скажет, что она точно та­кая же, как вы. Но мне она одна дороже и важнее всех вас

    И Маленький принц возвратился к Лису.

    Прощай... - сказал он.

    Прощай, - сказал Лис. - Вот мой сек­рет, он очень прост: видеть можно только сердцем. Самое главное невидимо для глаз.

    Самое главное невидимо для глаз, - повторил Маленький принц, чтобы лучше за­помнить.

    То что ты отдавал своей розе так много времени, делает её особенной.

    Потому что я отдавал ей так много времени... - повторил Маленький принц, чтобы лучше за­помнить.

    Люди забыли эту истину, - сказал Лис, - но ты не забывай: ты навсегда ответственен за всех, кого приручил. Ты в ответе за твою розу.

    Я в ответе за мою розу... - повторил Ма­ленький принц, чтобы лучше запомнить.»


    Перевод сделанный системой PROMT с французского на русский:


    Маленький принц был снова увидеть розы:

    " Вы не подобны моей розе, вы не являетесь ничем еще, он им говорит. Никто вас не приручил и вы не приручили никого.

    " И розы были очень стеснительны.

    " Вы красивы, но вы пустые, он им говорит еще. Не можем умереть для вас. Конечно, моя роза, обычный прохожий полагала бы, что она на вас будет походить. Но ей только она больше imporкtante, что Вы все

    И он возвратился к лисе:

    " До свидания, он говорит

    До свидания, говорит лиса. Вот моя тайна. Он очень прост: видим хорошо только с c и * 339; ur. Существенная часть невидим для глаз.

    Существенная часть невидима для глаз, повторил маленький принц, для того, чтобы вспоминать.

    Именно время ты потерял для твоей розы, которая делает твоя роза столь важная.

    Именно время я потерял для моей розы, сделал маленького принца, для того, чтобы вспоминать.

    Люди забыли эту правду, говорит лиса. Но ты не должен его забывать. Ты становишься ответственным навсегда того, что ты приручил.

    Ты - ответственный за твою розу - Я - ответственный за мою розу ", повторил маленький принц, для того, чтобы вспоминать.


    В целом, перевод вполне корректен, ясен общий смысл отрывка. Перевод так же сделан пословно, что подтверждает нам, что система не может менять порядок слов в выходном языке. Система оказалась не в состоянии перевести 2 слова, одно из них она транслитирировала, а одно заменила цифровым кодом из за того что выражение «que avec le сoeur» написано как «qu`avec le сoeur». Гласная «е» всегда выпадает в таких случаях, а на письме усекается. Так же как и при переводе с английского обнаруживаются несоответствия рода на выходном (русском) языке. Хотя система писалась русскоязычными специалистами. Перевод некоторых предложений заставляет думать, что это переводил человек слабо говорящий по-русски. Проблема заключается не в синтезе грамматической структуры выходного языка, а в непонимании структуры входного языка, то есть, по сути дела в грамматическом анализе. В принципе простые предложения система переводит относительно правильно, сложные, сложно - сочинённые или сложно -подчиненные предложения тоже переводятся относительно легко. Но если встречаются вводные или пояснительная конструкция и разрывается основное предложение, то программа начинает пословный перевод, без учета синтаксиса, пытаясь просто связать слова. Таки образом вариант на выходе получается очень сложным и запутанным. Но даже если прописать алгоритмы для всех этих правил, без понимания входного текста перевод так и будет оставаться иногда полностью бессвязным.

    Заключение.

    Можно сделать вывод, что полностью автоматический машинный перевод, это очень сложная задача, которую предстоит решить не только лингвистам, но и программистам, специалистам по кибернетике и многим другим представителям наук которые затрагивает эта проблема. Очень сложно смоделировать сам процесс перевода с помощью компьютерной программы. Если человек осуществляя перевод мыслит образами и исходит из того какую мысль к конечном итоге надо донести до слушателя, то научить этому программу невозможно (на данном этапе развития компьютерных технологий.

    Современные программы машинного перевода очень далеки от того идеала к которому стремятся их разработки. Но они уже без сомнений могут служить хорошим подспорьем переводчику в его рутинной работе. Хотя бы тем, что без проблем могут за несколько секунд сделать подстрочный перевод любого по сложности и объёму текста. Если при этом верно настроено распределение приоритетных словарей для данной тематики и направления перевода, то на выходе редакторская правка требуется минимальная (в сравнении с переводом при подключённом словаре общей лексики). Естественно полностью отдать текст в руки машины нельзя. Системы нового поколения могут «запоминать» уже переведенные однажды конструкции и впоследствии уже не требовать повторного их перевода. Системы эффективны в помощи пользователям еще и потому что есть возможность создавать «пользовательский» словарь, что существенно облегчает перевод по определенной тематике.

    Но все же недостатков у систем машинного перевода, по моему мнению, больше чем достоинств. Главный недостаток это конечно же словарь. Программа не учитывает элементарных значений слов и не предлагает их в качестве варианта при переводе. Тем самым это заставляет пользователя искать эти словоформы в словаре, что бьет по одному из основных достоинств системы, по мнению производителей, - скорости. Недостатки на уровне грамматики. Эти недостатки прослеживаются как при анализе не входном языке, так и при синтезе на выходном. Не учтены грамматические особенности входных и выходных языков, такие как например, род существительных в русском языке и его отсутствие в английском. Система как правило проводит еще и синтаксический анализ на входе, но если предложение не вписывается в алгоритм заданный программой, система начинает пословный перевод не обращая внимание на синтаксические связи.

    Рассмотрев данную проблему, я пришла к выводу, что машинный перевод в принципе возможен, но его стоит рассматривать только как «черновой» вариант перевода, который подлежит обязательному редактированию.

    Библиография

    Источники литературы на русском языке


    1. Арапов М.В. Шрейдер Ю.А. Семантика и машинный перевод.М., 1965.№ 1

    2. Бархударов Л.С. Язык и перевод. - М.: Межд. отношения, 1975.

    3. Белоногов Г.Г. Зеленков Ю.Г. Интерактивная система русско-английского и англо-русского машинного перевода, ВИНИТИ, 1993

    4. Вестник Московского Университета. Сер.19 Лингвистика и межкультурная коммуникация. 2004. № 4, с.51.

    5. Домашний компьютер – 2004., № 12

    6. Каничев М. Статья. // Мир ПК. - 1998, № 8.

    7. Комиссаров В.Н. «Современное переводоведение», ЭТС,М. 2004.с.411.

    8. Компьютер Пресс. – 2004. № 7

    9. Компьютер Пресс. – 2004. -№11

    10. Людсканов А. Селективная стратегия при машинном переводе. - В кн.: Международный семинар по машинному переводу. М., ВЦП, 1975

    11. Марчук Ю. Н. Проблемы машинного перевода. М.: Наука, 1983

    12. Материалы по машинному переводу. Вып. 1. Л.,1958. с.5.

    13. Машинный перевод. Сборник статей, перевод с английского, М., 1957

    14. Мир ПК. – 2004. - № 9

    15. Мир Internet. – 2001. № 2, с. 16-26.

    16. Миньяр – Белоручев А.П., Английский язык. Учебник устного перевода. М., «Экзамен» , 2004г.

    17. Панов Д.Ю., Автоматический перевод, М., 1958

    18. Ревзин. И., В.Ю. Розенцвейг. Основы общего и машинного перевода., 1964.

    19. Техника – молодежи. – 2005. № 2.

    20. Шаляпина З.М. «Автоматический перевод: эволюция и современные тенденции» вопросы языкознания, 1996, № 2


    Источники литературы на иностранных языках


    2. Dezso L., Papp F. Механизация лексикографических работ и обратные словари. – In: «Сomputational linguistics, III», р.212 - 215

    3. Antoine de Saint – Exupery. Le petit prince.,M.,Jupiter-inter, 2003

    4. Visson L., From Russian into English, Ardis, 1991


    Электронные источники


    5. Электронный словарь ABBY LINGVO 9.0


Если Вас интересует помощь в НАПИСАНИИ ИМЕННО ВАШЕЙ РАБОТЫ , по индивидуальным требованиям - возможно заказать помощь в разработке по представленной теме - Машинный перевод.Система машинного перевода PROMT ... либо схожей. На наши услуги уже будут распространяться бесплатные доработки и сопровождение до защиты в ВУЗе. И само собой разумеется, ваша работа в обязательном порядке будет проверятся на плагиат и гарантированно раннее не публиковаться. Для заказа или оценки стоимости индивидуальной работы пройдите по
  • Новожилова Анна Алексеевна

Ключевые слова

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ / ЭЛЕКТРОННЫЕ СЛОВАРИ / АВТОМАТИЗАЦИЯ ПЕРЕВОДА / МАШИННЫЙ ПЕРЕВОД / КАЧЕСТВО ПЕРЕВОДА

Аннотация научной статьи по языкознанию, автор научной работы - Новожилова Анна Алексеевна

В статье подробно рассматриваются две системы машинного перевода «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе , и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов , выполненных с помощью компьютерных программ, является их постредактирование.

Похожие темы научных работ по языкознанию, автор научной работы - Новожилова Анна Алексеевна,

  • Постредактирование машинного перевода как актуальное направление подготовки переводчиков в вузах

    2018 / Нечаева Наталья Викторовна, Светова Светлана Юрьевна
  • Языковая личность переводчика и машинный перевод

    2011 / Бабина Ольга Ивановна
  • 2009 / Коротких Г. И., Коротких Гал И.
  • Google-переводчик: практика и перспективы применения в юридическом вузе

    2018 / Мартыненко Ирина Анатольевна
  • Формирование основ переводческой компетенции при взаимодействии студентов в компьютерной обучающей среде

    2016 / Абдуллахитов Рустам Шахраниевич, Дашкина Александра Игоревна

The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Текст научной работы на тему «Машинные системы перевода: качество и возможности использования»

DOI: http://dx.doi.org/10.15688/jvolsu2.2014.3.8

УДК 81"322.4 ББК 81.184

МАШИННЫЕ СИСТЕМЫ ПЕРЕВОДА: КАЧЕСТВО И ВОЗМОЖНОСТИ ИСПОЛЬЗОВАНИЯ

Новожилова Анна Алексеевна

Кандидат филологических наук, доцент кафедры теории и практики перевода Волгоградского государственного университета [email protected], [email protected]

просп. Университетский, 100, 400062 г Волгоград, Российская Федерация

Аннотация. В статье подробно рассматриваются две системы машинного перевода - «ПРОМТ» и «Google Translate», которые в настоящее время наиболее популярны среди пользователей интернета. Работа этих систем организована по разным принципам: «ПРОМТ» работает по так называемому принципу «перевода по правилам» и копирует переводческую деятельность человека; «Google Translate» осуществляет переводы по технологии, основанной на принципе статистики. На примере фрагментов текстов разных жанров предлагается лингвистический анализ качества переводов с английского языка на русский, выполненных данными системами. В ходе тестирования выявляются типичные ошибки, допускаемые в машинном переводе, и определяются возможности и сферы использования каждой из переводческих систем. Устанавливается, что данные системы непригодны для работы с текстами, содержащими большое количество сложносочиненных и сложноподчиненных предложений. Эти программы работают в основном на уровне словосочетания, и их можно успешно применять для перевода формализованных текстов, например технической документации, потребительских инструкций, формальных описаний и т. п., для которых характерно использование простых распространенных предложений и в которых не содержатся предложения со сложными синтаксическими конструкциями. Делается вывод о том, что профессиональные переводчики могут прибегать к помощи этих систем в своей практической деятельности при работе с определенными типами текстов, что помогает экономить время и оптимизировать процесс перевода. Однако обязательным условием достижения высокого качества переводов, выполненных с помощью компьютерных программ, является их постредактирование.

Ключевые слова: информационные технологии, электронные словари, автоматизация перевода, машинный перевод, качество перевода.

^ Научно-технический прогресс влечет за собой возрастание потоков информации, кото-« рой обмениваются носители разных языков, что

1 способствует расширению межъязыковых гра-о ниц и увеличению объема текстов, требующих щ перевода. «В настоящее время перевод выпол-© няет главную функцию в процессе межкультур-

ной коммуникации, позволяя человечеству преодолевать трудности в аккумулировании полезной и необходимой информации» . Современные переводчики уже не могут использовать в своей работе лишь словари. В пере-водоведении все больше внимания уделяется анализу электронных средств, позволяющих

ускорить и оптимизировать процесс перевода. Отечественные и зарубежные ученые-лингвисты, практики и теоретики-переводоведы, в особенности специалисты в области переводческого терминоведения и машинного перевода, отмечая возрастающую значимость информационных технологий в лингвистике в целом и в переводе в частности, разрабатывают различные стратегии и методы их наиболее эффективного применения в профессиональной деятельности .

Процессы глобализации и общедоступность интернета обусловили интенсивное развитие и совершенствование систем информационного обеспечения коммуникативной деятельности . По мнению В.Н. Шевчука, начало нового тысячелетия совпало с наступлением эры информационной революции и в практической деятельности профессиональных переводчиков и филологов за последние 20 лет произошли гигантские изменения . Многие ученые считают, что появление компьютеров и интернета стало серьезным шагом вперед в области практического перево-доведения, позволило значительно повысить качество перевода, особенно при переводе текстов с родного языка на иностранный, а переводчикам работать стало проще и быстрее . А.Н. Усачева утверждает, что благодаря интернету «переводчик приобрел уникальную возможность выхода в мировую информационную сеть, ему стали доступны данные отовсюду. Изменения, которые это внесло в профессию переводчика, настолько колоссальны, что все последствия этого сейчас вряд ли возможно оценить» .

Сегодня в распоряжении переводчика находятся разнообразные электронные инструменты, ускоряющие и облегчающие переводческий процесс. Наиболее известными из них являются электронные переводные словари («Lingvo», «Мультитран», «Мультилекс», «Babylon», «Polyglossum» и др.), системы класса Translation Memory («TRADOS», «Déjà vu», «Wordfast» и др.), программы автоматического редактирования текстов, программы распознавания устной речи, электронные библиотеки, терминологические базы данных, а также сама глобальная сеть Интернет как хранилище информационных ресурсов. Все эти инструменты являются лишь вспомогательными в

деятельности профессионального переводчика, хотя ученые еще с середины прошлого столетия работают над созданием систем, которые автоматически выполняли бы безупречные переводы с одного языка на другой. Первая система машинного перевода - IBM Mark II, разработанная компанией IBM совместно с Джорджтаунским университетом, была представлена в 1954 г. в Нью-Йорке. С тех пор исследования и разработки в сфере машинного перевода не прекращаются, а специалисты в области перевода на протяжении многих лет ведут споры о целесообразности применения программ автоматического перевода. В среде профессиональных переводчиков высказывается много аргументов за их использование и против него, но как противники, так и сторонники машинного перевода остаются единодушны в том, что у этих программ есть одно неоспоримое преимущество - значительная экономия времени, затрачиваемого на перевод больших объемов текста. На сегодняшний день существуют различные системы машинного перевода, некоторые из них выполняют перевод на довольно высоком уровне. Но для того, чтобы выявить, какие именно системы подходят для работы с теми или иными языками или типами текстов, необходимо осуществлять тестирование этих систем и анализировать качество перевода на основе больших фрагментов текстов. Это входит в задачи лингвистов-переводоведов, а разработчики автоматизированных программ перевода стараются исправлять ошибки в системе, развивать и совершенствовать свои продукты, опираясь на получаемые результаты и теоретические обоснования специалистов в области переводоведения.

К основным факторам, затрудняющим машинный перевод, исследователи относят:

Языковую неоднозначность, которая может быть как лексического, так и грамматического характера;

Наличие сложных синтаксических структур, которые могут значительно различаться в языке оригинала и в языке перевода;

Различия в порядке слов в предложении (прямой / обратный, строгий / свободный);

Наличие анафорических связей в тексте;

Наличие идиом, смысл которых невозможно передавать посредством пословного перевода;

Наличие неологизмов;

Существование культурных различий у языковых сообществ и т. д. .

Среди наиболее известных автоматических переводчиков можно выделить системы машинного перевода «ПРОМТ» и «Google Translate». Автоматический переводчик «ПРОМТ» работает по принципу «перевода по правилам». Технология этого перевода состоит в применении алгоритмов, в соответствии с которыми программа анализирует текст и на основе проведенного анализа синтезирует вариант перевода. Считается, что работа такого машинного переводчика похожа на процесс мышления человека . Работа системы машинного перевода «Google Translate» осуществляется по принципиально иной технологии, основанной на статистическом вычислении вероятности совпадений. Этой системой используется множество баз параллельных текстов, в которых попарно хранятся словосочетания и их переводы. В процессе перевода осуществляется статистический анализ: система подбирает эквивалент для перевода, основываясь на частоте употреблений, и в итоге подставляет вариант, имеющий наиболее высокий процент совпадений. Следует отметить, что «Google Translate» изначально разрабатывался для перевода с английского языка и на него, и до сих пор английский является языком-посредником при работе с другими парами языков. Иначе говоря, перевод осуществляется не напрямую: сначала происходит трансфер текста с языка-оригинала на английский, а уже потом - на необходимый язык перевода, что во многом влияет на качество перевода.

Сопоставим примеры переводов, выполненные системами «ПРОМТ» и «Google Translate» с английского языка на русский. При переводе фрагмента текста технического характера - инструкции по эксплуатации электронного устройства (игровой приставки) - были получены следующие результаты:

Оригинал:

Keep food and beverages away from product. Do not spill liquid of any kind on this product as it may render it inoperative. Clean with a slightly damp cloth (cold water). Do not use soap, detergent or other chemicals. Never submerge the unit in water.

«ПРОМТ» (режим - общая тематика, без подключения специализированных словарей):

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может отдать его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте единицу в воду.

«Google Translate» (основной предлагаемый вариант):

Держите еду и напитки от продукта. Не допускайте попадания какой-либо жидкости об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Следует отметить, что обе системы правильно распознали формы повелительного наклонения, используемые в тексте оригинала. Переводчик «Google Translate» верно определил частеречную принадлежность всех языковых единиц. Это составляет его преимущество по сравнению с «ПРОМТ», который выбрал для перевода лексемы clean прилагательное чистый, а не глагол очистить. Эта проблема связана с широко распространенным в английском языке явлением грамматической омонимии. «ПРОМТ», выполняя перевод по грамматическим правилам, неверно дешифровал исходную синтаксическую конструкцию и допустил ошибку, поскольку в программе не был учтен тот факт, что английский язык относится к аналитическому типу языков с достаточно строгим порядком слов и обязательным наличием сказуемого в предложении: именно оно при переводе не было распознано. «Google Translate» определил наличие глагола в этом предложении и его грамматическую форму (императив), но не распознал его видового значения, поскольку категория вида в английском языке не является облигаторной для каждой формы глагола. В данном предложении профессиональный переводчик обязательно использовал бы глагол несовершенного вида, чтобы подчеркнуть неоднократность предписываемого действия.

Приведенные переводы показывают, что обе системы не всегда хорошо справляются с выбором управления глаголов и часто работа-

ют на уровне словосочетаний, стоящих в непосредственной близости друг от друга (попадания какой-либо жидкости об этом продукте; не проливайте жидкость никакого вида на этом продукте и др.). При этом осуществлен и корректный выбор управления, например: Никогда не погружайте единицу в воду / Никогда не погружайте прибор в воду; Не используйте мыло, моющее средство или другие химикаты / Не используйте мыло, моющие средства или другие химические вещества.

Различия обнаруживаются и при переводе наречий. Так, «ПРОМТ» перевел наречие away с помощью наречия отдельно, а «Google Translate» опустил это наречие, ограничившись переводом предлога from. Однако применение функции просмотра и выбора доступных вариантов перевода позволяет увидеть, что в «Google Translate» единицы away и from рассматриваются как связанная пара и предлагаются более точные варианты перевода -вдали от, далеко от.

В системе «ПРОМТ» есть функция выбора специальной терминологической области. При переводе данного отрывка с подключением тематической области «техника: гад-жеты» был получен следующий текст:

Держите отдельно еду и напитки от продукта. Не проливайте жидкость никакого вида на этом продукте, поскольку это может представить его недействующий. Чистый с немного влажной тканью (холодная вода). Не используйте мыло, моющее средство или другие химикаты. Никогда не погружайте модуль в воду.

Подключение специализированной тематической области обусловило замену лексемы единица лексемой модуль, что в данном контексте можно рассматривать как более удачный вариант. При переводе английского глагола render был использован глагол представить, а не глагол отдать. Однако оба варианта нельзя считать корректными, поскольку в данном случае глагол render следовало бы перевести посредством словосочетания приводить в состояние (это может привести его в неисправное состояние).

Если воспользоваться в системе «Google Translate» предлагаемыми для отдельных словосочетаний вариантами перевода, то можно «собрать» следующий текст:

Храните еду и напитки вдали от продукта. Избегайте попадания каких-либо жидкостей об этом продукте, как это может сделать его неработоспособным. Очистите со слегка влажной тканью (холодная вода). Не используйте мыло, моющие средства или другие химические вещества. Никогда не погружайте прибор в воду.

Приведенный перевод свидетельствует о том, что пользователю чаще всего предлагаются варианты, которые практически не различаются ни лексически, ни грамматически. Однако если сравнить оригинал и перевод второго предложения, то видно, что система произвела грамматическую и лексическую трансформации, заменив императив глагола spill в отрицательной конструкции (Do not spill liquid of any kind- дословно: не проливайте жидкостей какого-либо рода) на конструкцию «глагол + существительное» (не допускайте / избегайте попадания), но правильного управления для существительного (попадание куда-л.) распознать не смогла. При переводе второй части этого предложения не было дано корректного варианта и для многозначного союза as («так как, поскольку»), использующегося для выражения причинно-следственных отношений.

Результаты анализа представлены в приведенной ниже таблице.

Сравнение машинных переводчиков «ПРОМТ» и «Google Translate»

Языковой параметр сопоставления Система машинного перевода

«ПРОМТ» «Google Translate»

Наклонение + +

Часть речи + +/-

Управление +/- +/-

Лексика +/- +/-

Из таблицы видно, что обе системы хорошо распознают наклонение; «ПРОМТ» допускает меньше ошибок с определением ча-стеречной принадлежности лексических единиц; обе системы не всегда справляются с выбором верного управления, подбором правильного лексического эквивалента и нормами употребления глагольного вида в русском языке. Однако, несмотря на наличие ошибок и неточностей, допущенных программами, можно сделать вывод о том, что общий смысл переведенного фрагмента понятен, и после

внесения корректуры в переводы, выполненные каждой из систем, можно получить текст, который будет вполне соответствовать нормам русского языка.

Приведем в качестве еще одного примера переводы текста другого жанра - энциклопедической статьи.

Оригинал (фрагмент):

Article 5 of the North Atlantic treaty, requiring member states to come to the aid of any member state subject to an armed attack, was invoked for the first and only time after the 11 September 2001 attacks, after which troops were deployed to Afghanistan under the NATO-led ISAF. The organization has operated a range of additional roles since then, including sending trainers to Iraq, assisting in counter-piracy operations and in 2011 enforcing a no-fly zone over Libya in accordance with U.N. Security Council Resolution 1973.

Статья 5 Североатлантического соглашения, требуя, чтобы государства-члены пришли на помощь любому государству-члену, подвергающемуся вооруженному нападению, была призвана в течение первого и единственного времени, после 11 сентября 2001 нападает, после которого войска были развернуты в Афганистан под ВЕДОМЫМ НАТО ISAF. Организация управляла диапазоном дополнительных ролей с тех пор, включая отправку тренеров в Ирак, помощь в операциях противопиратства и в 2011 проводя в жизнь бесполетную зону по Ливии в соответствии с Резолюцией 1973 Совета безопасности ООН.

«Google Translate»:

Статья 5 Североатлантического договора, требующего государства-члены пришли на помощь любой стране-члене условии вооруженного нападения, был вызван в первый и единственный раз после 11 сентября 2001 года, после чего войска были развернуты в Афганистане под под руководством НАТО ISAF. Организация осуществляет свою деятельность ряд дополнительных ролей с тех пор, включая отправку инструкторов в Ирак, помощь в борьбе с пиратством и в 2011 году приведения бесполетной зоны над Ливией в соответствии с Резолюцией 1973 Совета Безопасности ООН.

Исходный фрагмент текста состоит из двух повествовательных предложений, первое из которых является сложноподчиненным и содержит большое количество конструкций,

построенных на основе подчинительных связей между их компонентами. Второе является простым распространенным предложением с однородными членами, герундием и сложными синтаксическими конструкциями. Переводы позволяют увидеть, что обе системы не распознают сложных синтаксических связей, неверно определяют сказуемое, объектные, атрибутивные и другие отношения в предложении. Выполненные переводы представляют собой, скорее, произвольный набор слов и словосочетаний, не объединенных смысловыми связями. Их, в отличие от предыдущего примера, невозможно отредактировать, не обращаясь к оригиналу.

Представленный анализ позволяет сделать вывод о том, что машинные переводчики «Google Translate» и «ПРОМТ» непригодны для переводов текстов, изобилующих сложносочиненными и сложноподчиненными предложениями, распространенными определениями, метафорическими сравнениями, сложными синтаксическими конструкциями и т. п. Перевод таких текстов может выполнить лишь человек, поскольку только он способен к осуществлению глубинных когнитивных речемыслитель-ных процессов. Однако машинные системы можно использовать для перевода с английского на русский язык текстов, которые достаточно формализованы в речевом плане (техническая документация, потребительские инструкции, контракты и т. п.). Однако и в этом случае выполненные машиной переводы требуют обязательного редактирования и доработки «вручную». Профессиональные переводчики, от которых социум, как правило, ожидает переводы высокого качества, могут прибегать к помощи «ПРОМТ» и «Google Translate» при переводе текстов, ограниченных в сфере функционирования, поскольку названные компьютерные системы часто предлагают вполне адекватные, не требующие редактирования, варианты переводов для отдельных предложений или небольших фрагментов текста либо варианты, требующие минимальной корректуры, которая занимает у опытного переводчика незначительное время. Таким образом, системы «ПРОМТ» и «Google Translate» при правильном использовании способствуют ускорению процесса перевода и оптимизации труда практикующих переводчиков.

СПИСОК ЛИТЕРА ТУРЫ

1. Андреев, А. Машинный перевод: правила против статистики / А. Андреев. - Электрон. текстовые дан. - Режим доступа: http://www.computerra.ru/ cio/old/offline/2007/63/329838/. - Загл. с экрана.

2. Зубов, А. В. Информационные технологии в лингвистике / А. В. Зубов, И. И. Зубова. - М. : Академия, 2004. - 208 с.

3. Королев, Э. И. Промышленные системы машинного перевода / Э. И. Королев. - М. : Всесо-юз. центр переводов, 1991. - 104 с.

4. Марчук, Ю. Н. Компьютерная лингвистика / Ю. Н. Марчук. - М. : АСТ: Восток-Запад, 2007. -320 с.

5. Новожилова, А. А. Обучение студентов-переводчиков работе с электронными ресурсами как основа их будущей конкурентоспособности и успешности / А. А. Новожилова, Е. А. Шовгенина // Вестник Волгоградского государственного университета. Серия 6, Университетское образование. -2013. - №> 14. - С. 70-76.

6. Соловьева, А. В. Профессиональный перевод с помощью компьютера / А. В. Соловьева. -СПб. : Питер, 2008. - 160 с.

7. Тиссен, Ю. В. Интернет в работе переводчика / Ю. В. Тиссен // Мир перевода. - 2000. - .№ 2. -С. 45-62.

8. Усачева, А. Н. Инновационные технологии в профессиональном переводе / А. Н. Усачева // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф., г. Волгоград, 29 янв. 2008 г. - Волгоград: Волгогр. науч. изд-во, 2008. -С. 81-87.

9. Усачева, А. Н. Перевод: от лингвистической теории к когнитивной модели / А. Н. Усачева // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2011. - J№ 1 (13). -С. 131-137.

10. Шевчук, В. Н. Информационные технологии в переводе. Электронные ресурсы переводчика - 2 / В. Н. Шевчук. - М. : Зебра Е, 2013. -384 с.

11. Шевчук, В. Н. Электронные ресурсы переводчика / В. Н. Шевчук. - М. : Либрайт, 2010. -136 с.

12. Austermühl, F. Electronic Tools for Translators / F. Austermühl. - Manchester: St. Jerome, 2001. - 192 p.

13. Bowker, L. Computer-Aided Translation Technology: A Practical Introduction / L. Bowker. -Ottawa: Univ. of Ottawa Press, 2002. - 185 p.

14. Computers and Translation: A Translator"s Guide / H. Somers (ed.). - Amsterdam ; Philadephia: John Benjamins Publ. Company, 2003. - 349 p.

1. Andreev A. Mashinnyy perevod: pravila protiv statistiki . Available at: http://www.computerra.ru/cio/ old/offline/2007/63/329838/.

2. Zubov A.V., Zubova I.I. Informatsionnye tekhnologii v lingvistike . Moscow, Akademiya Publ., 2004. 208 p.

3. Korolev E.I. Promyshlennye sistemy mashinnogo perevoda . Moscow, Vsesoyuznyy tsentr perevodov Publ., 1991. 104 p.

4. Marchuk Yu.N. Kompyuternaya lingvistika . Moscow, AST, Vostok-Zapad Publ., 2007. 320 p.

5. Novozhilova A.A., Shovgenina E.A. Obuchenie studentov-perevodchikov rabote s elektronnymi resursami kak osnova ikh budushchey konkurentosposobnosti i uspeshnosti . Vestnik Volgogradskogo gosudarst-vennogo universiteta. Seriya 6, Universitetskoe obrazovanie , 2013, no. 14, pp. 70-76.

6. Solovyeva A.V. Professionalnyy perevod s pomoshchyu kompyutera . Saint Petersburg, Piter Publ., 2008. 160 p.

7. Tissen Yu.V. Internet v rabote perevodchika . Mir perevoda, 2000, no. 2, pp. 45-62.

8. Usacheva A.N. Innovatsionnye tekhnologii v professionalnom perevode . Kommunikativnye aspekty sovremennoy lingvistiki i lingvodidaktiki. Materialy Mezhdunarodnoy nauchnoy konferentsii. Volgograd, 29 yanvarya 2008 . Volgograd, Volgogradskoe nauchnoe izd-vo, 2008, pp. 81-87.

9. Usacheva A.N. Perevod: ot lingvisticheskoy teorii k kognitivnoy modeli .

Vestnik Volgogradskogo gosudarstvennogo universiteta. Seriya 2, Yazykoznanie , 2011, no. 1 (13), pp. 131-137.

10. Shevchuk V.N. Informatsionnye tekhnologii v perevode. Elektronnye resursy perevodchika - 2 . Moscow, Zebra E Publ., 2013. 384 p.

11. Shevchuk V.N. Elektronnye resursy perevodchika . Moscow, Librayt Publ., 2010. 136 p.

12. Austermühl F. Electronic Tools for Translators. Manchester, St. Jerome, 2001. 192 p.

13. Bowker L. Computer-Aided Translation Technology: A Practical Introduction. Ottawa, University of Ottawa Press, 2002. 185 p.

14. Somers H., ed. Computers and Translation: A Translator"s Guide. Amsterdam, Philadephia, John Benjamins Publishing Company, 2003. 349 p.

MACHINE TRANSLATION SYSTEMS: QUALITY AND POSSIBLE WAYS OF USE

Novozhilova Anna Alekseevna

Candidate of Philological Sciences,

Associate Professor, Department of Translation Theory and Practice, Volgograd State University [email protected], [email protected]

Prosp. Universitetsky, 100, 400062 Volgograd, Russian Federation

Abstract. The article considers two machine translation systems, PROMT and Google Translate, which work on different principles. PROMT works on the so-called "translation by the rules" principle. Google Translate uses the technology which is based on the statistics principle. The article presents the linguistic analysis of the quality of the translations of text fragments of various genres made from English into Russian by these systems. The most typical mistakes made by the systems are revealed, the possibilities and spheres of use are determined. The author reveals that the systems are not useful for translating texts which are full of compound and complex sentences. The programs work mainly on the phrase level and can be fruitfully used for translating texts of formal style, for example, technical documents, manuals, etc., which contain simple extended sentences and do not contain sentences with complex syntactic constructions. The author considers that professional translators can use these systems while working with certain text types; however, the translations made by the systems must be checked thoroughly and verified.

Key words: information technologies, electronic dictionaries, computerized translation, machine translation, quality of translation.

В настоящее время различают три вида систем машинного перевода:

Системы на основе грамматических правил (Rule-Based Machine Translation, RBMT);

Статистические системы (Statistical Machine Translation, SMT);

Гибридные системы;

Системы на основе грамматических правил производят анализ текста, который используется в процессе перевода. Перевод производится на основе встроенных словарей для данной языковой пары, а так же грамматик, охватывающих семантические, морфологические, синтаксические закономерности обоих языков. На основе всех этих данных исходный текст последовательно, предложение за предложением, преобразуется в текст на требуемом языке. Основной принцип работы таких систем - связь структур исходного и конечного текстов.

Системы на основе грамматических правил часто разделяют еще на три подгруппы - системы пословного перевода, трансфертные системы и интерлингвистические системы.

Преимуществами систем на основе грамматических правил являются грамматическая и синтаксическая точность, стабильность результата, возможность настройки на специфическую предметную область. К недостаткам систем на основе грамматических правил относят необходимость создания, поддержки и обновления лингвистических баз данных, трудоемкость создания такой системы, а так же ее высокая стоимость.

Статистические системы при своей работе используют статистический анализ. В систему загружается двуязычный корпус текстов (содержащий большое количество текста на исходном языке и его «ручной» перевод на требуемый язык), после чего система анализирует статистику межъязыковых соответствий, синтаксических конструкций и т. д. Система является самообучаемой - при выборе варианта перевода она опирается на полученную ранее статистику. Чем больший словарь внутри языковой пары и чем точнее он составлен, тем лучше результат статистического машинного перевода. С каждым новым переведенным текстом улучшается качество последующих переводов.

Статистические системы отличаются быстротой настройки и легкостью добавления новых направлений перевода. Среди недостатков наиболее значительными являются наличие многочисленных грамматических ошибок и нестабильность перевода.

Гибридные системы сочетают в себе подходы, описанные ранее. Ожидается, что гибридные системы машинного перевода позволят объединить все преимущества, которыми обладают статистические системы и системы, основанные на правилах.

1.3 Классификация систем машинного перевода

Системы машинного перевода - программы, осуществляющие полностью автоматизированный перевод. Главным критерием программы является качество перевода. Кроме этого, для пользователя важными моментами является удобство интерфейса, лёгкость интеграции программы с другими средствами обработки документов, выбор тематики, утилита пополнения словаря. С появлением Internet основные поставщики систем машинного перевода включили в свои продукты Web-интерфейсы, обеспечив при этом их интеграцию с остальным программным обеспечением и электронной почтой, что позволило применять механизмы МП для перевода Web-страниц, электронной корреспонденции и онлайновых разговорных сеансов.

Новые члены форума по иностранным языкам компании CompuServe зачастую задают вопрос о том, не мог ли бы кто-нибудь посоветовать им хорошую программу машинного перевода за умеренную цену.

Ответом на этот вопрос неизменно является "нет". В зависимости от отвечающего, ответ может содержать два основных аргумента: либо о том, что машинам перевод не под силу, либо, что машинный перевод стоит слишком дорого.

Оба эти аргумента в определенной степени справедливы. Однако ответ далеко не так прост. Изучая проблему машинного перевода (МП), следует рассмотреть отдельно различные подразделы этой проблемы. Следующее разделение основано на лекциях Лари Чайлдса, проведенных в рамках Международной Конференции по Техническим Коммуникациям 1990 года:

Полностью автоматический перевод;

Автоматизированный машинный перевод при участии человека;

Перевод, осуществляемый человеком с использованием компьютера.

Полностью автоматизированный машинный перевод. Этот вид машинного перевода и подразумевается большинством людей, когда они говорят о машинном переводе. Смысл здесь прост: в компьютер вводится текст на одном языке, этот текст обрабатывается и компьютер выводит этот же текст на другом языке. К сожалению, реализация такого вида автоматического перевода сталкивается с определенными препятствиями, которые еще предстоит преодолеть.

Основной проблемой является сложность языка как такового. Возьмем, к примеру, значения слова "can". Помимо основного значения модального вспомогательного глагола, у слова "can" имеется несколько официальных и жаргонных значений в качестве существительного: "банка", "отхожее место", "тюрьма". Кроме этого, существует архаичное значение этого слова - "знать или понимать". Если предположить, что у выходного языка для каждого из этих значений имеется отдельное слово, каким образом может компьютер их различить?

Как оказалось, определенные успехи были достигнуты в сфере разработки программ перевода, различающих смысл основываясь на контексте. Более поздние исследования при анализе текстов опираются больше на теории вероятности. Тем не менее, полностью автоматизированный машинный перевод текстов с обширной тематикой все еще является невыполнимой задачей.

Автоматизированный машинный перевод при участии человека. Этот вид машинного перевода теперь вполне осуществим. Говоря о машинном переводе при участии человека, обычно подразумевают редактирование текстов как до, так и после их обработки компьютером. Люди-переводчики изменяют тексты так, чтобы они были понятны машинам. После того, как компьютер сделал перевод, люди опять-таки редактируют грубый машинный перевод, делая текст на выходном языке правильным. Помимо такого порядка работы, существуют системы МП, во время перевода требующие постоянного присутствия человека-переводчика, помогающего компьютеру делать перевод особенно сложных или неоднозначных конструкций.

Машинный перевод с помощью человека применим в большей степени к текстам с ограниченным вокабуляром узко-ограниченной тематики.

Экономичность использования машинного перевода с помощью человека - вопрос все еще спорный. Сами программы обычно достаточно дорогостоящи, а для работы некоторых из них требуется специальное оборудование. Предварительному и последующему редактированию необходимо обучаться, да и работа эта не из приятных. Создание и поддержание в рабочем состоянии баз данных слов - процесс трудоемкий и зачастую требует специальных навыков. Однако для организации, переводящей большие объемы текстов в четко-определенной тематической сфере, машинный перевод с помощью человека может оказаться достаточно экономичной альтернативой традиционному человеческому переводу.

Перевод, осуществляемый человеком с использованием компьютера. При этом подходе человек-переводчик ставится в центр процесса перевода, в то время как программа компьютера расценивается в качестве инструмента, делающего процесс перевода более эффективным, а перевод - точным. Это обычные электронные словари, которые обеспечивают перевод требуемого слова, возлагая на человека ответственность за выбор нужного варианта и смысл переведенного текста. Такие словари значительно облегчают процесс перевода, но требуют от пользователя определенного знания языка и затрат времени на его осуществление. И все же сам процесс перевода значительно ускоряется и облегчается.

Среди систем, помогающих переводчику в работе, важнейшее место занимают так называемые системы Translation Memory (TM).Системы ТМ представляют собой интерактивный инструмент для накопления в базе данных пар эквивалентных сегментов текста на языке оригинала и перевода с возможностью их последующего поиска и редактирования. Эти программные продукты не имеют целью применение высокоинтеллектуальных информационных технологий, а наоборот, основаны на использовании творческого потенциала переводчика. Переводчик в процессе работы сам формирует базу данных (или же получает ее от других переводчиков или от заказчика), и чем больше единиц она содержит, тем больше отдача от ее использования.

Вот список наиболее известных систем ТМ:

Transit швейцарской фирмы Star,

Trados (США),

Translation Manager от IBM,

Eurolang Optimizer французской фирмы LANT,

DejaVu от ATRIL (США),

WordFisher (Венгрия).

Системы ТМ позволяют исключить повторный перевод идентичных фрагментов текста. Перевод сегмента осуществляется переводчиком только один раз, а затем каждый следующий сегмент проверяется на совпадение (полное или нечеткое) с базой данных, и, если найден идентичный или похожий сегмент, то он предлагается в качестве варианта перевода.

В настоящее время ведутся разработки по усовершенствованию систем ТМ. Например, ядро системы Transit фирмы Star реализовано на основе технологии нейронных сетей.

Несмотря на широкий ассортимент систем TM, они имеют несколько общих функций:

Функция сопоставления (Alignment). Одно из преимуществ систем ТМ – это возможность использования уже переведенных материалов по данной тематике. База данных ТМ может быть получена путем посегментного сопоставления файлов оригинала и перевода.

Наличие фильтров импорта – экспорта. Это свойство обеспечивает совместимость систем ТМ с множеством текстовых процессоров и издательских систем и дает переводчику относительную независимость от заказчика.

Механизм поиска нечетких или полных совпадений. Именно этот механизм и представляет собой основное достоинство систем ТМ. Если при переводе текста система встречает сегмент, идентичный или близкий к переведенному ранее, то уже переведенный сегмент предлагается переводчику как вариант перевода текущего сегмента, который может быть подкорректирован. Степень нечеткого совпадения задается пользователем.

Поддержка тематических словарей. Эта функция помогает переводчику придерживаться глоссария. Как правило, если в переводимом сегменте встречается слово или словосочетание из тематического словаря, то оно выделяется цветом и предлагается его перевод, который можно вставить в переводимый текст автоматически.

Средства поиска фрагментов текста. Этот инструмент очень удобен при редактировании перевода. Если в процессе работы был найден более удачный вариант перевода какого-либо фрагмента текста, то этот фрагмент может быть найден во всех сегментах ТМ, после чего в сегменты ТМ последовательно вносятся необходимые изменения.

Конечно, как и любой программный продукт, системы ТМ имеют свои достоинства и недостатки, и свою область применения. Однако в отношении систем TM,основным недостатком является их дороговизна.

Особенно удобно использовать системы ТМ при переводе таких документов, как руководства пользователя, инструкции по эксплуатации, конструкторская и деловая документация, каталоги продукции и другой однотипной документации с большим количеством совпадений.

Первые эксперименты по машинному переводу, подтвердившие принципиальную возможность его реализации, были проведены в 1954 году в Джорджтаунском университете (Вашингтон, США). Вскоре после этого в промышленно развитых странах мира были начаты исследования и разработки, направленные на создание систем машинного перевода. И хотя с тех пор прошло более полстолетия, проблема машинного перевода всё еще не решена на должном уровне. Она оказалась значительно сложнее, чем это представляли себе пионеры и энтузиасты машинного перевода в конце пятидесятых – начале шестидесятых годов. Поэтому, оценивая сегодняшнюю реальность приходится говорить как о достижениях, так и разочарованиях.

Мы уже говорили о том, что для того, чтобы научить машину переводу, на основе «порождающей семантики» и действующей языковой модели «смысл ↔ текст» была создана семантическая модель перевода. Задача состояла в том, чтобы снабдить электронный мозг достаточным количеством синонимов, конверсивов, синтаксических дериватов и семантических параметров, которыми он бы мог манипулировать в процессе перевода. А перевод в то время понимался лишь как процесс подстановки слов и словосочетаний одного языка вместо слов и словосочетаний другого языка.

Это было также время, когда лингвисты, работавшие в области машинного перевода, пытались описать естественный язык с помощью математических символов. В отличие от Ретцкера и Федорова, стремившихся установить имеющиеся закономерности на основе практических наблюдений, они ставили своей целью создание дедуктивной теории. Речь шла о разработке свода правил, применение которых к определенному набору языковых единиц могло бы привести к порождению осмысленного текста. Языковые единицы выступали в виде математических символов, которые в результате применения к ним названных правил, также выраженных математически, можно было расположить определенным образом. После декодирования комбинация символов превращалась в текст.

Ученые создали специальный язык, состоящий из математических символов, который мог быть использован машиной в качестве посредника при переходе от исходного текста к тексту перевода. Язык посредник это «метаязык» переводческой теории. В лингвистике под метаязыком обычно понимается «язык второго порядка», то есть язык на котором строятся рассуждения о естественном языке или каких либо других явлениях. Так, говоря о грамматике, мы пользуемся специальными словами, или терминами, и выражениями, а при обсуждении области медицины, применяем другой терминологический аппарат. Иными словами, метаязык, или «язык-посредник», перевода представляет собой комплекс структурно-лингвистических характеристик, позволяющих с достаточной полнотой описать процесс перевода.


По замыслу авторов теории машинного перевода в основе языка-посредника лежал концептуальный аппарат «порождающей семантики» и модели «смысл ↔ текст». Был подготовлен набор правил для преобразования поверхностных структур английского языка в ядерные предложения. Ученые далее ожидали, что с помощью языка-посредника машина легко преобразует глубинные структуры исходного языка в глубинные структуры переводящего языка, а затем и в его поверхностные структуры. Но полученные результаты не был полностью удовлетворительными. Качество машинного перевода оказалось очень низким и последующие попытки улучшит его к успеху на привели. В чем же была причина?

Как упоминалось ранее, ученые в то время, то есть в начале пятидесятых и середине шестидесятых годов прошлого века, ориентировались на лингвистическую теорию структурализма, основанную на описании и интерпретации языковых явлений строго в рамках внутриязыковых отношений и не допускающую выхода за пределы языковой структуры при анализе этих явлений. Они, конечно, знали то, что хорошо известно каждому переводчику-практику. А именно, важность учета конкретной обстановки, в которой протекает данный акт межъязыкового общения, а также ситуации, описываемой в переводимом сообщении. Эта информация с точки зрения качества переводного текста играет не меньшую роль, чем собственно языковые явления.

Для того, чтобы примирить это обстоятельство с требованием не выходить за рамки внутрилингвистических отношений, переводческую деятельность предлагалось разделить на два компонента - собственно перевод, осуществляемый по заданным правилам без обращения к внеязыковой действительности, отраженной в опыте или восприятии переводчика, и интерпретацию, включающую привлечение внелингвистических данных.

Но это явно идет в разрез с тем, что нам известно о реальных процессах обычного, то есть немашинного перевода. Для перевода, осуществляемого человеком характерно органическое и неразрывное единство собственно языковых и внеязыковых факторов. Дело в том, что в любом речевом произведении далеко не все выражено явно, или, как говорят лингвисты, эксплицитно. Многое обычно остается невыраженным, подразумеваемым. Всякое высказывание адресуется определенному лицу или определенной аудитории. Автор высказывания при этом исходит из того, что его слушатели или читатели обладают достаточными знаниями для того, чтобы однозначно интерпретировать то или иное сообщение без уточняющих подробностей.

Таким образом, машинный перевод, основанный только на анализе формально-структурных закономерностей исходного текста, не позволяет вскрыть взаимодействие лингвистических и внелингвистических факторов и, тем самым, оставляет без внимания важнейшую составляющую межъязыкового общения. В этом и заключалась основная причина его неудовлетворительного качества.

Многими исследователями признают, что и по состоянию на настоящее время в машинном переводе не произошло каких-либо прорывов в деле реализации иных моделей, несмотря на то, что возможности компьютеров по сравнению с началом работ по машинному переводу многократно возросли, и возникли новые языки программирования, гораздо более удобные для реализации программ по созданию машинного перевода. Все дело, по-видимому, в том, что интерпретация языковых знаков по отношению к внеязыковой действительности во многих отношениях носит интуитивный характер и осуществляется бессознательно, или, как говорят, «на подкорке», а то, что делается бессознательно не может быть формализовано и передано машине в виде программного обеспечения. Поэтому машинный перевод до сих пор требует после себя человеческого редактора и служит источником многочисленных переводческих шуток.

Так, однажды машине было предложено перевести на английский язык, а затем тут же обратно на русский пословицу «С глаз долой из сердца вон». Окончательный вариант был таким: «Невидимый идиот». Почему? Потому, что соответствующая английская пословица гласит: «Outofsight- outofmind». Машина нашла её без труда. Но при обратном переводе этой пословицы на русский язык она пошла по неправильному пути. Дело в том, что в русском языке имеются прямые соответствия обоим компонентам английской фразы: Out of sight - передается словом «невидимый», тогда как английскому outofmindсоответствует русские слова «сумасшедший, безумный, идиот». Машина этими соответствиями и воспользовалась. Она просто не догадалась, что обе названные составляющие английской фразы должны передаваться не по отдельности, а как единое целое. По причине отсутствия у нее «человеческого фактора».

В целом уровень качества машинного перевода сугубо информативных текстов, контрактов, инструкций, научных докладов и т.п. значительно выше, чем текстов публицистического характера. Приведемнесколькопримеров:

Payments under this contract for the equipment listed in supplement 1 to the contract shall be effected as follows.

Платежи согласно этому контракту на оборудование, перечисленное в добавлении 1 к контракту должны быть произведены следующим образом.

Yet plenty of traps await Mr. Bush if he tries to do it alone.

Все же множество трапециевидных мышц ждет г. Буша, если он пробует идти это один.

The markets, given more and sooner than they had any reason to expect, were surprised all right.

Рынки, данные больше и скорее, чем они имели причину ожидать, удивленный хорошо.

Всё сказанное ранее позволяет сделать вывод и том, что пионеры машинного перевода и их ближайшие последователи достигли значительных успехов этой области. Но многие важнейшие проблемы им всё же решить не удалось. В этой связи представляет интерес высказывание руководителя японской государственной программы по машинному переводу профессора Макото Нагао из университета Киото. В одной из своих статей, опубликованных в 1982 году, он сделал такое заявление: «Всякая разработка систем машинного перевода рано или поздно зайдет в тупик. Наша разработка также зайдет в тупик, но мы постараемся, чтобы это случилось как можно позже».

В том же году профессор Нагао опубликовал статью, в которой предложил новую концепцию машинного перевода. Согласно этой концепции тесты должны переводиться по аналогии с другими текстами, ранее переведенными вручную, то есть не машиной, а переводчиком. Для этой цели должен быть сформирован большой массив тематически сходных текстов и их переводов (билингвов), которые затем будут введены в сверхмощную многопроцессорную ЭВМ. В процессе перевода новых текстов из массива билингвов должны выбираться аналоги фрагментов этих текстов, которые можно будет использовать для формирования конечного текста. М.Нагао назвал свой подход к машинному переводу «Examplebasedtranslation» (перевод, основанный на примерах), а традиционный подход - «Rulebasedtranslation» (перевод по правилам).

Концепция Макото Нагао перекликается с получившей в последнее время широкое распространение концепцией «TranslationMemory» (память переводов), именуемой иногда как «SentenceMemory» (накопитель предложений). Сущность этой концепции заключается в следующем. При подготовке иноязычных вариантов каких-либо документов (например, эксплуатационной документации на продукцию машиностроительного завода) сначала их перевод выполняется вручную переводчиками высшей квалификации. Затем оригиналы документов и их переводы на иностранный язык вводятся в ЭВМ, расчленяются на отдельные предложения или фрагменты предложений, и из этих элементов строится база данных, которая далее загружается в поисковую систему. При переводе новых текстов поисковая система отыскивает в них предложения и части предложений, аналогичные тем, которые у неё имеются и вставляет их в нужные места переводимого текста. Таким образом в автоматическом режиме получается качественный перевод тех фрагментов нового текста, которые имеются в базе данных.

Не опознанные фрагменты текста переводятся на иностранный язык вручную. При этом можно воспользоваться процедурой приближенного поиска этих фрагментов в базе данных, а результаты поиска использовать как подсказку. Результаты ручного перевода новых фрагментов текстов снова вводятся в базу данных. По мере перевода все новых и новых документов, «память переводов» постепенно обогащается, и её эффективность возрастатет.

Бесспорным достоинством технологии «память переводов» является высокое качество переводов того класса текстов, для которого она создавалась. Но база переводных соответствий, построенная для однородных текстов одного предприятия, пригодна лишь для однородных текстов близких по профилю предприятий, так как предложения и большие фрагменты предложений, извлекаемые из текстов одних документов, как правило, не встречаются или очень редко встречаются в текстах других документов.

На преодоление этого ограничения «памяти переводов» и, что особенно важно, выход из того тупика, куда, судя по всему, зашла семантическая теория, направлена новая концепция машинного перевода, названная «фразеологической теорией машинного перевода». Главной особенностью этой концепции является мысль о том, что при переводе в качестве основных и наиболее устойчивых единиц смысла следует рассматривать не семантические компоненты, являющиеся неотъемлемой частью языка, а понятия, связанные с языком через языковые значения, но при этом выступающие в качестве самостоятельной формы осмысления человеком окружающего материального мира. Таким образом делается первый шаг к тому, чтобы научить машину оперировать не только языковыми, но и внеязыковыми аспектами перевода.

Напомню, что сознание человека способно отражать окружающий мир в форме двух сигнальных систем, Первая сигнальная система воспринимает окружающий мир через органы чувств. В результате воздействия на один из органов чувств (зрение, слух, осязание, обоняние, вкус) возникает ощущение. На основе совокупности ощущений, связанных с определенным объектом, у человека возникает целостное восприятие этого объекта. Воспринятый объект может храниться в памяти в виде соответствующего представления о нем уже без непосредственного чувственного контакта.

Вторая сигнальная система, позволяет человеку, абстрагируясь от конкретных объектов, формировать обобщенные понятия об окружающем мире. В понятии различается его объем, то есть класс объектов, обобщенных в понятии, и содержание понятия - признаки объектов, через которые осуществлено обобщение. Понятиями люди оперируют в процессе общения. Для этого за каждым понятием закрепляются определенные ярлыки - их наименования в виде отдельных слов или (что значительно чаще) словосочетаний. Причем в разных языках для обозначения одних и тех же понятий могут использоваться разные признаки (snowdrop- подснежник, eye- dog- собака-поводырь, vacuumcleaner- пылесос).

С учетом изложенных принципов, система фразеологического машинного перевода в общих чертах выглядит следующим образом. Как уже было сказано, наиболее устойчивыми элементами текста являются наименования понятий. В процессе перевода производится замена наименования понятий исходного текста на наименования этих единиц смысла на переводящем языке и оформление полученного таким образом нового текста в соответствие с грамматическими нормами переводящего языка. Как и в системах «Translationmemory», используется принцип аналогии - слова, словосочетания и фразы, отображающие типовые ситуации, переводятся по аналогии с ранее выполненными переводами этих единиц. Различие между ними состоит в том, что в системах типа «память переводов» используются не такие устойчивые отрезки текста, как понятия и типовые ситуации, а все предложения, встречающиеся в исходном тексте.

Из сказанного следует, что машинные словари являются наиболее важным компонентом систем фразеологического машинного перевода. Количество различных слов в таких языках, как русский и английский, превосходит один миллион, а количество относительно устойчивых фразеологических словосочетаний исчисляется сотнями миллионов. Фразеологические словари такого объёма быстро создать не удастся. Так, объём словаря одной из современных систем «RetransVista» составляет 3 млн. 300 тыс. словарных статей.

Составление фразеологических словарей больших объёмов потребует значительных временных затрат, поэтому в системах машинного перевода постоянным спутником фразеологических словосочетаний будут и отдельные слова. Для их перевода, как говорилось, используются положения семантической модели, качество машинного перевода при этом вызывает много нареканий.

Это, безусловно, так, но пословный перевод текстов значительно лучше, чем

отсутствие всякого перевода.

Отсюда, как считают многие специалисты в этой области, единственная разумная перспектива для систем машинного перевода в XXI веке - это сочетание фразеологического и пословного семантического перевода. При этом удельный вес удельный вес фразеологического перевода, по-видимому, должен постоянно возрастать, а удельный вес семантического перевода - постоянно уменьшаться.

Как показывает опыт, системы машинного перевода должны быть ориентированы прежде всего на перевод деловых текстов в области науки, техники, политики и экономики. Перевод художественных текстов - более сложная задача. Но и здесь в будущем можно достичь определённого успеха, если найдутся энтузиасты типа Владимира Даля, которые с помощью современных технических средств возьмут на себя нелёгкий труд по составлению мощных фразеологических словарей для этого типа текстов.

Дополнительная литература.

1. Белоногов Г.Г. Об использовании принципа аналогии при автоматической обработке текстовой информации. Сб. «Проблемы кибернетики», № 28, 1974.

2. Убин И.И. Современные средства автоматизации перевода: надежды, разочарования и реальность. Сб. «Перевод в современном мире», М., ВЦП, 2001, стр. 60-69.