Е годы, отчет комиссии ALPAC и 70-е годы




Исследования, которые проходили в 60х годах в СССР и США, в основном были сосредоточены на языковой паре русский-английский. В основном предметом перевода были научные и технические документы, например статьи из научных журналов. Шероховатости перевода не мешали общему представлению о том, что говорится в статье. Если в статье обсуждались вопросы, связанные с интересами безопасности, тогда статья отправлялась переводчику для более детального перевода; если нет, выбрасывалась за ненадобностью.

Большой удар был нанесен по исследованиям в области машинного перевода после публикации отчета ALPAC в 1966 году. Отчет был составлен правительственной комиссией США и представлен Специальным комитетом по прикладной лингвистике (ALPAC) Национальной академии наук США. В него входили семь ученых, собранных правительством США в 1964 году. Правительство США было озабочено тем, что прогресс был несоразмерен со значительными затратами на разработку проекта. В результате было установлено, что машинный перевод дороже, медленнее и менее точный в сравнении с переводом, выполненным человеком, и несмотря на большие капиталовложения, в ближайшее время машинный перевод не достигнет того же качества, что и перевод, выполненный человеком.

Однако отчет советовал развитие вспомогательных программ для переводчиков – например, автоматических словарей – и поддержку исследований в области компьютерной лингвистики.

Публикация отчета в большей степени повлияла на исследования машинного перевода в США и в гораздо меньшей в СССР и Великобритании. По крайней мере, в США такого рода исследования были остановлены на целое десятилетие. В Канаде, Франции и Германии исследования все-таки продолжались.

Если в 60е годы упор был на определенные языковые пары и ввод, то требованием в 70е годы стали малые затраты на системы, способные переводить ряд текстов технической и коммерческой направленности. Спрос был спровоцирован ростом глобализации и спрос на перевод в Канаде, Европе и Японии.

Е начало 90-х годов

К 80-м годам разнообразие и число программ для машинного перевода увеличилось. Использовались такие переводческие системы, основывающиеся на технологии универсальной вычислительной машины, как Metal.

В результате увеличения пригодности микрокомпьютеров, появился рынок бюджетных программ машинного перевода. Многие компании Европы, Японии и США воспользовались данной возможностью. Системы были представлены на рынке Китая, Восточной Европы, Кореи и СССР.

В 80-е годы в Японии был большой ажиотаж, связанный с машинным переводом. С появлением компьютеров пятого поколения Япония планировала прыгнуть выше всех в области техники и программирования, проект, связанный с созданием программ для перевода с/на английский, заинтересовал многие компании (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).

Исследования 80-х годов основывались на переводе лингвистических единиц при помощи морфологического, синтаксического и семантического анализа.

В конце 80-х годов произошел рост числа методов, используемых при машинном переводе. Система, разработанная компанией IBM, базировалась на статистическом методе. Другие группы использовали методы, основывающиеся на большом числе примеров переводов, такая техника называется машинный перевод на основе примеров. Определяющая черта обоих подходов стал недостаток семантических и синтаксических правил и опора на манипуляции с корпусами текстов.

В 90-х годах после успеха программ по распознаванию речи и ее синтеза и с развитием Verbmobil, начались разработки по переводу речи.

В результате появления бюджетных и более мощных компьютеров вырос спрос на программы машинного перевода. Именно в начале 90х годов перевод стал осуществляться не громоздкими ЭВМ, а персональными компьютерами и дисплейными терминалами. Двумя компаниями, которые стояли во главе рынка ПК на тот момент были Systran).

Недавние исследования

За последние несколько лет машинный перевод пережил значительные изменения. В настоящий момент большое количество исследований ведется в области статистического машинного перевода и машинного перевода на базе примеров перевода. Сегодня немногие компании используют статистический машинный перевод в коммерческих целях, например, Microsoft (использует свою собственную патентованную статистическую программу МП для перевода статей базы). Возобновился интерес к гибридизации, исследователи совмещают синтаксические и морфологические (т. е. лингвистические) знания в статистических системах с уже существующими правилами.

 

Машинный перевод — процесс перевода текстов (письменных, а в идеале и устных) с одного естественного языка на другой с помощью специальной компьютернойпрограммы. Так же называется направление научных исследований, связанных с построением подобных систем.

Мысль использовать ЭВМ для перевода была высказана в 1947 году в США, сразу после появления первых ЭВМ. Первая публичная демонстрация машинного перевода (так называемый Джорджтаунский эксперимент) состоялась в 1954 году. Несмотря на примитивность той системы (словарь в 250 слов, грамматика из 6 правил, перевод нескольких простых фраз), этот эксперимент получил широкий резонанс: начались исследования в Англии, Болгарии, ГДР, Италии, Китае, Франции, ФРГ, Японии и других странах; в том же 1954 году и в СССР.

К середине 1960-х в США для практического использования были предоставлены две системы русско-английского перевода:

· MARK (в Департаменте иностранной техники ВВС США);

· GAT (разработка Джорджтаунского университета, использовалась в Национальной лаборатории атомной энергии в Окридже и в центре Евратома в г. Испра, Италия).

Однако созданная для оценки подобных систем комиссия ALPAC пришла к выводу, что в силу низкого качества машинно переведённых текстов эта деятельность в условиях США нерентабельна. Хотя комиссия рекомендовала продолжать и углублять теоретические разработки, в целом её выводы привели к росту пессимизма, снижению финансирования, часто к полному прекращению работ по этой тематике.

Тем не менее, в ряде стран исследования продолжались, чему способствовал постоянный прогресс вычислительной техники. Особенно существенным фактором стало появление мини- и персональных компьютеров, а с ними всё более сложных словарных, поисковых и т. п. систем, ориентированных на работу с естественноязыковыми данными. Росла и необходимость в переводе как таковом ввиду роста международных связей. Все это привело к новому подъёму этой области, наступившему примерно с середины 1970-х. В 1980-е наступило время широкого практического использования переводческих систем, сложился рынок коммерческих разработок по этой теме.

Впрочем, мечты, с которыми человечество полвека назад взялось за задачу машинного перевода, в значительной мере остаются мечтами: высококачественный перевод текстов широкой тематики по-прежнему недостижим. Однако несомненным является ускорение работы переводчика при использовании систем машинного перевода: по оценкам конца 1980-х, до пяти раз.

В настоящее время существует множество коммерческих проектов машинного перевода. Одним из пионеров в области машинного перевода была компания Systran. ВРоссии большой вклад в развитие машинного перевода внесла группа под руководством проф. Р. Г. Пиотровского (Российский государственный педагогический университет имени А. И. Герцена, Санкт-Петербург).

Качество перевода зависит от тематики и стиля исходного текста, а также грамматической, синтаксической и лексической родственности языков, между которыми производится перевод. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бытующих в Интернете шуток. Из старых и наиболее популярных примеров таких шуток наиболее известен текст перевода документации к драйверу мыши, известный как «Гуртовщики Мыши», заявленный как «перевод компьютерной документации системой машинного перевода Poliglossum на основе медицинского, коммерческого и юридического словарей»[5]. Из кратких — фраза «Our cat gave birth to three kittens — two whites and one black », которую онлайн-переводчик «ПРОМТ» (версия 7.0, 2007) превращал в «Наш кот родил трёх котят — двух белых и одного афроамериканца».[6] Если «афроамериканца» ещё можно было сделать «чёрным», написав «black kitten », то «коту» так и не получалось сменить пол: например, female cat переводился как «самка кот».

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «Лев Толстой» в «Lion Thick» («толстый лев»), «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п. Переводчик Google, наоборот, слово «rice » часто принимал за фамилию госсекретаря США.

 

Современное состояние.

Проблема автоматического (машинного) перевода текстов возникла более двух десятков лет назад. Ее суть сводится к построению автомата, на вход которого поступает текст на одном естественном языке (например, немецком), а на выходе порождается текст на другом языке (например, английском). Сейчас в роли упомянутого автомата используются электронные вычислительные машины, для которых разрабатываются алгоритмы перевода и словари.

Современный этап развития машинного перевода может быть охарактеризован как этап синтаксического пословного перевода. Основной единицей смысла является слово, а грамматические формы и порядок следования слов в порождаемом тексте определяются на основе синтаксических связей между словами в тексте-оригинале. По аналогии со сложившимися традициями словари для автоматического перевода строятся преимущественно как словари слов (доля словосочетаний в них невелика).

Между тем в естественных языках слово не является единственной единицей смысла. В них одновременно используется несколько уровней семантических единиц (уровень морфем, уровень слов, уровень словосочетаний, уровень предложений и др.), причем смысл единиц более высокого уровня не всегда может быть определен исходя из смысла единиц более низкого уровня (наиболее ярко это проявляется в отношениях между уровнями морфем и слов). Следовательно, и словари для автоматического перевода должны содержать единицы различных уровней.

Многовековой опыт общения народов, говорящих и пишущих на различных языках, свидетельствует о том, что хороший переводчик должен не только понимать смысл переводимого текста, но и владеть фразеологическим богатством языка, на который осуществляется перевод. Таким образом, ручной перевод текстов представляет собой скорее фразеологический, чем пословный. Это обстоятельство нужно учитывать при автоматическом переводе.

Качественный машинный перевод научно-технических и деловых текстов (про художественные пока что говорить не приходится) может быть построен на основе использования комплексов словарей, включающих в свой состав семантические единицы различных уровней слова, словосочетания, предложения. Ведущее место должны занимать словосочетания, так как в указанных текстах наименования понятий чаще всего выражаются словосочетаниями и значительно реже отдельными словами. В процессе перевода должно соблюдаться правило предпочтения, согласно которому, прежде всего, следует вычленять и переводить семантические единицы высших уровней, а к единицам более низких уровней обращаться во вторую очередь и только в том случае, если нет иной возможности выполнить перевод.

Важное место в системах машинного перевода должна занимать автоматизированная словарная служба, в задачу которой входит создание и ведение (дополнение, корректировка). Роль человека в автоматизированной словарной службе будет заключаться в разметке иностранных текстов с целью выделения из них элементов словарей и назначении последним соответствующих эквивалентов на выходном языке. Разметка текстов может быть переложена и на машину.

В настоящее время проблема машинного перевода в полном объеме еще не решена. Для ее решения необходимы не только глубокие теоретические исследования, но и большая по объему экспериментальная работа.

Нужно создавать крупные, хорошо организованные научные коллективы, нужна современная мощная электронная вычислительная техника с достаточным математическим (программным) обеспечением ее работы.

Исследования в области машинного перевода следует отнести к разряду фундаментальных исследований. Их нужно вести не только и не столько потому, что это позволит в будущем сэкономить средства на переводах иностранных текстов и облегчить процесс обмена научно технической и деловой информацией между различными странами. Они необходимы как один из наиболее эффективных путей поиска технических решений по ряду проблем автоматической обработки информации, а уровень развития средств и методов автоматической обработки информации оказывает непосредственное влияние на темпы научно-технического прогресса.

 

Современные исследователи в области прикладной лингвистики не оставили мысль о создании совершенной системы машинного перевода. Некоторые учёные пытаются даже использовать машинный перевод при синхронном переводе. Неужели дни переводчиков-синхронистов сочтены?
В университете Карнеги-Меллона в Питтсбурге, США прошла первая открытая демонстрация возможностей систем автоматического перевода живой речи на другие языки в реальном масштабе времени.

Алекс Вэйбел (Alex Waibel), профессор компьютерных наук германского университета Карлсруе (Universität Karlsruhe) и американского университета Карнеги-Меллона (Carnegie Mellon University — CMU), недавно продемонстрировал новейшую систему, способную практически мгновенно синхронно переводить живую разговорную речь. Существующий прототип позволяет синхронно переводить речь с английского сразу на два языка – немецкий и испанский.Новая технология основана на так называемом искусственном интеллекте, широко использующем статистические методы обработки информации.
Презентация нового изобретения не прошла без переводческих казусов. Машина путала похожие по звучанию слова, например: "diverse" компьютер воспринял как "divorce", "might" как "mate", "some" как "sum" и др.

Несмотря на новые изобретения и исследования в области машинного перевода, сегодня письменный машинный перевод настолько несовершенен, что из него можно понять только то, о чём идёт речь в том или ином тексте или речи, но не больше этого. Поэтому ещё очень рано говорить об успехах машинных переводчиков в устном переводе, тем более синхронном переводе.
Пока ещё не удаётся "подстановочным" способом решить проблемы качественного машинного перевода, также не удаётся произвести необходимые переводческие трансформации, которыми так часто пользуются профессиональные переводчики.

 



Поделиться:




Поиск по сайту

©2015-2024 poisk-ru.ru
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-02-12 Нарушение авторских прав и Нарушение персональных данных


Поиск по сайту: