Интервью с Николасом Руисом
Интервью: Николас Руис, доктор философии. Исследователь в области перевода речи и обработки естественного языка, советник по переводу речи на сайте Waverly Labs.
Чем вы занимаетесь на сайте Waverly Labs?
Я рассказываю о современных тенденциях в области распознавания речи и машинного перевода и рекомендую стратегии, как лучше переводить с одного языка на другой.
Прежде всего, когда и как Вы решили стать исследователем перевода речи?
В 2001 г., когда я учился на старших курсах, я одновременно изучал информатику и иностранные языки. Это заставило меня задуматься: "Если людей можно научить правилам изучения иностранного языка, то можно ли научить компьютер делать то же самое?" И если да, то как автоматический перевод может помочь преодолеть коммуникативные барьеры, с которыми мы сталкиваемся при общении с представителями разных языков и культур? По мере становления в области машинного перевода во время обучения в магистратуре и докторантуре в Европе я начал ставить перед собой задачу погрузиться в проблему перевода речи не только в лаборатории, но и в повседневной жизни. Я присутствовал на выступлениях и службах на итальянском языке и наблюдал, как неофициальные переводчики усердно переводили слова оратора на английский, чтобы помочь группам иностранных студентов следить за ходом выступления. Половину времени я не слушал оратора, а погружался в размышления о том, как перевод речи может помочь другим людям понимать и участвовать в повседневных разговорах, пока они не выучили язык настолько, чтобы общаться без посторонней помощи.
Готов ли мир к переводу речи?
Мы вступаем в эпоху, когда распознавание речи и машинный перевод могут покрыть многие сценарии разговора, где раньше требовался переводчик. Во многих языках системы распознавания речи способны распознать более 90% слов, произносимых людьми, а точность перевода таких языковых пар, как английский-испанский, достигла рекордных значений. Хотя иногда машинный перевод может показаться смешным, технология дошла до того, что два собеседника могут достаточно хорошо понимать, что говорит каждый из них. Технология машинного перевода не может полностью заменить рискованные сценарии перевода, где точный перевод является критически важным, но она позволяет решить многие проблемы, когда профессиональный письменный или устный перевод не является предпочтительным вариантом. Кроме того, исследования показали, что современный машинный перевод может помочь профессиональным переводчикам работать быстрее, что открыло новые и, возможно, неожиданные возможности в отрасли, где профессиональные переводчики и технологии машинного перевода работают вместе.
Как работает речевой перевод?
Перевод речи состоит из трех частей: автоматического распознавания речи (или, как некоторые называют, "распознавания голоса"), машинного перевода и синтеза речи, которые обычно выполняются в три отдельных этапа. Автоматическое распознавание речи воспринимает звук с микрофона и преобразует его в слова. Затем эти слова переводятся на другой язык с помощью либо статистического машинного перевода, либо недавно появившихся методов нейронного машинного перевода. Затем переведенные слова преобразуются в звуки, имитирующие речь носителей языка, с помощью синтезатора речи.
В чем разница между статистическим и нейронным машинным переводом?
В двух словах, статистический машинный перевод пытается изучить закономерности перевода фраз или групп слов. Правила перевода автоматически формируются на основе множества предложений, переведенных на другой язык. Например, правило может звучать так: "моя синяя машина" => "mi coche azul" или "синяя машина" => "coche azul". Каждое правило получает несколько оценок, которые предсказывают, насколько вероятно использование данного перевода. Система перевода пытается объединить несколько правил для создания перевода на целевой язык, упорядочивая (или "перестраивая") группы слов таким образом, чтобы добиться максимальной беглости звучания перевода. Эти правила могут быть похожи на разговорники, которые люди используют при посещении другой страны, но типичная система перевода имеет сотни миллионов правил перевода, которые изучаются автоматически. Нейронный машинный перевод - это немного более "черный ящик". Большинство таких систем перевода используют модель "кодер-декодер". Если рассматривать перевод с английского на испанский, то "кодер" преобразует каждое английское слово в последовательность числовых векторов, а "декодер" генерирует одно испанское слово за другим, выбирая информацию из каждого вектора. Модель внимания" взвешивает каждый вектор, чтобы определить, какие закодированные части английского предложения полезны для создания следующего переведенного слова. В отличие от статистического машинного перевода, трудно понять, как система нейронного машинного перевода принимает решения о переводе, однако во многих случаях нейронный машинный перевод дает более беглый перевод.
Как Pilot делает возможным перевод разговорной речи?
Как я уже говорил, первым этапом перевода речи является ее распознавание. Одной из проблем автоматического распознавания речи является получение высококачественной записи, позволяющей уменьшить количество шумов в звуке. Зашумленный звук сбивает с толку системы распознавания речи. Если распознаватель речи не может точно распознать произносимые слова, то перевод, скорее всего, получится бессмысленным. Хотя существуют устройства дальнего распознавания, позволяющие говорить, находясь в другом конце комнаты, расстояние между микрофоном (микрофонами) и говорящим позволяет другим шумам вмешиваться в сигнал, что затрудняет распознавание речи. Однако по мере приближения микрофона к говорящему качество записываемого звука повышается, а шумов становится меньше. Гарнитуры Bluetooth изначально создавались для того, чтобы люди могли разговаривать по телефону без проводов, сохраняя при этом высокое качество звука. В гарнитуре Pilot, которая стоит на ступень выше большинства Bluetooth-гарнитур, используется система подавления окружающего шума, а конфигурация микрофонной решетки настроена на максимальное качество звука. Они настроены на решение задач перевода речи, чтобы обеспечить более высокое качество распознавания речи, что помогает машинному переводчику лучше справляться со своей работой. Цель Pilot - обеспечить естественный разговор без использования рук, подкрепленный технологией перевода речи, чтобы свести к минимуму трудности межъязыкового общения. Используя наушник совместно с другом, вы можете вести многоязычный разговор, используя только один комплект переводчика. Мы специально разработали Pilot как наушник-переводчик, чтобы не только повысить точность распознавания речи за счет положения микрофона, но и сохранить плавность и естественность человеческого общения.
Николас Руис
Следите за новостями!
-Команда Уэверли