Преодолеваем языковой барьер – уже шесть лет!

Преодолеваем языковой барьер – уже шесть лет!:

Франц Оч, научный исследователь команды Google Translate

Благодаря развитию Интернета все мировые знания доступны более чем двум миллиардам пользователей. Короткий запрос в поисковой системе – и вы уже на интернет-странице, которая хранится на сервере за тысячи километров от вас. Пара кликов – и вы читаете сообщение от человека, который находится на другом конце Земли. Но что делать, если необходимая вам информация есть на хинди, исландском или африкаансе, а вы говорите только на русском — или наоборот?

В 2001 году у Google появился сервис, который позволял делать перевод с восьми языков на английский и обратно. Его основной была ультрасовременная на тот момент платная система машинного перевода, однако качество было не на высоте, и в течение еще нескольких лет эта система улучшалась лишь незначительно. В 2003 году инженеры Google решили повысить качество перевода и увеличить количество языков. Именно тогда я начал работу над этим проектом. В то время я еще был исследователем на проектах Управления перспективными исследованиями и разработками Министерства обороны (DARPA), где мы изучали новый подход к машинному переводу – самообучаемую систему, которая была признана довольно перспективной и должна была значительно повысить качество перевода. Мне позвонили из Google и убедили (а я был настроен весьма скептически!), что данный подход, основанный на анализе данных, будет работать именно в Google.

Я присоединился к команде, и мы начали перерабатывать систему перевода. Мы участвовали в аттестации машинных переводов, проводимых Национальным Институтом стандартов и технологий (США). Это своеобразное гран-при среди исследовательских институтов и компаний, призванное улучшить систему машинного перевода. Благодаря вычислительным мощностям Google и возможности обрабатывать большие объемы информации мы добились хороших результатов. Этот момент стал поворотным: стало очевидно, насколько эффективным может быть подход, основанный на анализе данных.

Но в то же время наша система работала слишком медленно и была непрактична: над переводом 1000 предложений “трудились” 1000 единиц вычислительной техники, а по времени он занимал 40 часов. Мы сфокусировались на скорости, и год спустя наша система уже могла перевести предложение менее чем за секунду, а качество стало заметно выше. В начале 2006 года эта технология стала использоваться в англо-китайском и англо-арабском перевода и наоборот.

Мы анонсировали статистический машинный перевод 28 апреля 2006 года. Последние шесть лет мы уделяли самое большое внимание качеству перевода и увеличению количества языков. Теперь Переводчик Google работает с 64 языками, включая те, которые слабо представлены в сети – например, бенгальский, язык басков, суахили, идиш и даже эсперанто.

Сегодня на страницу translate.google.com заходят более 200 миллионов активных пользователей в месяц (и даже больше с учетом других программ, поддерживающих сервис – например, Chrome, YouTube, мобильные приложения и т.д.). Пользователям также нравится использовать Переводчик на ходу, ведь языковой барьер особенно актуален, когда вы путешествуете: по нашей статистике, из года в год использование мобильного траффика вырастало более, чем в 4 раза. Аудитория Переводчика действительно глобальна – 92% трафика мобильного переводчика идет из-за пределов США.

Объем текста, который мы переводим каждый день, примерно равен миллиону книг – или практически всему объему профессиональных переводов за год. Из этих цифр ясно, что большая часть всех переводов на нашей планете сегодня делается Переводчиком Google (пожалуй, что в галактике нас могла бы опередить «вавилонская рыбка» Дугласа Адамса). Конечно, ничто не сможет конкурировать с профессиональными переводчиками в передаче нюансов и точности в деталях. Мы уверены, что машинный перевод поможет большему количеству людей принять участие в глобальном диалоге на своем родной языке. В этом случае роль профессиональных переводчиков станет еще более значимой.

Сегодня мы мечтаем о будущем, в котором каждый человек сможет получать любую информацию и делиться ее с другими вне зависимости от того, на каком языке она представлена. Мы уже переводим в режиме реального времени веб-страницы в браузере Chrome, тексты на фотографиях, сделанных мобильным телефоном, титры на YouTube и даже устную речь с помощью смартфонов. Мы хотим разрушить языковой барьер между людьми — посмотрим, что ждет нас в ближайшие шесть лет!