Исследователи из лабораторий Microsoft в Пекине, Редмонде и Вашингтоне разработали систему машинного перевода AI, которая может переводить с китайского на английский с той же точностью, что и человек.
Сюэдун Хуанг, возглавляющий группу исследований речи и диалога, входящую в состав Microsoft Artificial and Intelligence and Research, назвал это достижение важной вехой в одной из самых сложных задач обработки естественного языка, заявив, что
«Обеспечение человеческого паритета в задаче машинного перевода — мечта всех нас. Мы просто не понимали, что сможем ударить его так скоро ».
Именно группа Хуанга в прошлом году достигла человеческого паритета в задаче распознавания разговорной речи (см. Транскрипция наравне с человеческой точностью), и он считает, что эта веха в переводе особенно отрадна, поскольку она дает людям возможность лучше понимать друг друга.
Академические и отраслевые исследователи работали над машинным переводом в течение многих лет, и недавние прорывы были достигнуты с использованием глубоких нейронных сетей, которые сделали возможным более плавный, естественный перевод, который учитывает даже более широкий контекст, чем предыдущий подход, известный как статистический машинный перевод. .
Вы можете увидеть, как нейронные сети улучшили машинный перевод с помощью Microsoft Translator Try & Compare, который был настроен для демонстрации перевода с китайского на английский, показывая результаты текущей производственной системы по сравнению с ее аналогом для исследований.
Эта демонстрация не относится к системе человеческого паритета, которая, как сообщается в статье «Достижение человеческого паритета при автоматическом переводе новостей с китайского на английский», представляет собой комбинацию нескольких систем. Нижнее окно, помеченное здесь «Исследование», является лучшей отдельной системой в новой системе. Набор данных, использованный в демонстрации, такой же, как и в исследовании newstest2017, состоит из предложений из новостных статей, опубликованных на Конференции 2017 года по машинному переводу.
Среди авторов статьи — Тие-Ян Лю, главный менеджер по исследованиям Microsoft Research Asia в Пекине, который возглавляет группу машинного обучения, которая работала над этим проектом. В блоге Microsoft Research он описал способ, которым исследователи объединили несколько методов обучения, чтобы сделать систему более плавной и точной, вдохновившись тем, как люди делают что-то.
Один из существующих методов, разработанный исследовательской группой Microsoft, который также может быть использован для улучшения результатов в других задачах искусственного интеллекта, — это двойное обучение, которое можно рассматривать как способ проверки работы системы: каждый раз, когда предложение проходит через систему, быть переведенным с китайского на английский, исследовательская группа также перевела его с английского на китайский. Это похоже на то, что люди могут делать, чтобы убедиться, что их автоматические переводы точны, и это позволяет системе совершенствоваться и учиться на собственных ошибках.
Другой метод, называемый сетями обсуждения, похож на то, как люди редактируют и исправляют свои собственные тексты, просматривая их снова и снова. Исследователи научили систему повторять процесс перевода одного и того же предложения снова и снова, постепенно уточняя и улучшая ответ.
Исследователи также разработали два новых метода для повышения точности своих переводов. Одно из них, совместное обучение, использовалось для многократного совершенствования систем перевода с английского на китайский и с китайского на английский. С помощью этого метода система перевода с английского на китайский переводит новые английские предложения на китайский, чтобы получить новые пары предложений. Затем они используются для пополнения обучающего набора данных, идущего в противоположном направлении, с китайского на английский. Затем такая же процедура применяется в другом направлении. По мере их сближения производительность обеих систем улучшается.
Другой — урегулирование договора. С помощью этого метода перевод может быть произведен путем чтения системой слева направо или справа налево. Если эти два метода перевода дают один и тот же перевод, результат считается более достоверным, чем если бы они не давали одинаковых результатов. Этот метод используется для поощрения систем к согласованному переводу.
Чжоу ожидает, что эти методы и техники будут полезны для улучшения машинного перевода на другие языки и в других ситуациях и будут использоваться для других прорывов в области искусственного интеллекта помимо перевода, говоря:
«Это область, в которой исследования машинного перевода могут применяться ко всей области исследований искусственного интеллекта».
Чтобы еще больше гарантировать точность оценки, команда также наняла двуязычных оценщиков, которые сравнили результаты с другим набором переводов, сделанных людьми. В аннотации статьи делается вывод:
Мы обнаружили, что наша последняя система нейронного машинного перевода достигла нового уровня развития, и что качество перевода находится на одном уровне с человеческим переводом по сравнению с профессиональным переводом, выполняемым человеком. Мы также обнаружили, что он значительно превосходит качество непрофессиональных переводов, выполняемых краудсорсингом.