Библия помогает исследователям совершенствовать алгоритмы для перевода
Москва, 11:05, 24 Окт 2018, редакция FTimes.ru, автор Евгения Ковалева.
Стремясь улучшить электронные переводчики, специалисты Дартмутского колледжа обратились к Библии. Результатом стал алгоритм, натренированный на разных версиях книги. Он способен преобразовывать написанные тексты в разные стили, в зависимости от ожидаемой аудитории.
Онлайн-переводчики получили широкое распространение. Развитие программ, сохраняющих язык текста, но меняющих его стиль, идет значительно медленнее, сообщает techxplore.com. В частности, процесс стопорит сложность в получении огромного объема данных, необходимых для работы переводчика. Именно для решения этой проблемы команда исследователей из Дартмутского колледжа обратилась к Библии. Помимо источника духовного руководства, ученые увидели в книге большой, еще не освоенный набор данных.
Каждая версия Библии содержит более 31 000 стихов. Ученые использовали их для создания более 1,5 миллиона уникальных пар исходных и целевых строф для тренировки алгоритма машинного обучения.
Выводы проекта представлены в Royal Society Open Science. Ученые отмечают, что это – не первый параллельный набор данных, созданный для перевода стиля. Но только здесь используется Библия. В других алгоритмах тексты варьировались от произведений Шекспира до статей Википедии, предоставляя либо слишком маленькие, либо не подходящие для обучения переводу стиля наборы данных.
«Библия на английском существует во множестве версий, что делает ее идеальным ресурсом для тренировки алгоритма», — отмечает ведущий автор работы, Кит Карлсон.
Дополнительное преимущество книги – готовая полная индексация содержимого. Предсказуемая организация текста в разных версиях исключает риск ошибок форматирования, которые могут быть вызваны использованием автоматических методов сопоставления разных версий одной работы.
Команда использовала 34 стилистически разных Библии, отличающихся по лингвистической сложности. Тексты ввели в 2 алгоритма – систему статистического машинного перевода Moses и нейронную сеть Seq2Seq. Хотя программы тренировались на Библии, они походят для преобразования любого текста. Например, позволяет изменить «Моби Дика», сделав его более подходящим для детей или людей, плохо знающих английский.