WaveGlow: поточная генеративная сеть может синтезировать речь

Москва, 18:17, 19 Ноя 2018, редакция FTimes.ru, автор Евгения Ковалева.

Команда исследователей из NVIDIA разработала сеть WaveGlow, способную генерировать высококачественную речь из мелспектрограмм, акустических частотно-временных отображений звука.

Методика, представленная в предварительной публикации arXiv, использует сеть, натренированную одной целевой функцией, сообщает techxplore.com. Такой подход делает процесс обучения системы более простым и стабильным.

«Большинство нейронных сетей для синтеза речи были для нас слишком медленными, — объяснил один из исследователей, Райан Пренгер. – Их скорость была ограничена, так как система была настроена на генерирование только одного образца за раз. Исключение составили решения Google и Baidu, быстро выдающие аудио в параллельном режиме. Но такие подходы использовали обучающие и обучаемые сети, и были слишком сложными для воссоздания».

На исследование специалистов вдохновила поточная сеть Glow от OpenAI. Она способна параллельно генерировать высококачественные изображения, оставаясь сравнительно простой структурой. Используя обратимую 1х1 свертку распределений, Glow достигла выдающихся результатов. Исследователи решили применить ту же идею для синтеза речи.

«Подумайте о белом шуме ненастроенного радио, — объяснил Пренгер. – Его легко генерировать. Основная идея WaveGlow заключается в тренировке нейронной сети на преобразование белого шума в речь. Обучение любой старой системы вызвало бы трудности. Но, если использовать сеть, способную двигаться в обоих направлениях, математика заметно упростится, устранив некоторые препятствия».

Авторы проигрывали задом наперед клипы из обучающей базы. Так сеть тренировали генерировать звуки, похожие на белый шум. WaveGlow производила образцы аудио с частотой более 500kHz на NVIDIA V100 GPU. Результаты тестов на Amazon Mechanical Turk предполагают, что система генерирует звук по качеству соответствующий результатам лучших методов WaveNet, находящихся в открытом доступе.

Исследователи выложили код сети в сеть. Сейчас они занимаются совершенствованием алгоритмов.