Американцы создали программу, способную "говорить" с тембром, ритмом и произношением человека
Американская компания Google разработала продвинутый синтезатор речи нового поколения Tacotron 2, который основан на нейросети и способен говорить с тембром, ритмом, а его произношение не отличается от человеческой речи.
Об этом сообщает TechCrunch.
Алгоритм Tacotron 2, который представлен командой разработчиков Google с участием Джонатана Шена, работает на основе двух нейронных сетей.
Печатная версия конвертируется в специальную Tacotron-спектрограмму, где распределяются ритм и ударения, а слова генерируются в аналог WaveNet. Кроме того, в алгоритм добавлена система сбора данных для обучения нейросети.
Аудиозапись действительно похожа на язык живого человека, причем темп речи звучит достаточно убедительно, а основные задержки происходят на словах с необычным произношением. Правда, часть слушателей в комментариях утверждают, что некоторые слова система произносит на "ломаном языке".
Образцы работы Tacorton 2 можно прослушать на официальном сайте Google. Эта технология, скорее всего, сразу начнет использоваться в продуктах компании.
Одной из основных проблем нового алгоритма является отсутствие регулирования тона речи: нельзя предсказать, какая фраза будет произнесена возвышенно, а какая – грубо.
Сообщается, что Tacotron 2 работает эффективнее своих предшественников Tacotron и WaveNet, которые имели ряд существенных недостатков. В частности, WaveNet выдавал очень резкие звуки, а Tacotron не мог выдавать полноценный "языковой продукт".
Напомним, ранее в Google были названы худшие пароли 2017 года. Во время исследования компания SplashData проанализировала более пяти миллионов кодовых слов.