Спасибо, что живой: Google создала самый натуральный генератор речи
IT-гигант Google создал продвинутый генератор речи. То, что он выдает, от живой человеческой речи почти не отличить. Система под названием Tacotron 2 зачитывает текст приятным женским голосом и разбирается в тонкостях интонационной расстановки. Отличить настоящую речь от машинной попытался ресурс PhoneArena.
Команды ведущих технологических компаний стремятся максимально очеловечить свои разработки. За примерами далеко ходить не нужно. Вспомнить хотя бы японского робота Kengoro, о котором мы недавно писали. Этот гуманоид получил позвоночник, грудную клетку, подвижные суставы и мышцы: он двигается, как человек, и даже потеет. А голосовые помощники? Виртуальные барышни Siri, Alexa и наша Алиса говорят точно настоящие: они поддерживают беседу, выполняют разные команды и шутят, пускай иногда и весьма странно. Именно на живом голосе сосредоточились разработчики Google. Они создали генератор речи под названием Tacotron 2, который заговорил приятным женским голосом.
Результаты Tacotron 2 впечатляют. Система прошла оценку субъективного качества речи MOS (Mean Opinion Score) и набрала 4,53 балла. При этом максимальный балл для профессионально записанной речи оценивается в 4,58. Команда Google опубликовала образцы записей в сети: любой желающий может послушать коротенькие треки и убедиться в пугающей натуральности произношения лично.

Генератор речи опирается на две нейросети глубокого обучения: первая трудится над спектрограммой и любезно передает результат второй участнице WaveNet. Именно этот алгоритм отвечает за озвучку текста, причем делает это умело — с чувством, с толком, с расстановкой. WaveNet выделяет слова интонационно, понимает, где начало, а где конец предложения. В общем, чрезвычайно «смышленая» система, которая в перспективе может даже лишить работы некоторых людей. Актеров озвучивания, например. Или барышень, устало вещающих из вокзальных громкоговорителей.