TY  - JOUR
AU  - Obukhov, Dmitry Sergeevich
PY  - 2021
TI  -  Многоголосый синтез естественной речи с использованием генеративных потоков
JF  - Современные информационные технологии и ИТ-образование; Том 17 № 4 (2021): Современные информационные технологии и ИТ-образование
DO  - 10.25559/SITITO.17.202104.896-905
KW  - 
N2  -  Современные системы синтеза речи формируют естественную речь и имеют высокую производительность. Модели с использованием генеративных потоков, среди прочих, показали впечатляющие результаты, позволяя формировать разнообразные произнесения заданного текста. Однако они ориентированы на синтез голосом одного заданного диктора. Не смотря на предложенные недавно техники для учета нескольких спикеров при обучении, качество многоголосого синтеза речи оставляет желать лучшего. В данной работе предложены техники и приемы, позволяющие повысить качество многоголосого синтеза при использовании акустических моделей на основе генеративных потоков. В качестве одной из таких техник предложено из внешней системы получать информацию о выравнивании по оси времени между речевым аудио сигналом и текстовой последовательностью. Такая информация позволяет определить, в какой момент времени какой именно звук был произнесен и является необходимой для рассматриваемой параллельной системы синтеза речи, т.к. позволяет разрешить проблему несоответствия длин входной и выходной последовательностей. Внешняя система получения таких выравниваний для записей разных спикеров более точна, чем внутренние эвристики при обучении, т.к. способна обучаться на большем объеме данных и поэтому обладает большей обобщающей способностью. Другая предложенная техника заключается в том, чтобы использовать полученные из внешней системы вещественные векторы фиксированной размерности, содержащие информацию о спикере, т.н. эмбеддинги спикера. В данной работе рассматриваются эмбеддинги спикера, полученные из системы для решения задачи верификации спикера. Такие представления спикера обладают тем свойством, что эмбеддинги, полученные из речевых фрагментов одного спикера, расположены рядом в пространстве, а эмбеддинги, полученные из речевых фрагментов разных спикеров - далеко друг от друга. Благодаря таким представлениям спикера система синтеза лучше формирует речь голосами разных дикторов. 
UR  - http://sitito.cs.msu.ru/index.php/SITITO/article/view/807