Spotify стремится улучшить качество прослушивания музыки, добавив в процесс искусственный интеллект. Компания пытается запатентовать систему под названием «синтез текста в речь». Технология способна преобразовать письменный текст в звук и тем самым передавать заложенные в нем эмоции.
В процессе работы текст подается на синтезатор с нейросетью, который преобразует его в речевые данные. Они затем поступают в вокодер, который добавляет к сгенерированной речи такие атрибуты, как эмоции, намерения, темп и акцент. Такой двухмодельный процесс призван создать более естественный и реалистичный звук.
Spotify обучает модели, используя наборы аудиообразцов и соответствующего текста, которые отражают различные атрибуты речи. Обучение продолжается до тех пор, пока метрика эффективности не достигнет определенного порога, гарантирующего достоверность звучания.
Система синтеза текста в речь имеет потенциальное применение не только в коротких предложениях. Технология также может быть использована для создания аудиокниг или в студии Spotify — Soundtrap.
Однако есть и опасения, что создание реалистичных голосов ИИ открывает возможности для злоупотреблений, например, для «дип фейка». Кроме того, если ИИ сможет идеально имитировать эмоции, с проблемами могут столкнуться актеры озвучивания, которые зарабатывают на жизнь своим голосом.
Напомним, что не так давно представители креативных профессий — на этот раз писатели — выступили против использования своих работ для обучения искусственного интеллекта.
Фото: mirf.ru
