26 июля 2023

Spotify стремится озвучить эмоции ИИ

АС

Андрей Сорокин, редактор журнала

26.07.2023

Spotify стремится улучшить качество прослушивания музыки, добавив в процесс искусственный интеллект. Компания пытается запатентовать систему под названием «синтез текста в речь». Технология способна преобразовать письменный текст в звук и тем самым передавать заложенные в нем эмоции.

В процессе работы текст подается на синтезатор с нейросетью, который преобразует его в речевые данные. Они затем поступают в вокодер, который добавляет к сгенерированной речи такие атрибуты, как эмоции, намерения, темп и акцент. Такой двухмодельный процесс призван создать более естественный и реалистичный звук.

Spotify обучает модели, используя наборы аудиообразцов и соответствующего текста, которые отражают различные атрибуты речи. Обучение продолжается до тех пор, пока метрика эффективности не достигнет определенного порога, гарантирующего достоверность звучания.

Система синтеза текста в речь имеет потенциальное применение не только в коротких предложениях. Технология также может быть использована для создания аудиокниг или в студии Spotify — Soundtrap.

Однако есть и опасения, что создание реалистичных голосов ИИ открывает возможности для злоупотреблений, например, для «дип фейка». Кроме того, если ИИ сможет идеально имитировать эмоции, с проблемами могут столкнуться актеры озвучивания, которые зарабатывают на жизнь своим голосом.

Напомним, что не так давно представители креативных профессий — на этот раз писатели — выступили против использования своих работ для обучения искусственного интеллекта.

Фото: mirf.ru

АС

Андрей Сорокин, редактор журнала

26 июля 2023

Новости

26 июля 2023

Spotify стремится озвучить эмоции ИИ

Ничего лишнего. Рассказываем, как заработать на интеллектуальной собственности, идеях и технологиях