ИИ может клонировать голос вашего любимого ведущего подкаста

ai-podcasts-podcastle-revoice-descript Тренды

Однажды в этом году вы начнете слушать подкаст и поймете, что что-то не так. Голос ведущего, который вам знаком, будет звучать по-другому. Предложения могут быть скованными или некоторые слова будут иметь странный оттенок. И тогда вы спросите: это действительно говорит ведущий или его голосовой клон ИИ?

Подобно тому, как искусственный интеллект доказал свою способность создавать реалистичные изображения, эффективные видеоролики и убедительные тексты, аналогичные технологии могут убедительно имитировать голоса ведущих подкастов, создателей контента и других медиа-профессионалов. Ожидается, что новый набор инструментов от растущего числа стартапов ускорит завоевание искусственным интеллектом наших аудиоканалов.

Наши уши уже знакомы с речью, генерируемой компьютером. Искусственные голоса играют на диджериду и отвечают на ваши телефонные звонки. Технологи клонировали голоса живых и мертвых знаменитостей и восстановили голоса тех, кто потерял способность говорить из-за болезни. Когда-нибудь в скором времени речевые инструменты на базе ИИ смогут вернуть голоса наших умерших родственников.

Когда дело доходит до производства подкастов, машины оказываются полезными в монтажной комнате. Такие сервисы редактирования, как Descript, предлагают функции машинного обучения, которые очищают аудиозапись человеческой речи, удаляя неловкие паузы и слова-заполнители, такие как «гм» и «типа».

В последнее время появилось еще больше возможностей позаботиться о действительно грязной части создания подкаста: о разговорах. Descript предлагает функцию под названием Overdub, которая создает виртуальный голос, который можно использовать при монтаже. Если ведущий неправильно произносит чье-то имя или ошибается в дате, продюсер может поручить роботу произнести это правильно, а затем вставить исправление.

Новые инструменты идут еще дальше. В январе компания Podcastle, предлагающая набор программного обеспечения для подкастинга, выпустила инструмент клонирования голоса на основе искусственного интеллекта под названием Revoice, который может создавать цифровой симулякр человека-ведущего. Компания позиционирует Revoice как способ для продюсеров создать любой аспект аудиопродукции — от чтения рекламы до закадрового голоса и аудиокниг — просто набрав слова, которые должна произнести виртуальная версия ведущего.

Создание цифровой копии вашего голоса требует некоторой работы. В то время как некоторые сервисы искусственного интеллекта могут имитировать голос, изучая аудиоклипы говорящего человека, Podcastle требует от пользователя зачитать сценарий из примерно 70 фраз, подобранных таким образом, чтобы уловить различные движения рта и фонемы. Процесс занимает от 30 до 45 минут, в зависимости от того, насколько тщательно вы следите за правильностью интонаций.

«Идея всегда заключалась в том, что он должен быть очень близок к вашему оригинальному голосу», — говорит генеральный директор Podcastle Артавазд Ерицян о получившемся голосовом клоне. «Не украшать или делать ваш голос еще лучше, чем он есть, а очень точно произносить слова».

Это высокая цель, но голос ИИ не всегда звучит так же мелодично, как настоящий человеческий голос. Тон (по крайней мере, в моих экспериментах) получается монотонным и роботизированным, со странными запинками и синтетическими артефактами.

Я покажу вам пример, начиная с моего реального разговорного голоса.

Вот фрагмент аудиозаписи из недавнего эпизода подкаста WIRED’s Gadget Lab, где я участвовал в шоу, чтобы пожаловаться на то, что телефоны слишком хороши. (Кредит: WIRED)

Далее, моя симуляция.

Этот второй клип был сделан в программе Revoice. Я записал те же слова, которые говорил на шоу, и пропустил их через программу клонирования голоса ИИ. (Кредит: Podcastle)

Эти несовершенства в ритме и интонации неизбежны, говорит Виджай Баласубраманиян. Он является генеральным директором компании Pindrop, которая анализирует голоса в аудиозаписях и телефонных звонках для предотвращения мошенничества. «Ваш голос — это то, что формировалось на протяжении 10 000 лет эволюции», — говорит он. «Поэтому вы выработали определенные вещи, которые очень трудно воспроизвести машинам».

Компании, занимающиеся разработкой голосового ИИ, работают над повышением человечности своих клонов. Мати Станишевски, генеральный директор компании ElevenLabs, говорит, что его модели обучаются интерпретировать контекст языка, на котором вы хотите, чтобы голос говорил. В зависимости от того, как написано предложение, модель может манипулировать тоном и темпом звука, чтобы приблизить его к человеческим интонациям. Это может придать ему более реалистичное звучание, но также может привести к тому, что он станет более хаотичным.

Этот клип был сделан с помощью инструмента клонирования ElevenLabs. Он менее роботизирован, более реалистичен и удивительно эмоционален. (Кредит: ElevenLabs)

Приведенный выше ролик был сделан с помощью модели синтеза речи ElevenLabs. Темп и интонация в первой половине клипа соответствуют оригинальному звуку, но вторая половина звучит громче и неистовее, чем любой из голосовых клипов, использованных для создания модели.

Ты говоришь как я

Возможно, на данный момент аудио ИИ кажется лишь немного более реалистичным, чем ИИ видео, но результаты, полученные с помощью текущего набора инструментов, достаточно хороши, чтобы заставить экспертов по безопасности понервничать. Есть очень веские причины, по которым вы захотите скрыть свой голос ради безопасности и конфиденциальности; он может быть использован для идентификации вашей личности, и машины могут определить такие идентифицирующие факторы, как ваш возраст, этническая принадлежность, пол и экономический статус, просто слушая вашу речь.

Баласубраманиян говорит, что услуги голосового ИИ должны обеспечивать безопасность наравне с другими компаниями, хранящими персональные данные, например, финансовую или медицинскую информацию.

«Вы должны спросить компанию: «Как будет храниться мой голос ИИ? Действительно ли вы храните мои записи? Храните ли вы их в зашифрованном виде? Кто имеет к ним доступ?»» говорит Баласубраманиян. «Это часть меня. Это моя интимная сущность. Я должен защищать его так же хорошо».

Podcastle утверждает, что голосовые модели шифруются из конца в конец и что компания не хранит никаких записей после создания модели. Только владелец аккаунта, записавший голосовые ролики, может получить к ним доступ. Podcastle также не позволяет загружать или анализировать другие аудиозаписи в Revoice. Фактически, человек, создающий копию своего голоса, должен записывать строки заранее написанного текста непосредственно в приложении Revoice. Они не могут просто загрузить предварительно записанный файл.

«Именно вы даете разрешение и создаете контент», — говорит Ерицян из Podcastle. «Неважно, искусственный это голос или оригинальный, если это не фальшивый голос, это голос этого человека, и он его выложил. Я не вижу проблем».

Компания Podcastle надеется, что возможность воспроизводить звук только клонированным голосом человека, давшего согласие, лишит людей стимула заставлять себя говорить что-то слишком ужасное. В настоящее время сервис не имеет никакой модерации контента или ограничений на конкретные слова или фразы. Ерицян говорит, что все зависит от того, какой сервис или организация публикует аудио — Spotify, Apple Podcasts или YouTube — чтобы контролировать контент, который попадает на их платформы.

«На любой социальной платформе или любой стриминговой платформе есть огромные команды модераторов», — говорит Ерицян. «Так что это их работа — не дать никому использовать фальшивый голос и создать что-то глупое или что-то неэтичное и опубликовать это там».

Подкастинг — это интимная среда, и отчетливая человеческая связь, которую вы чувствуете, когда слушаете, как люди ведут беседу или рассказывают истории, легко теряется, когда к микрофону подходят роботы.

Даже если очень острый вопрос о подделке голоса и клонировании ИИ без согласия будет решен, все равно неясно, примут ли люди компьютерного клона как приемлемую замену человеку.

В конце марта комик Дрю Кэри воспользовался инструментом компании ElevenLabs, чтобы выпустить целый эпизод радиошоу, который был начитан его голосовым клоном. По большей части людям это не понравилось. Подкастинг — это интимная среда, и отчетливая человеческая связь, которую вы чувствуете, когда слушаете, как люди ведут беседу или рассказывают истории, легко теряется, когда к микрофону подходят роботы.

Но что произойдет, если технология продвинется настолько, что вы не сможете их отличить? Имеет ли значение, что у вас в ухе не ваш любимый подкастер? Клонированная речь ИИ еще не скоро станет неотличимой от человеческой, но она быстро набирает обороты. Всего год назад изображения, созданные ИИ, выглядели карикатурно, а сейчас они достаточно реалистичны, чтобы обмануть миллионы людей, решивших, что Папа Римский надел новую потрясающую верхнюю одежду. Легко предположить, что аудио, создаваемое ИИ, будет иметь аналогичную траекторию.

Интерес к этим инструментам, работающим на базе ИИ, обусловлен еще одной очень человеческой чертой: ленью. Голосовые технологии ИИ — если только они дойдут до того момента, когда смогут точно имитировать реальные голоса — позволят легко делать быстрые правки или пересъемки без необходимости возвращать ведущего в студию.

«В конечном итоге победит экономика созидателей», — говорит Баласубраманиян. «Независимо от того, сколько мы будем думать об этических последствиях, она победит, потому что вы просто упростили жизнь людей».

Обновление, 12 апреля в 15:30 EDT: Вскоре после публикации этой статьи нам был предоставлен доступ к инструменту голосового ИИ компании ElevenLabs, который мы использовали для создания третьего голосового клипа. Статья была обновлена, чтобы включить результаты.

Источник: https://www.wired.com/story/ai-podcasts-podcastle-revoice-descript/

Avatar photo
Mr.Cat

Слежу за технологиями и новинками электроники, всегда готов поделиться знаниями и помочь в выборе

Оцените автора
Все о телефонах
Добавить комментарий

Нажимая на кнопку "Отправить комментарий", я даю согласие на обработку персональных данных и принимаю политику конфиденциальности.

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.