ШІ під назвою VALL-E потрібно 3 секунди, щоб імітувати будь-який голос

Автор Stepan ZELINSKY На читання 2 хв Опубліковано 12.01.2023

Microsoft показала ШІ, який може імітувати будь-який людський голос. Він називається VALL-E, а попередній називався DALL-E і він створює зображення на основі тексту.

VALL-E може імітувати тембр і манеру мови, прослуховуючи голос реальної людини всього за три секунди. Хоча звук трохи нагадує голос робота, результат все одно вражає.

імітація голосу

Microsoft назвала це «моделлю мови нейронних кодеків». VALL-E був побудований на основі EnCodec (аудіокодек, що використовує методи машинного навчання), розробленого Meta рік тому, у 2022 році.

VALL-E імітує будь-який голос

Інші методи перетворення тексту в мовлення враховують хвилі. Але VALL-E генерує окремі аудіокодеки з тексту та аудіо. По суті, він аналізує, як звучить людина. Потім він розбиває цю інформацію на окремі частини (так звані «токени») за допомогою EnCodec. І врешті-решт він використовує навчальні дані, щоб зіставити те, що він «знає» про те, як би звучав цей голос, якби він вимовляв інші фрази за межами трисекундного зразка.

VALL-E навчали за допомогою спеціальної бібліотеки. Остання містить 60 000 годин англійської мови від понад 7 000 людей. Розробники припускають, що метод можна використовувати для високоякісних додатків синтезу мовлення. Наприклад, ви можете використовувати його для редагування записів мовлення, де дозволено змінювати людські слова. У результаті ви можете створювати аудіовміст (наприклад, озвучування аудіокниг) тощо.

Звичайно, така техніка може нести й певну небезпеку. Рано чи пізно «одноокі» користувачі зроблять його інструментом шантажу. Скажімо, вони можуть використовувати ШІ, щоб довести, що відомі люди сказали те, чого вони не сказали. Такі випадки вже були с дипфейками у форматі відео.

Ми припускаємо, що ви дивилися відео з Ілоном Маском, який обіцяє величезні прибутки від інвестицій у хитромудру криптовалюту.

Читай також: Facebook дозволить створити 5 профілів з одним обліковим записом

Нагадаємо, раніше ми писали, що Redmi K80 Ultra: автономність понад усе — акумулятор 7410 мАг, зарядка 100 Вт і чип Dimensity 9400, Redmi K80 Ultra Launch: Розкрито преміальний дизайн та флагманські характеристики та Honor MagicPad 3: ультратонкий планшет з масивним акумулятором на 12 450 мАг.

Stepan ZELINSKY

Дивись повну біографію

What’s your Reaction?

Cool

Happy

Shaking

Interesting

Sad

Angry

Читайте Gizchina в Google News

ИИ под названием VALL-E требуется 3 секунды, чтобы имитировать любой голос

Автор Stepan ZELINSKY На читання 2 хв Опубліковано 12.01.2023

Microsoft показала ИИ, который может имитировать любой человеческий голос. Он называется VALL-E, а предыдущий называется DALL-E и он создает изображение на основе текста.

VALL-E может имитировать тембр и манеру речи, прослушивая голос настоящего человека всего за три секунды. Хотя звук немного напоминает голос робота, результат все равно поражает. імітація голосу

Microsoft назвала это моделью языка нейронных кодеков. VALL-E был построен на основе EnCodec (аудиокодек, использующего методы машинного обучения), разработанного Meta год назад, в 2022 году.

VALL-E имитирует любой голос

Другие методы преобразования текста в речи учитывают волны. Но VALL-E генерирует отдельные аудиокодеки из текста и аудио. В сущности, он анализирует, как звучит человек. Затем он разбивает эту информацию на отдельные части (так называемые токены) с помощью EnCodec. И в конце концов он использует обучающие данные, чтобы сопоставить то, что он «знает» о том, как бы звучал этот голос, если бы он произносил другие фразы за пределами трехсекундного образца.

VALL-E учили с помощью специальной библиотеки, которая содержит 60 000 часов английского языка от более чем 7 000 человек. Разработчики предполагают, что метод можно использовать для высококачественных приложений синтеза речи. Например, вы можете использовать его для редактирования речи, где разрешено изменять человеческие слова. В результате вы можете создавать аудиосодержимое (например, озвучивание аудиокниг) и т.д.

Конечно, такая техника может представлять и определенную опасность. Рано или поздно «одноглазые» пользователи сделают его инструментом шантажа. Скажем, они могут использовать ИИ, чтобы доказать, что известные люди сказали, чего они не сказали. Такие случаи уже были с дипфейками в формате видео.

Мы предполагаем, что вы смотрели видео с Илоном Маском, обещающим огромные доходы от инвестиций в замысловатую криптовалюту.

Читай також: Акумулятор iPhone 17 Air є недостатнім навіть за стандартами тонких телефонів

Нагадаємо, раніше ми писали, що Ноутбуки-трансформеры: Инновации и преимущества, Электровелосипеды: Всё, что вам нужно знать перед покупкой та Samsung випускає Galaxy A55 і A35: Нові телефони середнього класу.