Microsoft показала ШІ, який може імітувати будь-який людський голос. Він називається VALL-E, а попередній називався DALL-E і він створює зображення на основі тексту.
VALL-E може імітувати тембр і манеру мови, прослуховуючи голос реальної людини всього за три секунди. Хоча звук трохи нагадує голос робота, результат все одно вражає.
Microsoft назвала це «моделлю мови нейронних кодеків». VALL-E був побудований на основі EnCodec (аудіокодек, що використовує методи машинного навчання), розробленого Meta рік тому, у 2022 році.
VALL-E імітує будь-який голос
Інші методи перетворення тексту в мовлення враховують хвилі. Але VALL-E генерує окремі аудіокодеки з тексту та аудіо. По суті, він аналізує, як звучить людина. Потім він розбиває цю інформацію на окремі частини (так звані «токени») за допомогою EnCodec. І врешті-решт він використовує навчальні дані, щоб зіставити те, що він «знає» про те, як би звучав цей голос, якби він вимовляв інші фрази за межами трисекундного зразка.
VALL-E навчали за допомогою спеціальної бібліотеки. Остання містить 60 000 годин англійської мови від понад 7 000 людей. Розробники припускають, що метод можна використовувати для високоякісних додатків синтезу мовлення. Наприклад, ви можете використовувати його для редагування записів мовлення, де дозволено змінювати людські слова. У результаті ви можете створювати аудіовміст (наприклад, озвучування аудіокниг) тощо.
Звичайно, така техніка може нести й певну небезпеку. Рано чи пізно «одноокі» користувачі зроблять його інструментом шантажу. Скажімо, вони можуть використовувати ШІ, щоб довести, що відомі люди сказали те, чого вони не сказали. Такі випадки вже були с дипфейками у форматі відео.
Ми припускаємо, що ви дивилися відео з Ілоном Маском, який обіцяє величезні прибутки від інвестицій у хитромудру криптовалюту.