Meta представила Voicebox – генеративну модель синтезу голосу

Минулого тижня відділ досліджень штучного інтелекту Meta Platforms представив Voicebox – модель машинного навчання, яка може генерувати мову з тексту. VentureBeat розібрався, що нового пропонує цей продукт.

Voicebox – це генеративна модель, яка може синтезувати мовлення шістьма мовами, а саме англійською, французькою, іспанською, німецькою, польською та португальською. Як і інші великі мовні моделі, Voicebox можна використовувати для багатьох програм.

На відміну від більшості моделей, які намагаються вивчати статистичні закономірності слів і текстових послідовностей, Voicebox навчений виявляти закономірності, які відображають аудіозразки голосу у відповідні транскрипції. Таку модель потім можна застосувати при виконанні багатьох завдань із мінімальним або нульовим додатковим налаштуванням.

«Метою є побудова єдиної моделі, яка може виконувати багато завдань із генерації мови, використовує текст, має потенціал контекстного навчання», – йдеться у технічному описі Voicebox.

Модель була навчена за допомогою техніки Meta Flow Matching. Розробники використали для навчання Voicebox 50 тисяч годин розмов та аудіокниг. Під час навчання моделі надавали звуковий зразок і відповідний текст. Частину аудіо потім замасковували, і модель відтворювала цю замасковану частину, використовуючи як контекст надане аудіо та стенограму.

Voicebox може виконувати багато завдань і навчатися самостійно, наприклад генерувати голосовий вивід для нового тексту. Meta стверджує, що це дасть можливість використовувати голос людям, які не можуть говорити, або налаштувати голоси неігрових персонажів і віртуальних помічників.

Voicebox також може передавати стиль голосу, редагувати мовлення та видаляти фоновий шум. Якщо ви неправильно вимовили слово, можна замаскувати цю частину аудіозразка і передати його Voicebox разом із транскрипцією відредагованого тексту. Модель згенерує відсутню частину за допомогою тексту таким чином, щоб аудіозразок відповідав вашому голосу й тональності.

Однак у Voicebox є свої обмеження. Оскільки модель була навчена за допомогою аудіокниг, вона не завжди коректно розуміє розмовний неформальний текст, особливо якщо він містить невербальні звуки. Також модель не забезпечує повного контролю над різними атрибутами згенерованого мовлення (стиль голосу, тональність, емоції й акустичні умови тощо). Дослідницька група Meta вивчає методи усунення цих обмежень у майбутньому.

Зростає занепокоєння щодо загроз, які потенційно може нести контент, створений штучним інтелектом. Нещодавно кіберзлочинці намагалися ошукати жінку, зателефонувавши їй і використавши згенерований ШІ голос її онука.

Удосконалені системи синтезу мовлення, такі як Voicebox, на жаль, можуть бути використані для подібних цілей, а також для створення підроблених доказів або маніпулювання аудіозаписами. У зв’язку з цими побоюваннями Meta не публікує саму модель, але надає технічні деталі архітектури та процесу навчання у технічній документації.