Нова технологія ШІ від Microsoft може створювати реалістичні дипфейки за допомогою фото і звукової доріжки

Microsoft Research Asia опублікувала офіційний документ щодо генеративної програми ШІ, яку вона розробляє. Програма називається VASA-1.

Вона може створювати дуже реалістичні відео лише з одного зображення обличчя та вокальної звукової доріжки. Ще більш вражаючим є те, що програмне забезпечення може генерувати відео та міняти обличчя в реальному часі, повідомляє Tech Spot.

Visual Affective Skills Animator (або VASA) – це система машинного навчання, яка аналізує фотографію обличчя, а потім анімує її до голосу, синхронізуючи рухи губ зі звуком.

Як і будь-який генеративний ШІ, він не ідеальний. Аватари все ще мають проблеми з дрібними деталями, такими як пальці або, як у випадку VASA, – зуби. Якщо звернути увагу на зуби аватара, то можна помітити, що вони змінюють розміри та форму.

Також є деякі нюанси, які виглядають не зовсім природньо. Їх важко передати словами. Це скоріше схоже на те, що ваш мозок помічає якісь неспівпадіння і штучну міміку. Однак це помітно лише при уважному розгляді.

Обличчя, використані в демонстраційних роликах, створені ШІ за допомогою StyleGAN2 або DALL-E-3. Проте система працюватиме з будь-яким зображенням – реальним чи згенерованим. VASA навіть може анімувати намальовані обличчя. Наприклад, Мона Ліза, яка співає.

Існують побоювання, що зловмисники можуть використовувати цю технологію для поширення пропаганди або маніпуляцій.

Корпорація Microsoft визнає можливість зловживань, але не дає адекватної поради щодо боротьби з ними, окрім ретельного аналізу відео. Також, щоб запобігти зловживанням, Microsoft не планує оприлюднювати технологію публічно.

«Ми не плануємо випускати онлайн-демо, API, продукт, додаткові деталі для впровадження або будь-які пов’язані пропозиції, доки не будемо впевнені, що технологія буде використовуватися відповідально та відповідно до належних правил», – повідомили у компанії.

Тим не менш, ця технологія має деякі сфери для практичного застосування. Зокрема, VASA можна використовувати для створення реалістичних відеоаватарів, які локально відображаються в режимі реального часу. Apple вже робить щось подібне зі своїми просторовими персонами, доступними на Vision Pro.

Ознайомитися з технічними подробицями можна в документі, опублікованому у репозиторії arXiv. На вебсайті Microsoft також є більше демонстрацій.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!