ProIT: медіа для профі в IT
Приблизно хвилину

OpenAI представила ШІ-модель Voice Engine, яка клонує людський голос на основі 15-секундного прикладу

author avatar ProIT NEWS

OpenAI пропонує обмежений доступ до розробленої нею платформи генерації тексту в голос під назвою Voice Engine, яка може створювати синтетичний голос на основі 15-секундного запису чийогось голосу. Про це компанія повідомила у дописі в своєму блозі.

Повідомляється, що модель розробляється з кінця 2022 року та підтримує функцію Read Aloud у ChatGPT.

Голос, згенерований штучним інтелектом, може зачитувати текстові підказки за командою тією ж мовою, що й мовець, або кількома іншими мовами.

«Це маломасштабне розгортання допомагає інформувати про наш підхід, запобіжні заходи та міркувати про те, як Voice Engine можна використовувати з користю в різних галузях», – йдеться у дописі OpenAI.

Доступ до нової моделі вже має низка компаній, зокрема освітня технологічна компанія Age of Learning, платформа візуального сторітеллінгу HeyGen, передовий виробник програмного забезпечення для здоров’я Dimagi, розробник комунікаційних застосунків зі штучним інтелектом Livox і система охорони здоров’я Lifespan.

У зразках, опублікованих OpenAI, ви можете почути, що Age of Learning робила з технологією для генерації голосового контенту, а також зачитування персоналізованих відповідей у реальному часі, написаних GPT-4.

OpenAI повідомила, що почала розробку Voice Engine наприкінці 2022 року і що ця технологія вже забезпечила попередньо встановлені голоси для API перетворення тексту у мовлення та функції читання вголос ChatGPT.

Джефф Гарріс, член команди розробки OpenAI для Voice Engine, сказав, що модель навчалася на поєднанні ліцензованих і загальнодоступних даних. OpenAI повідомила, що модель буде доступна лише приблизно 10 розробникам.

ШІ-генерація тексту в аудіо – це сфера генеративного ШІ, яка продовжує розвиватися. У той час як більшість компаній зосереджується на інструментальних або природних звуках, менше зосереджено на генерації голосу. Такі компанії, як Podcastle та ElevenLabs, надають технологію клонування голосу ШІ й інструменти, які Vergecast досліджував минулого року.

Раніше ProIT повідомляв, що OpenAI випустить GPT-5 вже цього літа.

Підписуйтеся на ProIT у Telegram, щоб не пропустити жодної публікації!

Приєднатися до company logo
Продовжуючи, ти погоджуєшся з умовами Публічної оферти та Політикою конфіденційності.