OpenAI щойно оголосила, що недавно провела невеликий попередній перегляд нового інструменту під назвою Voice Engine. Це технологія клонування голосу, яка може імітувати будь-якого спікера, аналізуючи зразок звуку тривалістю 15 секунд. Компанія каже, що генерує “природній звук мовлення” з “емоційними та реалістичними голосами”.

Технологія базується на попередньому API перетворення тексту в мовлення компанії та працює з 2022 року. OpenAI вже використовувала версію цього інструментарію для створення готових голосів, доступних у поточному text-to-speech API та функції “Читати вголос”. Є кілька прикладів в офіційному блозі компанії, і вони звучать дивовижно схоже на реальний голос. Ми радимо вам послухати їх і уявити можливості, як позитивні, так і негативні.

OpenAI каже, що бачить користь технології клонування голосу для допомоги у читанні, перекладі мови та допомозі тим, хто стикається з раптовими або дегенеративними порушеннями мовлення. Компанія згадала пілотний проект Браунського університету, який допоміг пацієнту з проблемами імпедансу мовлення, створивши клон Voice Engine з аудіо, записаного для шкільного проекту.

Незважаючи на потенційні переваги, злочинці безперечно будуть зловживати технологією клонування голосу для створення серйозних deepfake маніпуляцій, що вже є проблемою. З цим на увазі, Voice Engine ще не зовсім готовий до використання в реальних умовах, оскільки існують серйозні питання з приватності, які потрібно вирішити перед повним впровадженням.

Читайте також: Діпфейки: чому це так небезпечно?

OpenAI визнає, що ця технологія має “серйозні ризики, які особливо актуальні у виборчому році”. Компанія каже, що вона враховує відгуки від “партнерів із США та міжнародних партнерів з уряду, ЗМІ, розваг, освіти, громадянського суспільства та ін.” для забезпечення запуску продукту з мінімальним рівнем ризику. Усі попередні тестувальники погодилися з політикою використання OpenAI, яка забороняє підроблення іншої особи без згоди чи законного права.

Крім того, будь-хто, хто використовує технологію клонування голосу, повинен повідомляти своїй аудиторії, що голоси згенеровані ШІ. OpenAI впровадила заходи безпеки, такі як водяний знак для відстеження походження будь-якого аудіо та “активний моніторинг” того, як система використовується. Коли продукт офіційно вийде на ринок, буде список “голосів-ноу-го”, який виявляє та запобігає використанню ШІ, що занадто схожі на відомих особистостей.

Читайте також: Як захиститися від шахрайства з клонуванням голосу штучним інтелектом

Щодо дати випуску, OpenAI поки не повідомляє її. TechCrunch розкрив деякі можливі дані про ціни, і виглядає так, що це буде конкурентніша пропозиція на ринку порівняно з ElevenLabs. Voice Engine може коштувати 15 доларів за мільйон символів, що становить приблизно 162,500 слів. Це приблизно стільки, скільки слів у книзі “Сяйво” Стівена Кінга. Це безперечно звучить як бюджетний спосіб отримати аудіокнигу. Рекламні матеріали також згадують про “HD” версію, яка коштує вдвічі більше, але компанія ще не деталізувала, як це працюватиме.

OpenAI робить великі кроки цього тижня. Вона щойно оголосила ще одне партнерство зі своїм найкращим другом Microsoft з метою побудови базованого на ШІ суперкомп’ютера під назвою “Старгейт”. Проект, за інформацією від The Information, обійдеться приблизно у 100 мільярдів доларів.

Що таке комп’ютер зі штучним інтелектом (AI PC)? Чи варто його купувати?

OpenAI тестує інструмент клонування голосу: допомога людям або нові можливості для кіберзлочинців?

Технологія є розширенням попереднього API перетворення тексту в мовлення.