OpenAI стверджує, що її безкоштовна модель GPT-4o може розмовляти, сміятися, співати і бачити, як людина

Компанія також випускає десктопний додаток для ChatGPT.

Наталя Зарудня

ByНаталя Зарудня

Головний редактор

Досвід роботи у галузі кібербезпеки понад 10 років. Пишу про штучний інтелект, соціальні мережі, історію технологій.

Слідкуйте:

2 роки тому

3 хв. читання

У понеділок OpenAI анонсувала GPT-4o, абсолютно нову модель штучного інтелекту, яка, за словами компанії, на крок наближає нас до “набагато більш природної взаємодії людини з комп’ютером”.

Нова модель приймає на вхід будь-яку комбінацію тексту, аудіо та зображень і може генерувати вихідні дані у всіх трьох форматах. Вона також здатна розпізнавати емоції, дозволяє переривати розмову на півслові та реагує майже так само швидко, як і людина під час розмови.

“Особливість GPT-4o полягає в тому, що він є інтелектом рівня GPT-4 для всіх, включаючи наших безкоштовних користувачів”, – сказала технічний директор OpenAI Міра Мураті під час прямої трансляції презентації. “Вперше ми робимо величезний крок вперед, коли справа доходить до простоти використання”.

Під час презентації OpenAI продемонструвала, як GPT-4o перекладає в прямому ефірі з англійської на італійську мову, допомагає досліднику вирішити лінійне рівняння в реальному часі на папері, а також надає рекомендації щодо глибокого дихання іншому керівнику OpenAI, просто прислухаючись до його дихання.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

- Advertisement -

Буква “o” в GPT-4o означає “omni”, що вказує на мультимодальні можливості моделі. В OpenAI заявили, що GPT-4o навчався на тексті, зорі та аудіо, а це означає, що всі вхідні та вихідні дані обробляються однією і тією ж нейронною мережею. Це відрізняється від попередніх моделей компанії, GPT-3.5 і GPT-4, які дозволяли користувачам ставити запитання, просто розмовляючи, але потім транскрибували мову в текст. Це позбавляло інтонації та емоцій і робило взаємодію повільнішою.

OpenAI зробить нову модель доступною для всіх, включаючи безкоштовних користувачів ChatGPT, протягом наступних кількох тижнів, а також випустить десктопну версію ChatGPT, спочатку для Mac, до якої платні користувачі отримають доступ з сьогоднішнього дня.

Оголошення OpenAI відбулося за день до Google I/O, щорічної конференції для розробників. Незабаром після того, як OpenAI представила GPT-4o, Google випустила версію Gemini, свого власного чат-бота зі схожими можливостями.