DeepSeek V3.2: чи загрожує новий відкритий ШІ домінуванню пропрієтарних моделей

Завдяки вражаючим еталонним результатам останній випуск китайської лабораторії штучного інтелекту з відкритим вихідним кодом знову розпалює питання про те, чи варті дорогі моделі своєї ціни.

Зміст

Можливості нової моделі
Діагностика проблем відкритих моделей
Технологічне рішення: розріджена увага
Обмеження та перспективи

Модель, представлена в понеділок, базується на експериментальній версії V3.2, анонсованій у жовтні. Вона доступна у двох варіантах: «Thinking» та потужніша «Speciale». За заявою DeepSeek, V3.2 розширює можливості штучного інтелекту з відкритим кодом. Як і попередні моделі компанії, вона коштує значно дешевше за пропрієтарні аналоги, а базові ваги доступні через платформу Hugging Face.

DeepSeek вперше опинилася в центрі уваги у січні, випустивши R1 — модель з відкритим кодом для логічних міркувань, яка перевершила OpenAI o1 за кількома ключовими бенчмарками. Враховуючи, що продуктивність V3.2 також конкурує з потужними пропрієтарними моделями, це може знову змінити розклад сил в індустрії ШІ.

Можливості нової моделі

Чутки про те, що DeepSeek планує запустити власного економічно ефективного агента для конкуренції з OpenAI та Google, почали циркулювати ще у вересні. Тепер цей конкурент нарешті з’явився.

- Advertisement -

V3.2 є найновішою ітерацією V3 — моделі, випущеної майже рік тому, яка також стала основою для R1. Згідно з опублікованими компанією даними, V3.2 Speciale перевершує провідні пропрієтарні моделі — зокрема GPT-5 High від OpenAI, Claude 4.5 Sonnet від Anthropic та Gemini 3.0 Pro від Google — за деякими бенчмарками логічного мислення. Варто зазначити, що Kimi K2, безкоштовна модель з відкритим кодом від Moonshot, також заявляла про конкурентну продуктивність порівняно з GPT-5 та Sonnet 4.5.

Щодо вартості: доступ до Gemini 3 через API коштує до 4 доларів за 1 мільйон токенів, тоді як V3.2 Speciale — лише 0,028 долара за 1 мільйон токенів. За даними компанії, нова модель також досягла «золотого» рівня продуктивності на Міжнародній математичній олімпіаді (IMO) та Міжнародній олімпіаді з інформатики.

«DeepSeek-V3.2 постає як високоефективна альтернатива для агентних сценаріїв, суттєво скорочуючи розрив у продуктивності між відкритими та передовими пропрієтарними моделями при значно нижчих витратах», — зазначили дослідники компанії у науковій публікації.

Хоча ці заяви все ще обговорюються, вони продовжують тенденцію DeepSeek до зниження витрат з кожним новим релізом, що ставить під сумнів доцільність величезних інвестицій, які пропрієтарні лабораторії на кшталт OpenAI вкладають у свої моделі.

Діагностика проблем відкритих моделей

DeepSeek заявила, що створила V3.2 з метою допомогти спільноті відкритого ШІ наздогнати деякі технічні досягнення компаній, що розробляють закриті моделі. За даними компанії, агентні та логічні можливості провідних пропрієтарних моделей «прискорювалися значно швидше», ніж у їхніх відкритих аналогів.

Як казав інженер Чарльз Кеттерінг: «Правильно сформульована проблема — це наполовину вирішена проблема». Саме тому DeepSeek розпочала розробку нової моделі зі спроби діагностувати причини відставання open-source моделей, виокремивши три ключові фактори.

По-перше, моделі з відкритим кодом традиційно покладалися на так звану «vanilla attention» — повільний та енергозатратний механізм обробки вхідних даних і генерації виходів, через що вони погано справлялися з довгими послідовностями токенів. По-друге, вони мали обмеженішу обчислювальну фазу пост-тренування, що погіршувало їхню здатність виконувати складні завдання. По-третє, на відміну від пропрієтарних моделей, вони погано слідували довгим інструкціям та узагальнювали між завданнями, що робило їх неефективними агентами.

Технологічне рішення: розріджена увага

У відповідь компанія представила DeepSeek Sparse Attention (DSA) — механізм, який «пом’якшує критичну обчислювальну складність без втрати продуктивності на довгих контекстах».

При традиційному підході vanilla attention модель генерує виходи, порівнюючи кожен окремий токен із запиту з кожним токеном у навчальних даних — надзвичайно енергозатратний процес. Для ілюстрації: уявіть, що вам потрібно перекопати величезну купу книжок, розкиданих на газоні, щоб знайти конкретне речення. Це можливо, але потребує багато часу та ретельного перегляду величезної кількості сторінок.

- Advertisement -

Підхід DSA працює розумніше. Він застосовується у дві фази: спочатку «блискавичний індексатор» виконує високорівневе сканування токенів у навчальних даних, щоб виявити невелику підмножину, найбільш релевантну до конкретного запиту. Потім модель застосовує повну обчислювальну потужність саме до цієї підмножини. Замість копирсання у гігантській купі книжок ви заходите до охайно організованої бібліотеки, прямуєте до потрібного розділу і виконуєте значно менш виснажливий пошук потрібного уривку.

Для вирішення проблеми пост-тренування компанія створила «спеціалізовані» моделі для тестування та вдосконалення здібностей V3.2 у сферах написання текстів, загальних запитань, математики, програмування, логічних міркувань, агентних завдань, агентного кодування та агентного пошуку. Вони функціонують як репетитори, покликані перетворити модель-універсала на мультиспеціаліста.

Обмеження та перспективи

За даними дослідницької публікації, DeepSeek V3.2 «ефективно долає розрив між обчислювальною ефективністю та передовими можливостями логічного мислення» і «відкриває нові можливості для надійних та універсальних ШІ-агентів» через відкритий код.

Втім, є кілька застережень. «Знання про світ» нової моделі — широта практичного розуміння реального світу, яку можна вивести з корпусу навчальних даних — значно обмеженіша порівняно з провідними пропрієтарними моделями. Модель також потребує більше токенів для генерації виходів, порівнянних за якістю з передовими пропрієтарними моделями, та погано справляється зі складнішими завданнями. DeepSeek планує продовжувати скорочувати розрив між своїми моделями з відкритим кодом та пропрієтарними аналогами шляхом масштабування обчислень під час попереднього навчання та вдосконалення «рецепту пост-тренування».

Попри ці обмеження, сам факт того, що компанія — до того ж китайська — створила модель з відкритим кодом, здатну конкурувати з можливостями логічного мислення найпередовіших пропрієтарних моделей на ринку, є значною подією. Це підтверджує зростаючі докази того, що «розрив у продуктивності» між відкритими та закритими моделями не є фіксованим і невирішуваним фактом, а технічною розбіжністю, яку можна подолати через креативні підходи до попереднього навчання, механізмів уваги та пост-тренування.

Ще важливіше те, що майже безкоштовний доступ розробників до базових ваг моделі може підірвати основну торгову пропозицію провідних розробників закритих моделей: що платити за доступ до цих інструментів варто, оскільки вони найкращі на ринку. Якщо моделі з відкритим кодом затьмарять пропрієтарні, більшості користувачів не буде сенсу продовжувати платити за останні.