Завдяки вражаючим еталонним результатам останній випуск китайської лабораторії штучного інтелекту з відкритим вихідним кодом знову розпалює питання про те, чи варті дорогі моделі своєї ціни.
Модель, представлена в понеділок, базується на експериментальній версії V3.2, анонсованій у жовтні. Вона доступна у двох варіантах: «Thinking» та потужніша «Speciale». За заявою DeepSeek, V3.2 розширює можливості штучного інтелекту з відкритим кодом. Як і попередні моделі компанії, вона коштує значно дешевше за пропрієтарні аналоги, а базові ваги доступні через платформу Hugging Face.
DeepSeek вперше опинилася в центрі уваги у січні, випустивши R1 — модель з відкритим кодом для логічних міркувань, яка перевершила OpenAI o1 за кількома ключовими бенчмарками. Враховуючи, що продуктивність V3.2 також конкурує з потужними пропрієтарними моделями, це може знову змінити розклад сил в індустрії ШІ.
Можливості нової моделі
Чутки про те, що DeepSeek планує запустити власного економічно ефективного агента для конкуренції з OpenAI та Google, почали циркулювати ще у вересні. Тепер цей конкурент нарешті з’явився.
V3.2 є найновішою ітерацією V3 — моделі, випущеної майже рік тому, яка також стала основою для R1. Згідно з опублікованими компанією даними, V3.2 Speciale перевершує провідні пропрієтарні моделі — зокрема GPT-5 High від OpenAI, Claude 4.5 Sonnet від Anthropic та Gemini 3.0 Pro від Google — за деякими бенчмарками логічного мислення. Варто зазначити, що Kimi K2, безкоштовна модель з відкритим кодом від Moonshot, також заявляла про конкурентну продуктивність порівняно з GPT-5 та Sonnet 4.5.
Щодо вартості: доступ до Gemini 3 через API коштує до 4 доларів за 1 мільйон токенів, тоді як V3.2 Speciale — лише 0,028 долара за 1 мільйон токенів. За даними компанії, нова модель також досягла «золотого» рівня продуктивності на Міжнародній математичній олімпіаді (IMO) та Міжнародній олімпіаді з інформатики.
«DeepSeek-V3.2 постає як високоефективна альтернатива для агентних сценаріїв, суттєво скорочуючи розрив у продуктивності між відкритими та передовими пропрієтарними моделями при значно нижчих витратах», — зазначили дослідники компанії у науковій публікації.
Хоча ці заяви все ще обговорюються, вони продовжують тенденцію DeepSeek до зниження витрат з кожним новим релізом, що ставить під сумнів доцільність величезних інвестицій, які пропрієтарні лабораторії на кшталт OpenAI вкладають у свої моделі.
Діагностика проблем відкритих моделей
DeepSeek заявила, що створила V3.2 з метою допомогти спільноті відкритого ШІ наздогнати деякі технічні досягнення компаній, що розробляють закриті моделі. За даними компанії, агентні та логічні можливості провідних пропрієтарних моделей «прискорювалися значно швидше», ніж у їхніх відкритих аналогів.
Як казав інженер Чарльз Кеттерінг: «Правильно сформульована проблема — це наполовину вирішена проблема». Саме тому DeepSeek розпочала розробку нової моделі зі спроби діагностувати причини відставання open-source моделей, виокремивши три ключові фактори.
По-перше, моделі з відкритим кодом традиційно покладалися на так звану «vanilla attention» — повільний та енергозатратний механізм обробки вхідних даних і генерації виходів, через що вони погано справлялися з довгими послідовностями токенів. По-друге, вони мали обмеженішу обчислювальну фазу пост-тренування, що погіршувало їхню здатність виконувати складні завдання. По-третє, на відміну від пропрієтарних моделей, вони погано слідували довгим інструкціям та узагальнювали між завданнями, що робило їх неефективними агентами.
Технологічне рішення: розріджена увага
У відповідь компанія представила DeepSeek Sparse Attention (DSA) — механізм, який «пом’якшує критичну обчислювальну складність без втрати продуктивності на довгих контекстах».
При традиційному підході vanilla attention модель генерує виходи, порівнюючи кожен окремий токен із запиту з кожним токеном у навчальних даних — надзвичайно енергозатратний процес. Для ілюстрації: уявіть, що вам потрібно перекопати величезну купу книжок, розкиданих на газоні, щоб знайти конкретне речення. Це можливо, але потребує багато часу та ретельного перегляду величезної кількості сторінок.
Підхід DSA працює розумніше. Він застосовується у дві фази: спочатку «блискавичний індексатор» виконує високорівневе сканування токенів у навчальних даних, щоб виявити невелику підмножину, найбільш релевантну до конкретного запиту. Потім модель застосовує повну обчислювальну потужність саме до цієї підмножини. Замість копирсання у гігантській купі книжок ви заходите до охайно організованої бібліотеки, прямуєте до потрібного розділу і виконуєте значно менш виснажливий пошук потрібного уривку.
Для вирішення проблеми пост-тренування компанія створила «спеціалізовані» моделі для тестування та вдосконалення здібностей V3.2 у сферах написання текстів, загальних запитань, математики, програмування, логічних міркувань, агентних завдань, агентного кодування та агентного пошуку. Вони функціонують як репетитори, покликані перетворити модель-універсала на мультиспеціаліста.
Обмеження та перспективи
За даними дослідницької публікації, DeepSeek V3.2 «ефективно долає розрив між обчислювальною ефективністю та передовими можливостями логічного мислення» і «відкриває нові можливості для надійних та універсальних ШІ-агентів» через відкритий код.
Втім, є кілька застережень. «Знання про світ» нової моделі — широта практичного розуміння реального світу, яку можна вивести з корпусу навчальних даних — значно обмеженіша порівняно з провідними пропрієтарними моделями. Модель також потребує більше токенів для генерації виходів, порівнянних за якістю з передовими пропрієтарними моделями, та погано справляється зі складнішими завданнями. DeepSeek планує продовжувати скорочувати розрив між своїми моделями з відкритим кодом та пропрієтарними аналогами шляхом масштабування обчислень під час попереднього навчання та вдосконалення «рецепту пост-тренування».
Попри ці обмеження, сам факт того, що компанія — до того ж китайська — створила модель з відкритим кодом, здатну конкурувати з можливостями логічного мислення найпередовіших пропрієтарних моделей на ринку, є значною подією. Це підтверджує зростаючі докази того, що «розрив у продуктивності» між відкритими та закритими моделями не є фіксованим і невирішуваним фактом, а технічною розбіжністю, яку можна подолати через креативні підходи до попереднього навчання, механізмів уваги та пост-тренування.
Ще важливіше те, що майже безкоштовний доступ розробників до базових ваг моделі може підірвати основну торгову пропозицію провідних розробників закритих моделей: що платити за доступ до цих інструментів варто, оскільки вони найкращі на ринку. Якщо моделі з відкритим кодом затьмарять пропрієтарні, більшості користувачів не буде сенсу продовжувати платити за останні.


