Більшість компаній генеративного штучного інтелекту покладаються на дані користувачів для навчання своїх чат-ботів. Для цього вони можуть використовувати публічні або приватні дані. Деякі сервіси менш інвазивні та більш гнучкі у зборі даних від своїх користувачів. Інші — не дуже. Нове дослідження від сервісу видалення даних Incogni розглядає найкращі та найгірші сторони ШІ щодо поваги до ваших особистих даних і приватності.
Методологія дослідження
Для свого звіту “Рейтинг конфіденційності даних Gen AI та LLM 2025” Incogni дослідила дев’ять популярних сервісів генеративного ШІ та застосувала 11 різних критеріїв для оцінки їхніх практик конфіденційності даних. Критерії охоплювали наступні питання:
- Які дані використовуються для навчання моделей?
- Чи можуть розмови користувачів використовуватися для навчання моделей?
- Чи можуть запити поширюватися іншим постачальникам послуг або іншим відповідним організаціям?
- Чи можна видалити особисту інформацію користувачів із навчального набору даних?
- Наскільки зрозуміло, чи використовуються запити для навчання?
- Наскільки легко знайти інформацію про те, як навчалися моделі?
- Чи є чітка політика конфіденційності щодо збору даних?
- Наскільки читабельна політика конфіденційності?
- Які джерела використовуються для збору даних користувачів?
- Чи поширюються дані з третіми сторонами?
- Які дані збирають додатки ШІ?
Учасники дослідження
Постачальники та ШІ, включені в дослідження: Le Chat від Mistral AI, ChatGPT від OpenAI, Grok від xAI, Claude від Anthropic, Pi від Inflection AI, DeekSeek, Microsoft Copilot, Google Gemini та Meta AI. Кожен ШІ добре справився з деякими питаннями та не так добре з іншими.
Наприклад, Grok отримав хорошу оцінку за те, наскільки чітко він передає, що запити використовуються для навчання, але не так добре впорався з читабельністю своєї політики конфіденційності. Як інший приклад, оцінки, надані ChatGPT та Gemini за збір даних їхніх мобільних додатків, досить сильно відрізнялися між версіями для iOS та Android.
Результати рейтингу
Топ-5 сервісів з найкращою приватністю
1. Le Chat (Mistral AI) — найдружелюбніший до приватності сервіс ШІ. Хоча він втратив кілька балів за прозорість, він все ще добре показав себе в цій сфері. Крім того, його збір даних обмежений, і він отримав високі бали з інших питань конфіденційності, специфічних для ШІ.
2. ChatGPT (OpenAI) посів друге місце. Дослідники Incogni були дещо стурбовані тим, як навчаються моделі OpenAI та як дані користувачів взаємодіють із сервісом. Але ChatGPT чітко представляє політики конфіденційності компанії, дозволяє зрозуміти, що відбувається з вашими даними, та надає чіткі способи обмеження використання ваших даних.
3. Grok (xAI) зайняв третє місце.
4. Claude (Anthropic) та 5. Pi (Inflection AI) завершують п’ятірку лідерів. Кожен мав проблемні місця в певних сферах, але загалом досить добре поважав приватність користувачів.
Аутсайдери рейтингу
У нижній половині списку DeepSeek зайняв шосте місце, далі йде Copilot, потім Gemini. Meta AI опинився на останньому місці, отримавши оцінку найменш дружелюбного до приватності сервісу ШІ серед усіх.
Copilot отримав найгіршу оцінку з дев’яти сервісів на основі критеріїв, специфічних для ШІ, таких як які дані використовуються для навчання моделей і чи можуть розмови користувачів використовуватися в навчанні. Meta AI отримав найгіршу оцінку за загальні практики збору та поширення даних.
Ключові висновки
“Платформи, створені найбільшими технологічними компаніями, виявилися найбільш нав’язливими щодо приватності. Найгіршою з них визнали Meta AI, за нею — Gemini від Google і Copilot від Microsoft”, — заявили в Incogni. “Крім того, сервіси Gemini, DeepSeek, Pi AI та Meta AI, схоже, не дають користувачам можливості заборонити використання своїх запитів для навчання моделей.”
Поширення даних
У своєму дослідженні Incogni виявила, що компанії ШІ діляться даними з різними сторонами, включаючи постачальників послуг, правоохоронні органи, компанії-члени тієї ж корпоративної групи, дослідницьких партнерів, філії та інші треті сторони.
“Політика конфіденційності Microsoft має на увазі, що запити користувачів можуть поширюватися ‘третіми сторонам, які надають онлайн-рекламні послуги для Microsoft або використовують рекламні технології Microsoft'”, — зазначила Incogni у звіті. “Політики конфіденційності DeepSeek та Meta вказують, що запити можуть поширюватися компаніям в межах їхньої корпоративної групи. Політики конфіденційності Meta та Anthropic можна розуміти як такі, що вказують на поширення запитів дослідницьким співробітникам.”
Можливості контролю даних
З деякими сервісами ви можете запобігти використанню ваших запитів для навчання моделей. Це стосується ChatGPT, Copilot, Mistral AI та Grok. Однак з іншими сервісами зупинення такого типу збору даних, схоже, неможливе, згідно з їхніми політиками конфіденційності та іншими ресурсами. До них належать Gemini, DeepSeek, Pi AI та Meta AI. Тим часом Anthropic заявила, що вона ніколи не збирає запити користувачів для навчання своїх моделей.
Важливість прозорості
Прозора та читабельна політика конфіденційності значно допомагає з’ясувати, які дані збираються та як відмовитися від їх використання.
“Наявність простого у використанні, зрозуміло написаного розділу підтримки, який дозволяє користувачам шукати відповіді на питання, пов’язані з конфіденційністю, показала себе як драстичне покращення прозорості та ясності, за умови, що він підтримується в актуальному стані”, — зазначила Incogni. “Багато платформ мають схожі практики обробки даних, однак такі компанії, як Microsoft, Meta та Google, страждають від наявності єдиної політики конфіденційності, що охоплює всі їхні продукти, і довга політика конфіденційності не обов’язково означає, що легко знайти відповіді на питання користувачів.”
Висновки для користувачів
Дослідження показує, що вибір правильного ШІ-сервісу може значно вплинути на вашу приватність. Менші, спеціалізовані компанії, такі як Mistral AI, часто краще поважають приватність користувачів порівняно з великими технологічними гігантами. При виборі ШІ-сервісу варто звертати увагу на:
- Прозорість політики конфіденційності
- Можливість контролювати використання ваших даних
- Обмеження на поширення даних третім сторонам
- Ясність щодо використання ваших запитів для навчання моделей