Perplexity відповідає на звинувачення Cloudflare в прихованному скануванні сайтів

Конфлікт Cloudflare та Perplexity набирає обертів. За даними Cloudflare, Perplexity використовувала замасковані боти для обходу обмежень веб-сайтів та масового збору контенту, в обхід файлів robots.txt та інших технічних обмежень. Perplexity відкидає звинувачення та звинувачує Cloudflare в некомпетентності.

Зміст

Конфлікт Cloudflare і Perplexity: в чому суть?
Perplexity спростовує звинувачення
Cloudflare вживає заходів
Загроза відкритому інтернету

Конфлікт Cloudflare і Perplexity: в чому суть?

Компанія Cloudflare звинуватила Perplexity AI у використанні складних тактик маскування для обходу засобів захисту від скрапінгу, що означає значну ескалацію в боротьбі навколо практик збору даних ШІ-компаніями. Гігант інтернет-інфраструктури опублікував у понеділок дослідження, в якому детально описав, як ШІ-стартап нібито маскував свої веб-краулери для доступу до веб-сайтів, які явно блокували ШІ-ботів.

Згідно з розслідуванням Cloudflare, Perplexity спочатку намагається отримати доступ до сайтів, використовуючи свої заявлені ідентифікатори краулерів “PerplexityBot” або “Perplexity-User”. Коли стикається з обмеженнями в файлах robots.txt або правилах Web Application Firewall, компанія нібито змінює свій користувацький агент, щоб “видати себе за Google Chrome на macOS”. Цей незаявлений краулер, за повідомленнями, використовує ротуючі IP-адреси, які не вказані серед офіційної мережі ботів Perplexity, та змінює свої мережі автономних систем для обходу блокувань.

Масштаб передбачуваної діяльності є значним. Cloudflare повідомляє, що приховане сканування відбувалося “на десятках тисяч веб-сайтів та мільйонах запитів щодня”, зачіпаючи клієнтів, які спеціально впровадили заходи для запобігання доступу ШІ-ботів до їхнього контенту.

- Advertisement -

Звинувачення викликали широкий резонанс в технологічному співтоваристві, адже торкнулися фундаментальних питань про права AI-систем на доступ до відкритої веб-інформації та межі між легітимним використанням контенту й агресивним скрапінгом.

Perplexity спростовує звинувачення

Представник Perplexity Джессі Двайєр відхилив висновки Cloudflare як “піар-акцію”, стверджуючи, що в звіті є нерозуміння. Ця відповідь перегукується з попередніми запереченнями компанії, коли WIRED минулого року викрив Perplexity у доступі до заборонених розділів веб-сайтів — інциденти, які компанія спочатку приписувала стороннім краулерам.

Суперечка посилює занепокоєння щодо практик збору даних Perplexity, які вперше виникли у 2024 році. Аналіз розробників раніше виявив докази того, що Perplexity ігнорувала файли robots.txt, попри заяви компанії про протилежне.

У відповідь на ці звинувачення компанія Perplexity опублікувала детальну статтю “Агенти чи боти? Розуміння штучного інтелекту у відкритому інтернеті“, в якій категорично спростовує всі звинувачення Cloudflare та пояснює фундаментальну різницю між традиційними ботами та сучасними користувацькими ШІ-агентами.

Perplexity підкреслює, що сучасні ШІ-асистенти працюють принципово інакше, ніж традиційні веб-краулери. Коли користувач ставить питання, що потребує актуальної інформації, ШІ не шукає відповідь у заздалегідь створеній базі даних. Натомість він звертається до відповідних веб-сайтів у режимі реального часу, читає контент і надає персоналізовану відповідь на конкретне запитання користувача.

Ця модель кардинально відрізняється від масового індексування, коли краулери систематично відвідують мільйони сторінок для створення величезних баз даних, незалежно від того, чи хтось запитував цю конкретну інформацію. Користувацькі агенти Perplexity отримують контент лише за запитом реальної людини і використовують його виключно для миттєвої відповіді, не зберігаючи для подальшого навчання.

Perplexity різко критикує позицію Cloudflare, стверджуючи, що характеризація користувацьких ШІ-асистентів як шкідливих ботів є фундаментально хибною. Компанія порівнює це риміналізацією електронної пошти чи веб-браузерів – будь-яких автоматизованих інструментів, що обслуговують користувачів.

Особливо гостро Perplexity реагує на технічні помилки в аналізі Cloudflare і підкреслює, що вони не просто прикрі, а дискваліфікуючі для компанії, чий основний бізнес полягає в розумінні та категоризації веб-трафіку. Особливо критикується опублікована Cloudflare технічна діаграма “робочого процесу краулінгу Perplexity”, яка, за словами компанії, не має нічого спільного з реальною роботою їхньої системи.

- Advertisement -

Cloudflare вживає заходів

У відповідь на свої висновки Cloudflare позбавила Perplexity статусу верифікованого бота та впровадила заходи для запобігання діяльності прихованого сканування стартапу. Компанія використала машинне навчання та поведінковий аналіз для виявлення обхідних тактик після скарг клієнтів на підозрілі патерни трафіку.

Генеральний директор Cloudflare Метью Прінс, який відкрито висловлювався про те, що ШІ-компанії становлять “екзистенційну загрозу” для видавців, анонсував жорсткі заходи як частину ширших зусиль для захисту створювачів контенту. Компанія почала блокувати ШІ-краулери за замовчуванням для нових клієнтів минулого місяця та запровадила програму “плати за сканування”, що дозволяє видавцям стягувати плату з ШІ-компаній за доступ.

Звинувачення проти Perplexity підкреслюють зростаючу напругу між ненаситними потребами ШІ-компаній у даних та правами створювачів контенту контролювати свою інтелектуальну власність. Як зазначив один галузевий спостерігач, ситуація являє собою “гру в кота і мишу”, оскільки ШІ-компанії розробляють дедалі складніші методи доступу до обмеженого контенту.

Загроза відкритому інтернету

Perplexity в свою чергу попереджає, що надмірне блокування ШІ-асистентів створює небезпечний прецедент двоярусного інтернету, де доступ до інформації залежить не від потреб користувача, а від благословення контролерів інфраструктури. Це підриває свободу вибору користувачів і загрожує доступності відкритого інтернету для інноваційних сервісів, що конкурують з гігантами індустрії.

Компанія наводить приклади реальної шкоди: люди, що використовують ШІ для дослідження медичних станів, порівняння відгуків про продукти або доступу до новин з різних джерел, можуть втратити доступ до цінної інформації через некоректне блокування їхніх асистентів.

Конфлікт між Perplexity та Cloudflare висвітлює більш широкі питання про майбутнє взаємодії ШІ з відкритим інтернетом та необхідність чіткого розуміння різниці між легітимними користувацькими агентами та справжніми загрозами безпеки.