Переглядаючи цей сайт, ви погоджуєтесь з нашою політикою конфіденційності
Прийняти
  • Про нас
  • Політика конфіденційності
  • Контакти
CyberCalm
  • Кібербезпека
    КібербезпекаПоказати ще
    Шанувальники кіно стають мішенню шкідливого ПЗ перед Оскаром-2026
    Шанувальники кіно стають мішенню шкідливого ПЗ перед Оскаром-2026
    5 години тому
    ШІ-агенти самостійно обійшли захист і викрали корпоративні дані: нові тести виявили непередбачувану загрозу
    ШІ-агенти самостійно обійшли захист і викрали корпоративні дані: нові тести виявили непередбачувану загрозу
    2 дні тому
    «Killer Apps»: як популярні ШІ-чатботи допомагали підліткам планувати масові вбивства
    «Killer Apps»: як популярні ШІ-чатботи допомагали підліткам планувати масові вбивства
    3 дні тому
    Meta вводить нові інструменти захисту від шахрайства для Facebook та WhatsApp
    Meta вводить нові інструменти захисту від шахрайства для Facebook та WhatsApp
    4 дні тому
    Четвертий стовп кібербезпеки: як ШІ змінює архітектуру захисту підприємств
    Четвертий стовп кібербезпеки: як ШІ змінює архітектуру захисту підприємств
    4 дні тому
  • Гайди та поради
    Гайди та поради
    Корисні поради, які допоможуть вам почуватися безпечно в мережі, а також маленькі хитрощі у користуванні вашими гаджетами.
    Показати ще
    Топ-новини
    Як перенести Telegram на інший телефон
    Як перенести Telegram на інший телефон. ІНСТРУКЦІЯ
    11 місяців тому
    ШІ Gemini з'являється в Google Календарі - ось що він вміє і як його випробувати
    ШІ Gemini з’являється в Google Календарі – ось що він вміє і як його випробувати
    11 місяців тому
    Galaxy S24 official AI features 2
    Самодіагностика смартфона: програми, які врятують Ваш ґаджет Android
    4 місяці тому
    Останні новини
    Як перевірити шифрування в Google Повідомленнях
    3 дні тому
    «Супровід» на iPhone: функція безпеки iOS, яка сама повідомить рідних, якщо ви не добралися додому
    1 тиждень тому
    Рандомізація MAC-адреси: як захистити смартфон від відстеження в публічних Wi-Fi мережах
    1 тиждень тому
    Хочете перейти з ChatGPT на Claude? Ось 5 речей, які потрібно знати
    2 тижні тому
  • Статті
    Статті
    Цікаві статті про світ технологій, інтернет та кіберзахист. Розбираємо складні теми, від штучного інтелекту до безпеки даних та Big Data. Аналітика для допитливих та професіоналів.
    Показати ще
    Топ-новини
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    Для яких завдань потрібен VDS сервер: реальні приклади та особистий досвід
    4 місяці тому
    Які послуги входять в обслуговування орендованого сервера
    Які послуги входять в обслуговування орендованого сервера
    4 місяці тому
    5G в Україні: коли запрацює мережа майбутнього та що заважає її розгортанню
    5G в Україні: коли запрацює мережа майбутнього та що заважає її розгортанню
    3 місяці тому
    Останні новини
    «Великий відступ»: чому технологічні гіганти здають позиції у війні з дезінформацією — і що з цим робити
    3 дні тому
    Ключі доступу проти паролів: чому нова технологія програє звичці
    4 дні тому
    ШІ навчився деанону: як великі мовні моделі розкривають особистість у мережі
    7 днів тому
    Диференційна приватність: від нішевого інструменту до стандарту захисту даних у добу ШІ
    6 днів тому
  • Огляди
    ОглядиПоказати ще
    Огляд iPad Air M4: найкращий вибір на сьогодні
    Огляд iPad Air M4: найкращий вибір на сьогодні
    5 днів тому
    Apple MacBook Neo: огляд доступного ноутбука за $599
    Apple MacBook Neo: огляд доступного ноутбука за $599
    1 тиждень тому
    Nearby Glasses: Android-застосунок для виявлення смарт-окулярів поблизу
    Nearby Glasses: Android-застосунок для виявлення смарт-окулярів поблизу
    3 тижні тому
    FreeOffice — безкоштовна альтернатива Microsoft Office для Windows, macOS, Linux та мобільних пристроїв
    FreeOffice — безкоштовна альтернатива Microsoft Office для Windows, macOS, Linux та мобільних пристроїв
    3 тижні тому
    Kali Linux проти Parrot OS: який дистрибутив краще для кібербезпеки?
    Kali Linux проти Parrot OS: який дистрибутив краще для кібербезпеки?
    1 місяць тому
  • Техногіганти
    • Google
    • Apple
    • Microsoft
    • Meta
    • OpenAI
    • Anthropic
    • xAI
    • Samsung
  • Теми
    • Комп’ютери
    • Смартфони
    • Електронна пошта
    • Windows
    • Linux
    • Android
    • iPhone
    • VPN
    • Штучний інтелект
    • Робототехніка
Соцмережі
  • Facebook
  • Instagram
  • YouTube
  • TikTok
  • X (Twitter)
  • Threads
Спеціальні теми
  • Кібервійна
  • Маніпуляції в медіа
  • Дезінформація
  • Безпека дітей в Інтернеті
  • Розумний будинок
Інше
  • Сканер безпеки сайту
  • Архів
Читання: Як насправді працює веб-скрапінг — і чому ШІ змінює все
Розмір шрифтаAa
CyberCalmCyberCalm
Пошук
  • Техногіганти
    • Комп’ютери
    • Смартфони
    • Соцмережі
    • Google
    • Android
    • Apple
    • Windows
    • Linux
    • Штучний інтелект
    • Безпека дітей в інтернеті
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Сканер безпеки сайту
  • Архів
Follow US
  • Про проєкт Cybercalm
  • Політика конфіденційності
  • Контакти
© 2025 Cybercalm. All Rights Reserved.
Головна / Статті / Як насправді працює веб-скрапінг — і чому ШІ змінює все

Як насправді працює веб-скрапінг — і чому ШІ змінює все

Статті
7 місяців тому
Поширити
10 хв. читання
Як насправді працює веб-скрапінг — і чому ШІ змінює все

Веб-скрапінг забезпечує роботу індустрій ціноутворення, SEO, безпеки, штучного інтелекту та досліджень. Але скрапінг для ШІ загрожує виживанню сайтів, які залишаються без трафіку. Компанії дають відсіч ліцензуванням, платними бар’єрами та блокуванням краулерів.

Зміст
  • Приклад веб-скрапінгу
  • Інші застосування веб-скрапінгу
  • Два боки монети скрапінгу: пошук і ШІ
  • Проблеми веб-скрапінгу
  • Куди це все веде?

У світі промислового веб-скрапінгу є кілька великих гравців. Ви не знали, що існує світ промислового веб-скрапінгу? Тоді у мене є для вас історія.

Почнемо з визначення веб-скрапінгу. Веб-скрапінг — це практика витягування даних з живих веб-сторінок, тих сторінок, які бачить користувач при відвідуванні сайту.

Це відрізняється від отримання даних через програмні виклики API (інтерфейс програмування додатків), які надає власник веб-сторінки, або з бази даних чи іншої інформації для завантаження.

- Advertisement -

Веб-скрапінг — це витягування даних, які власник веб-сторінки офіційно не надав для аналізу даних і, в деяких випадках, активно не хоче надавати для зовнішнього аналізу даних.

Приклад веб-скрапінгу

Розглянемо приклад. Припустимо, ви продавець з 200 окремих продуктів, які продаєте онлайн.

Ваші продукти досить чутливі до цін, тобто якщо конкурент починає продавати подібний продукт за нижчою ціною, вам потрібно швидко відреагувати й знизити свою ціну. Вам потрібно швидко реагувати на ринкові зміни, тому доручення купі співробітників постійно оновлювати сотні веб-сторінок і записувати результати в таблицю просто не спрацює.

Вам потрібен автоматизований процес.

Припустимо також, що ваші продукти, як і продукти ваших конкурентів, продаються на популярних онлайн-майданчиках. Ці реселери надають дані відстеження ваших продуктів, але вони не поділяться з вами даними ваших конкурентів.

Проте вам потрібні ці дані. Рішення — веб-скрапінг, використання автоматизованого процесу для відвідування веб-сторінок з продуктами ваших конкурентів і витягування поточної інформації про ціни з базової HTML-структури сторінки. Ці дані можна потім передати до ваших внутрішніх баз даних, а ваші внутрішні системи можуть відповідно оновити ваші ціни.

Цей цикл сканування може відбуватися щодня або кілька разів на тиждень, підтримуючи конкурентоспроможність ваших продуктів і задовольняючи клієнтів.

Інші застосування веб-скрапінгу

Промисловий веб-скрапінг, коли бізнеси скрапують веб для даних, виконується з різних причин. Ми щойно побачили застосування, де компанія використовує веб-скрапінг для конкурентної інформації, що забезпечує бізнес-аналітику та обґрунтоване прийняття рішень.

- Advertisement -

Окрім динамічного ціноутворення, компанії можуть хотіти мати чітке уявлення про наявні запаси й навіть нові списки продуктів конкурентів. Вони також можуть стежити за топ-продуктами, відгуками тощо.

Деякі бізнеси використовують веб-скрапінг для надання даних як сервісу, чи то дані ринку нерухомості, торгові ліди або будь-який інший агрегат даних, який інші компанії вважають корисним.

Якщо ви коли-небудь користувалися інструментом моніторингу SEO або рейтингу ключових слів, ви, ймовірно, були споживачем веб-скрапованих даних, наданих як сервіс. Компанії, що надають ці сервіси, повинні сканувати живі сайти (як Google) і завантажувати інформацію, яка потім категоризується й обробляється для надання актуальної SEO-аналітики.

Існують також додатки безпеки та захисту інтелектуальної власності за допомогою веб-скрапінгу. Для тих, хто має цінні бренди, є виправдання в скануванні живих веб-сторінок комерційних сайтів (а також інших класів веб-сайтів) на предмет неприйнятного або незаконного використання ваших брендів.

Департамент комерції США каже, що підробки — це «найбільше кримінальне підприємство у світі», оцінюючи піратські та підроблені товари в неймовірні 1,7-4,5 трильйона доларів на рік.

На жаль, уряд не може зупинити цю поведінку, що залишає індивідуальним власникам брендів самостійно організовувати свій захист. Важливе використання веб-скрапінгу в цьому контексті — ідентифікація підроблених пропозицій продуктів, а потім ініціювання процесу видалення цих підроблених продуктів з ринку.

Інші використання веб-скрапінгу включають розвідку загроз, захист від фішингу, інформацію про ціни на авіаквитки та готелі, агрегування даних про тенденції для дослідження ринку й навіть дані для навчання ШІ та академічних досліджень.

Два боки монети скрапінгу: пошук і ШІ

Веб-скрапінг не новий. Насправді, він майже такий же старий, як і веб. Подумайте про пошукові системи. Щоб ви могли ввести щось у Google і отримати назад список веб-сторінок, що включають тему, яку ви шукаєте, пошукова система повинна була вже проіндексувати, скрапувати й індексувати сайти, на які вона вас спрямовує.

- Advertisement -

Пошукові системи — це по суті корисні паразити, що живуть за рахунок роботи індивідуальних постачальників веб-сайтів. Вони корисні, тому що хоча вони скрапують веб, вони відправляють трафік на сайти, які вони скрапують. Увесь світ SEO з’явився через те, скільки трафіку пошук Google відправляє на веб-сайти.

ШІ-скрапінг — це паразитична поведінка, що спустошує трафік веб-сайтів. ШІ витягують інформацію (як з цієї статті), а потім, замість того щоб відправляти читачів на сайт, де є повний матеріал написаний автором, просто представляють цю інформацію без необхідності відвідувати сайт.

І пошук, і ШІ використовують результати абсолютно гігантських операцій скрапінгу та сканування, але один надає переваги скрапованим, тоді як інший величезно наживається на роботі інших, одночасно руйнуючи їхню мотивацію продовжувати виконувати цю роботу.

Проблеми веб-скрапінгу

Веб-скрапінг на промисловому рівні вимагає великомасштабних зусиль з придбання даних. Це зазвичай включає використання автоматизованого бота, який отримує веб-сторінки для аналізу. На жаль, принаймні з точки зору веб-скраперів, більшість веб-серверів виявляють і блокують повторні доступи до сторінок, навіть до публічно доступних сторінок.

Якщо електронній комерційній компанії з нашого кейсу потрібно оновити ціни на 200 продуктів, їй, ймовірно, потрібно буде згенерувати кілька тисяч запитів на отримання веб-сторінок. Цей обсяг запитів, ймовірно, буде заблокований будь-яким веб-сервером, що їх отримає.

Це робить досить складним для індивідуальних компаній виконувати власний веб-скрапінг внутрішньо. Замість цього сформувалася невелика когорта компаній, які пропонують веб-скрапінг як сервіс. В їхньому ядрі — здатність розділяти запити веб-скрапінгу між тисячами індивідуальних комп’ютерів, використовуючи їх як проксі для отримання даних.

Хоча деякі скрапери використовують проксі-сервери на базі дата-центрів, ця практика часто перемагається на рівні веб-сайту, тому що всі ці запити скрапінгу надходять з одного кластера IP-адрес або геолокації. Замість цього більш золотостандартна практика — використовувати індивідуальні житлові комп’ютери по всій цільовій географії.

Запити скрапінгу потім розподіляються серед домашніх комп’ютерів. Кожен комп’ютер отримує веб-сторінку. Потім всі ці комп’ютери повертають ці отримані сторінки назад на сервери у постачальника скрапінг-як-сервісу, який потім керує даними для клієнтів.

- Advertisement -

Це призводить до іншого очевидного виклику. Як саме ви змушуєте тисячі до сотень тисяч домашніх комп’ютерів працювати разом для веб-скрапінгу? І як ви робите це законно та етично, зі згодою власників домашніх комп’ютерів?

По-перше, це не завжди робиться законно або етично. Шкідливе програмне забезпечення відіграє велику роль у розповсюдженні ботів на тисячі або навіть мільйони кінцевих комп’ютерів, які потім можуть бути «контрольовані розумом» для виконання пошуків і скрапінгу в масштабі.

Однак є деякі компанії, які виконують веб-скрапінг законно та етично, також обробляючи дані у великому обсязі. Ці компанії виплачують невелику стипендію кінцевим користувачам, які добровільно віддають кілька циклів обчислювальної потужності та кілька байт пропускної здатності програмам-клієнтам скраперів, які подають результати назад до центральних репозиторіїв.

Куди це все веде?

Хоча скрапінг, ймовірно, завжди буде частиною практики придбання даних, деякі компанії вирішили зробити свої дані офіційно доступними й за плату. Reddit, наприклад, надає OpenAI доступ до своєї величезної бібліотеки фанатів, що постійно обговорюють те чи інше.

Замість того щоб скрапувати Reddit без схвалення, OpenAI зможе використовувати API (інтерфейс програмування додатків) для більш ефективного отримання даних.

Звичайно, чи хочемо ми, щоб наші ШІ базували свої знання на даних з Reddit — це зовсім інше питання.

Reddit не один, звичайно. Багато компаній почали ліцензувати свої дані ШІ. Хоча це не зменшує скрапінг або ерозію трафіку, це надає щось на кшталт альтернативного потоку доходів для попередніх жертв скрапінгової діяльності.

Це не проблема, яка зникає. Ще один підхід до захисту від зловмисного скрапінгу було впроваджено моніторингом крайового трафіку Cloudflare. Близько 20% інтернет-трафіку проходить через їхні сервери. Cloudflare блокує ШІ веб-краулери за замовчуванням (якщо їм не платять, звичайно).

- Advertisement -

Читайте також: Perplexity відповідає на звинувачення Cloudflare в прихованному скануванні сайтів

Підсумок полягає в тому, що веб-скрапінг — це все про гроші. Чи то гроші витрачаються на обхід обмежень для всмоктування чужої роботи, чи гроші витрачаються на блокування цієї діяльності, чи гроші витрачаються на отримання дозволу витягувати ці дані й тим самим зменшувати загальну вартість власності — все про гроші. Багато й багато грошей.

Ті з нас, хто працює над створенням контенту, споживаного цими роботами, просто потрапили під перехресний вогонь.

О, привіт 👋
Приємно познайомитися!

Підпишіться, щоб щотижня отримувати найцікавіші статті на свою поштову скриньку.

Ми не розсилаємо спам! Ознайомтеся з нашою політикою конфіденційності для отримання додаткової інформації.

Перевірте свою поштову скриньку або папку зі спамом, щоб підтвердити підписку.

ТЕМИ:веб-сайтиОгляди від ШІсканування інформаціїскрапінгШтучний Інтелект
ДЖЕРЕЛО:ZDNET
Поділитися
Facebook Threads Копіювати посилання Друк
Що думаєте?
В захваті0
Сумно0
Смішно0
Палає0
Овва!0
Попередня стаття Roblox посилює контроль за контентом, після кількох судових позовів щодо безпеки дітей Roblox посилює контроль за контентом, після кількох судових позовів щодо безпеки дітей
Наступна стаття Як використовувати iPhone для навчання: фішки для студентів Як використовувати iPhone для навчання: фішки для студентів

В тренді

Як перевірити шифрування в Google Повідомленнях
Як перевірити шифрування в Google Повідомленнях
3 дні тому
Диференційна приватність: від нішевого інструменту до стандарту захисту даних у добу ШІ
Диференційна приватність: від нішевого інструменту до стандарту захисту даних у добу ШІ
6 днів тому
Meta вводить нові інструменти захисту від шахрайства для Facebook та WhatsApp
Meta вводить нові інструменти захисту від шахрайства для Facebook та WhatsApp
4 дні тому
ШІ-чатботи підштовхують користувачів до нелегальних азартних ігор — розслідування
ШІ-чатботи підштовхують користувачів до нелегальних азартних ігор — розслідування
6 днів тому
OpenAI випустила Codex Security для виявлення вразливостей у корпоративному програмному забезпеченні
OpenAI випустила Codex Security для виявлення вразливостей у корпоративному програмному забезпеченні
5 днів тому

Рекомендуємо

ШІ-агенти самостійно обійшли захист і викрали корпоративні дані: нові тести виявили непередбачувану загрозу
Кібербезпека

ШІ-агенти самостійно обійшли захист і викрали корпоративні дані: нові тести виявили непередбачувану загрозу

2 дні тому
«Killer Apps»: як популярні ШІ-чатботи допомагали підліткам планувати масові вбивства
Кібербезпека

«Killer Apps»: як популярні ШІ-чатботи допомагали підліткам планувати масові вбивства

3 дні тому
«Великий відступ»: чому технологічні гіганти здають позиції у війні з дезінформацією — і що з цим робити
Статті

«Великий відступ»: чому технологічні гіганти здають позиції у війні з дезінформацією — і що з цим робити

3 дні тому
Четвертий стовп кібербезпеки: як ШІ змінює архітектуру захисту підприємств
Кібербезпека

Четвертий стовп кібербезпеки: як ШІ змінює архітектуру захисту підприємств

4 дні тому

Гарячі теми

  • Кібербезпека
  • Штучний інтелект
  • Смартфони
  • Комп'ютери
  • Соцмережі
  • Безпека дітей в Інтернеті

Приєднуйтесь

Ласкаво просимо до CyberCalm – вашого надійного провідника у світі цифрової безпеки та спокою!

Інформація
  • Про нас
  • Політика конфіденційності
  • Контакти
Навігація
  • Кібербезпека
  • Гайди та поради
  • Статті
  • Огляди
  • Техногіганти
CyberCalmCyberCalm
© 2025 Cybercalm. All Rights Reserved.
Cybercalm
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?