Вікіпедія бореться з впливом на її сервери ботів-сканувальників з ШІ, які витягують текст і мультимедіа з енциклопедії для навчання генеративних моделей штучного інтелекту, що в деяких випадках призводить до збільшення витрат і уповільнення часу завантаження для користувачів-людей.
Можливо, намагаючись зупинити ботів, які перевантажують загальнодоступний веб-сайт Вікіпедії і поглинають занадто багато пропускної здатності, Фонд Wikimedia (який управляє даними Вікіпедії) пропонує розробникам ШІ набір даних, якими вони можуть вільно користуватися.
Організація об’єдналася з Kaggle, платформою науки про дані, щоб запропонувати бета-версію структурованого набору даних англійською та французькою мовами. За словами компанії Google, якій належить Kaggle, набір даних відформатовано для машинного навчання, щоб зробити його більш корисним для навчання, розробки та науки про дані.
Wikimedia Enterprise зазначає, що набір даних включає «анотації, короткі описи, дані ключ-значення в стилі інфобоксів, посилання на зображення і чітко сегментовані розділи статей». У ньому немає посилань або інших «непрозових елементів», таких як відеокліпи. Відсутність посилань може зробити питання атрибуції інформації в наборі даних дещо туманним. Однак Wikimedia Enterprise (частина Фонду Wikimedia, яка прагне зробити дані Вікіпедії доступними через API) заявляє, що вміст набору даних вільно ліцензований на умовах Creative Commons, є суспільним надбанням і т.д., оскільки все це взято з Вікіпедії.