Розроблена аспірантами Стенфорда модель штучного інтелекту може з вражаючою точністю визначати конкретне місцезнаходження, просто подивившись на Google Street View.

Безпечна практика користування соціальними мережами передбачає відмову від публікації фотографій, які демонструють особисту інформацію, таку як номерні знаки, назви вулиць або номери будинків. Але що, якщо я скажу вам, що генеративний ШІ все одно може знайти спосіб визначити ваше місцезнаходження – лише за фоном вашої фотографії?

Розвиток генеративного ШІ триває, і з’являються нові сфери його застосування. Так, аспіранти Стенфордського університету розробили додаток, який може визначати ваше місцезнаходження на основі відео з вулиці або навіть просто зображення.

Проект під назвою Predicting Image Geolocations (PIGEON) може – в більшості випадків – точно визначити конкретне місце розташування, просто подивившись на Google Street View цього місця.

PIGEON може передбачити країну, зображену на фото, з точністю 92%, а також визначити місце розташування в межах 25 кілометрів від цільової локації в більш ніж 40% своїх здогадок, згідно з препринт-статтею.

Щоб зрозуміти, наскільки це вражає, PIGEON увійшов до 0,01% найкращих гравців GeoGuessr – гри, в якій користувачі вгадують місце розташування на фотографії, зробленій з Google Street View, на якій зображено місцевість. Саме ця гра послужила натхненням для створення цього проекту.

Результати даних PIGEON / Стенфордський університет

PIGEON також переміг одного з найкращих у світі професійних гравців у GeoGuessr, Тревора Рейнболта, у серії з шести матчів, що транслювалися в Інтернеті з більш ніж 1,8 мільйонами переглядів.

Тож як саме працює PIGEON?

Студенти використали CLIP, нейронну мережу, розроблену OpenAI, яка може поєднувати текст і зображення, навчаючи її на назвах візуальних категорій, що підлягають розпізнаванню.

Потім, натхненний GeoGuessr, PIGEON був навчений на наборі даних з 100 000 оригінальних, випадково вибраних локацій з GeoGuessr і завантаженого набору з чотирьох зображень, щоб охопити всю “панораму” в даній локації, що в цілому склало 400 000 зображень.

Навчальні дані для панорами / Стенфордський університет

Порівняно з кількістю зображень, на яких навчаються інші моделі ШІ, PIGEON блідне. Для порівняння, популярна модель генерації зображень OpenAI, DALL-E 2, тренується на сотнях мільйонів зображень.

Студенти також працювали над окремою моделлю під назвою PIGEOTTO, яка була навчена на більш ніж чотирьох мільйонах фотографій з Flickr та Вікіпедії визначати місцезнаходження за одним зображенням на вході.

PIGEOTTO досягла вражаючих результатів у тестах геолокалізації зображень, перевершивши попередні найсучасніші результати на 7,7% у точності визначення міста і на 29,8% у точності визначення країни, йдеться у статті.

У статті розглядаються етичні міркування, пов’язані з цією моделлю, включаючи переваги та ризики. З одного боку, геолокалізація зображень має багато позитивних прикладів використання, таких як автономне водіння, візуальні дослідження та просто задоволення цікавості щодо місця, де було зроблено фото.

Читайте також: У Google Maps з’явилися нові опції конфіденційності на iPhone та Android

Однак негативні наслідки включають найбільш кричуще порушення приватності. Як наслідок, студенти вирішили не оприлюднювати вагові коефіцієнти моделі публічно і випустили код лише для академічної перевірки, йдеться у статті.

Джерело: ZDNET