Какви заплахи за сигурността крие изкуственият интелект

1 август 2023

Огромни количества изображения и текстове от интернет захранват базите данни, от които изкуственият интелект се обучава. Разследване на АРД показва, че това включва много лични данни - проблем за защитата на данните.

Изкуствен интелект, илюстративно изображение — Снимка: Klaus Ohlenschläger/picture alliance

Данните, с които системите за изкуствен интелект се обучават, включват огромни количества снимки и текстове от интернет. В този голям информационен масив се съдържат и личните данни на много хора. АРД публикува разследване на германски журналисти, което разкрива, че този процес представлява проблем за защитата на личните данни.

Германската обществено-правна телевизия дава за пример казус с гола снимка на холандец, която може да се открие в интернет. Описанието ѝ съдържа името и фамилията на човека, както и географските координати на мястото, където тя е била направена. Ако някой потърси с тази информация въпросния човек в интернет, той много бързо може да бъде намерен.

И това не е изолиран случай, подчертава АРД. При анализ на вероятно най-голямата в света база данни за обучение на изкуствен интелект, генериращ изображения, журналисти от "Байеришер Рундфунк" са открили огромно количество информация, с която могат да бъдат идентифицирани конкретни хора.

Базата данни включва изображения на лица и имена, географски координати или имейли и дори номера на банкови сметки. LAION5B, акроним от "Large-scale Artificial Intelligence Open Network" (от англ.: мащабна отворена мрежа на изкуствен интелект), се състои от 5 млрд. интернет връзки към изображения и техните описания. Това е единствената подобна база данни, използвана за обучение на системи, използващи изкуствен интелект, която е публично достъпна.

Проблемните лични данни вече са в масивите за обучение

Данните, използвани за обучение на изкуствения интелект, осигуряват суровия метериал за системите, които на свой ред после трябва да генерират нови текстове и изображения. Милиони хора по света ги използват в момента - това са т. нар. генератори на изображения като Stable Diffusion, Midjourney, Dall-e от OpenAI и други. Потребителите описват с кратки текстове какъв мотив желаят да присъства в поръчаното от тях изображение. След това програмите използват данните, с които са били обучени, за да създадат новото изображение.

В края на юни тази година анонимна група подаде в САЩ съдебен иск срещу компанията OpenAI, чийто продукт е и чатботът ChatGPT, посочва АРД. Ищците обвиняват компанията в масови нарушения на неприкосновеността на личния живот, наред с други обвинения към нея.

Рисковете, свързани с EXIF данните

Т.нар. EXIF (Exchangeable Image File Format - от англ. "обменяем файлов формат на изображения) метаданни обозначават информацията, събирана във файловета на изображенията. Записват се времето, в което е била направена снимката, модела камера, а понякога и точното местоположение.

Анализът на немскоезичната секция на базата данни LAION е разчел успешно точната локация на 310 000 изображения. Освен при липса на основателни аргументи за обратното, подобни данни винаги трябва да се премахват при споделяне на файловете, смята Германската федерална служба за информационна сигурност.

Експерт по защита на данните: "Силно проблематично"

Според Айке Клайнфелд, който работи за комисаря по защита на личните данните в Хамбург, масовото разпространение на информация за местоположението чрез метаданните представлява проблем, ако е чувствителна информация, която позволява да се правят заключения за конкретни физически лица.

Съоснователят на LAION Кристоф Шуман казва, че сега разбират за проблема. LAION представлява доброволческо сдружение на хора от Европа и Северна Америка, които се борят за демократизация на изкуствения интелект. Шуман разказва какви са причините за създаването на организацията: "Основахме LAION от ентусиазъм към изкуствения интелект и от желание да го видим демократизиран. А не в крайна сметка да останат само 2 или 3 големи компании."

Радикалната прозрачност отличава LAION от конкуренти като Microsoft, Google, Midjourney и OpenAI. Четирите компании не са отговорили на въпроси на АРД за начина, по който събират и използват данните за обучението на изкуствените интелекти, които разработват. Ако журналисти и учени искат да проучат как функционират популярни генератори на изображения, използващи изкуствен интелект, в момента инструментите на LAION са единствената възможност за това.

Европейското законодателство и масивите за обучение

Брюксел предвижда да въведе в предстоящото си законодателство за изкуствения интелект по-голяма прозрачност за информационните масиви, които са били използвани при обучение на системите. Все още обаче не е ясно как ще изглеждат бъдещите регулации на ЕС.

Преговорите по темата продължават, информира АРД. Правилата трябва да бъдат да влязат в сила през 2025 година.

***

Припомнете си и това видео от нашия архив:

Биологични чипове - защо са по-добри от изкуствен интелект?

01:47

This browser does not support the video element.

Какви заплахи за сигурността крие изкуственият интелект

Биологични чипове - защо са по-добри от изкуствен интелект?

Повече по темата

"Творение на дявола" ли е изкуственият интелект?

Христо Грозев: Да се манипулират хора ще стане още по-лесно

Как изкуственият интелект помага на хората с рак на гърдата

Водеща тема на ДВ

България, където "Биг Брадър" гледа отвсякъде

Скандалът с козметични салони: имаме си Grok вкъщи

Сърбия: как се отмъщава с порно снимки

Още теми от ДВ

Куба скоро ще остане без гориво. А тогава?

Обама като маймуни: поредният расистки скандал с Тръмп

"Стреляха на сляпо": какво ни разказаха иранци от протестите

Смъртта на кондуктор: инцидентът, който разтърси Германия

Атентат срещу генерал в Москва: какво се знае

Преговорите между Иран и САЩ: наднича ли зад тях Москва?

Биологични чипове - защо са по-добри от изкуствен интелект?

Повече по темата

Подобно съдържание

Водеща тема на ДВ

Още теми от ДВ