Ameriško zagonsko podjetje OpenAI se ne more več izogibati pojasnilu, kako bo naslovilo pomisleke italijanske agencije za varstvo podatkov. Ta je namreč začasno omejila klepetalnega robota z umetno inteligenco ChatGPT, saj menda ne spoštuje podatkov uporabnikov, prav tako ne preverja njihove starosti.
Zahtevajo pojasnila
Do kršitve podatkov v aplikaciji je prišlo 20. marca. V omenjeni agenciji namreč menijo, da ni bilo pravne podlage, ki bi upravičevala množično zbiranje in shranjevanje osebnih podatkov za namene »usposabljanja« algoritmov, na katerih temelji delovanje platforme. Ker v aplikaciji obenem ni bilo mogoče preveriti starosti uporabnikov, ta po navedbah agencije mladoletnike izpostavlja »popolnoma neprimernim odgovorom v primerjavi z njihovo stopnjo razvoja in zavedanja«.
Če ameriški družbi ne bo uspelo pojasniti, kako bo odpravilo pomisleke nadzornega organa, ji grozi kazen v višini 20 milijonov evrov ali do štirih odstotkov letnih prihodkov.
Tudi evropski policijski urad Europol je ta teden posvaril pred zlorabami besedilnih robotov, kakršen je ChatGPT. Urad je v poročilu, objavljenem v ponedeljek, opozoril, da bi se ta tehnologija lahko uporabljala za dezinformacije, kibernetski kriminal, socialni inženiring in druge goljufije, saj ustvarja zelo realistična besedila.
Kar vsevprek
Vendar pa obeti za OpenAI, tako menijo strokovnjaki eminentnega Tehnološkega inštituta Massachusetts, niso najboljši. Podjetje za »usposabljanje« umetne inteligence to napaja s podatki, dostopnimi na spletu.
Velja namreč, da je več več. Prvi model GPT-2 je temeljil na 40 gigabajtih teksta. GPT-3, na katerem je osnovan ChatGPT, je bil »vzgojen« na 570 gigabajtih podatkov. Podjetje ni razkrilo, kako velik je nabor podatkov za njihov najnovejši model GPT-4.
V skladu z evropsko zakonodajo morajo uporabniki imeti možnost, da se pogovori, ki jih imajo z umetno inteligenco, izbrišejo, obstaja pa precejšen dvom, da bo podjetje zmožno identificirati podatke določenega posameznika in jih izbrisati iz svojih modelov.
Zelo omejeno razumevanje
Delo bi si olajšali, če bi že v začetnih stadijih vzpostavili zanesljiv sistem evidentiranja podatkov. Namesto tega so, kot je stalna praksa v industriji umetne inteligence, podatke preprosto postrgali s spleta. Kaj sledi? Gube gladijo zunanji izvajalci. Te metode in sama količina nabora podatkov dajejo vedeti, da imajo tehnološka podjetja zelo omejeno razumevanje tega, kaj je šlo za usposabljanje njihovih modelov.
Tehnološka podjetja tako ne dokumentirajo, kako zbirajo podatke za usposabljanje umetne inteligence, niti jih ne označujejo. Skratka, kaj je v naboru podatkov, niti ne vedo.
Iskanje italijanskih podatkov je zato mogoče primerjati z iskanjem igle v kopici sena. In čeprav bi OpenAI to uspelo, ni jasno, ali bi izbris bil trajen. Raziskave so namreč pokazale, da se podatki na spletu obdržijo tudi dolgo po izbrisu, in sicer na račun kopij izvirnika. Razlog za to je dejstvo, da medtem ko je tehnologija za razvoj umetne inteligence skokovito napredovala, so se metode za zbiranje podatkov v zadnjem desetletju komaj kaj spremenile.
Več na to temo si boste lahko prebrali v obsežnem intervjuju z Markom Grobelnikom iz Laboratorija za umetno inteligenco Instituta Jožef Stefan v Ljubljani, ki bo objavljen v sobotni številki.