Namesto ChatGPT kmalu GaMS, ki bo poznal slovensko kulturo, navade in znanje
Za njegovo pravo delovanje je treba zbrati 40 milijard besed.

Center za jezikovne vire in tehnologije, ljubljanska fakulteta za računalništvo in informatiko, Inštitut za novejšo zgodovino in Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti gradijo veliki jezikovni model za slovenščino. Imenuje se GaMS-1B-Chat in je vrsta umetne inteligence, zasnovana za obdelavo, razumevanje in ustvarjanje besedila, podobnega človeškemu. »Uči se na ogromnih zbirkah podatkov, ki navadno vsebujejo milijarde besed iz različnih virov, kot so spletna mesta, knjige, članki in transkripcije govorjenih besedil. To velikemu jezikovnemu modelu omogoča, da razume nianse jezika, slovnice in konteksta,« opisujejo snovalci modela in odgovarjajo, da lahko model odgovarja na vprašanja, ustvarja in povzema besedila ter prevaja.
Pomemben korak za slovenščino
Trenutno zbirajo besede, cilj jih je zbrati 40 milijard. »Že proti koncu lanskega leta smo začeli k oddaji besedil za gradnjo velikega jezikovnega modela za slovenščino aktivno nagovarjati tako tiste, ki razpolagajo z večjimi količinami besedil, kot so na primer založbe, mediji, knjižnice, kot tudi posameznike, ki imajo besedil manj, a želijo z njimi sodelovati pri tem pomembnem koraku za slovenščino,« so pojasnili. Zbirajo pisna besedila v digitalni obliki, posneta govorjena besedila in tudi rokopisno gradivo. Prejeti želijo raznovrstna besedila, tako takšna, ki jih ustvarjamo dnevno, denimo zabeležke, prošnje, blogovske zapiske, zapise na družbenih omrežjih, kot tudi specializirana besedila s specifičnih strokovnih področij, člankov, poročil in podobno. »Ni pomembno, ali so besedila standardna, nestandardna, lektorirana ali nelektorirana, sprejemamo vse. Pomembno je le, da ima tisti, ki odda besedila, zanje tudi avtorske pravice in da jih ni napisala umetna inteligenca,« pravijo. Tako sprejemajo tudi besedila v narečjih, slengu, žargonu in podobno. Kajti več kot bo vhodnih raznolikih podatkov, boljši in bolj prilagodljiv bo model.

Doslej je bilo zbranih dobrih devet milijonov besed.
Kako dolgo bo zbiranje potekalo, je odvisno od posluha pozvanih k sodelovanju. Sledila bosta shranjevanje in zaščita zbranih podatkov. »Naslednji korak bo pretvorba besedil v strojno berljivo obliko, čemur bo sledilo procesiranje besedil za učenje jezikovnega modela. To vključuje razdelitev besedil na manjše enote, odstranjevanje podvojenih vsebin in pripravo podatkov, ki bodo uporabljeni za treniranje modela. Nato bomo model dodatno varnostno učili, da bo znal prepoznavati in ustrezno obravnavati morebitne neprimerne ali neželene vsebine. Pred objavo modela bomo izvedli še posebne teste in evalvacije, da zagotovimo njegovo učinkovitost, natančnost in ustreznost v različnih jezikovnih kontekstih,« so opisali nadaljnji proces snovalci modela.
Jezikovno bolj avtentičen
Kot so opisali, bo veliki jezikovni model za slovenščino omogočal vse, kar omogočajo drugi sodobni modeli. Torej avtomatsko prevajanje, generiranje besedil, povzemanje informacij in preverjanje slovnice ter tudi napredno analizo besedil. »Njegova ključna prednost pa bo v tem, da ne bo razvit in optimiziran za angleščino ali druge večje jezike, ampak bo razvit primarno na slovenščini in bo zato jezikovno bolj avtentičen in natančen,« so navedli. Prav tako bo dostopen za raznolike vrste uporabe, od integracije v medicini in industriji do novih jezikovnih virov in tehnologij za pisni in govorjeni jezik. To lahko po njihovem mnenju spodbudi nadaljnji razvoj in konkurenčnost orodij ter storitev v maternem jeziku.
Veliki jezikovni model bo na neki način poznal slovensko kulturo, navade in znanje, kar ga bo ločevalo od obstoječih platform umetne inteligence. Naslednja razlika v primerjavi z drugimi platformami je način pristopa h gradnji modela. Ustvarjalci pravijo, da jim ta omogoča razvojno neodvisnost na področju jezikovnih tehnologij za zasnovo, vsebino in dostopnost modela v skladu s slovenskim javnim interesom. Tako jim nadzorovana priprava modela omogoča, da vedo, kaj v model pride, zagotavljajo pa tudi skladnost z zakoni o varstvu zasebnosti in osebnih podatkov.

Lahko ga preizkusite
GaMS-1B-Chat bo prosto dostopen in ga bodo lahko raziskovalci, razvijalci in podjetja uporabili za različne namene, vključno z razvojem aplikacij, orodij in drugih rešitev. Zainteresirana javnost lahko na spletni strani povejmo.si že preizkusi trenutno različico jezikovnega modela, ki je naučen na slovenskih besedilih v skupni velikosti približno deset milijard besedil in ima milijardo parametrov. »Odziv uporabnikov je načeloma pozitiven, treba pa se je zavedati, da je trenutni model po grobih ocenah tisočkrat manjši od največjih modelov, kot je najnovejša različica ChatGPT, zato se v odgovorih tudi najpogosteje moti. To je jasen kazalec, da za izboljšanje natančnosti in zmogljivosti modela potrebujemo še več raznolikih besedil v slovenščini, saj bo z več podatki model lahko deloval bistveno bolje.«

Model smo preizkusili tudi sami in mu zastavili vprašanje Kdo je Vestnik. Veliki jezikovni model za slovenščino je odgovoril, da je Vestnik časnik, ki izhaja v Murski Soboti. »Je splošnoinformativni časnik, ki pokriva širšo regijo Pomurje,« je dodal k svojemu odgovoru.
Na naše poizvedovanje so iz ekipe PoVeJMo sporočili še, da z vsemi, ki želijo oddati besedila, sklenejo dogovor o uporabi avtorskih del v zvezi z zbiranjem besedil, ki ureja pravice in obveznosti obeh strani. Tako bodo tisti, ki bodo delili z njimi besedila, dovolili uporabo besedil za gradnjo in izboljšanje velikega jezikovnega modela za slovenščino, prejemniki pa bodo zagotovili varno hranjenje in obdelavo. Vsem dvomljivcem pa pravijo, da besedila ne bodo nikjer javno objavljena oziroma dostopna, prav tako se podpisniki ne odpovedujejo svojim pravicam, temveč le omogočajo uporabo besedil za razvoj modela.
Zavedajo se, da druge platforme, kot je ChatGPT, delujejo tudi za slovenščino, a snovalci slovenskega modela poudarjajo, da bo lasten omogočil razvojno neodvisnost na področju jezikovnih tehnologij in zasnovo, vsebino ter dostopnost modela v skladu s slovenskim javnim interesom. »Veliki jezikovni modeli so pogosto razviti in optimizirani za angleščino ali druge večje jezike.
Model, razvit primarno na slovenščini, bo jezikovno bolj avtentičen in natančen. Nacionalni jezikovni modeli igrajo ključno vlogo pri odpravi jezikovnih ovir, kar omogoča širšemu spektru ljudi, da izkoristijo digitalne storitve. To vključuje posameznike z oddaljenih ali manj razvitih območij, ki morda ne govorijo mednarodnih jezikov ali nimajo dostopa do specifičnih tehnoloških virov,« so sklenili.
Berite brez oglasov
Prijavljeni uporabniki Trafike24 berejo stran neprekinjeno.
Še nimate Trafika24 računa? Registrirajte se
Berite brez oglasov
Prijavljeni uporabniki Trafike24 berejo stran neprekinjeno.
Še nimate Trafika24 računa? Registrirajte se