Veliki slovenski jezikovni model GaMS (kar pomeni generativni model slovenščine), še natančneje GaMS-1B-Chat, ki nastaja v okviru projekta PoVeJMo, financirata pa ga Javna agencija za raziskovalno in inovacijski dejavnost (ARIS) ter EU iz sredstev NOO, je po začetnih naporih glede urejanja pravnih vprašanj, avtorskih pravic in usklajevanja z zakonodajo trenutno v fazi, ko je treba zbrati čim večje besedišče v slovenskem jeziku.
Že konec novembra so sprožili nacionalno akcijo zbiranja besedil; dogovori že potekajo recimo z Narodno in univerzitetno knjižnico (NUK), od medijev pa se je akciji pridružil tudi Dnevnik, ki je CJVT UL za raziskovalne potrebe na voljo dal članke iz vseh edicij. Vodja projekta, jezikoslovec in vodja CJVT UL dr. Simon Krek pravi, da jih poleg izgradnje modela s slovenskim besediščem čaka še preverjanje podatkovnih množic, da bo zadoščeno etiki, preprečevanju sovražnega govora, varovanju osebnih podatkov in podobno. Izdelali bodo tudi programe, ki bodo znali odgovore jezikovnih modelov preverjati. V zadnji fazi bodo slovenski jezikovni model vključili v evropsko digitalno infrastrukturo, ki jo evropska komisija spodbuja s financiranjem modela za vse jezike EU in tudi za vse druge jezike – regionalne, narečne.
Zbiranje besedil
Doslej so zbrali 9,2 milijarde besed, potrebujejo pa jih vsaj 40, 50 milijard. Zato zbirajo najrazličnejša besedila, lektorirana in nelektorirana, strukturirana in nestrukturirana, zabeležke, zapise z družbenih omrežij, kratke zgodbe, posnetke, eseje, knjige, študentske seminarske naloge, elektronsko pošto, dnevniške zapise, zapisnike sestankov, strategije, intervjuje.
Prof. dr. Marko Robnik Šikonja s FRI ter vodja tehnične izvedbe projekta PoVeJMo, je strokovnjak za umetno inteligenco. Pravi, da vsi veliki jezikovni modeli pri učenju zahtevajo ogromne količine besedil. »V Sloveniji smo trenutno zbrali okoli 10 milijard besed, podobni angleški modeli so naučeni na 15.000 milijard besed. Ko bomo dosegli okoli 50 milijard besed, kar je še vedno sorazmerno malo, bomo lahko te angleške modele prilagodili slovenščini in dobili model, ki bo spodobno tvoril slovenski jezik.« V ta namen trenutno slovenščini prilagajajo model Gemma 9B, ki ima devet milijard parametrov.
Nihče pa za predajo besedil (ki poteka na povezavi https://povejmo.si/ in kjer jezikovni model že lahko preizkusite) ni plačan, četudi imajo za besedila avtorske pravice. GaMS je namreč v javnem interesu, sistem je odprt in neodvisen od velikih korporacij iz tujine, ki lahko kadar koli ali omejijo dostop ali pa zahtevajo plačilo v zameno za dostop. GaMS-1B-Chat je sicer po grobih ocenah tisočkrat manjši od največjih modelov, recimo najnovejše verzije ChatGPT, zato se v odgovorih tudi pogosteje moti. Koristen pa je za testiranje, kakšen je učinek učenja na slovenskih podatkih, predvsem pri tematikah, ki so specifične za Slovenijo.
Na vprašanje, kako bodo ljudi motivirali, da bodo posredovali svoja besedila digitalnemu sistemu, dr. Simon Krek pravi: »Mislim, da je tukaj glavno vprašanje, kaj vsi, ki pišemo oziroma govorimo slovensko, hočemo imeti od novih tehnologij. Takšna akcija je lahko samo skupna, umetno inteligenco v slovenščini pa potrebujemo vsi. Ko smo se v nekem trenutku odločili, da bi radi imeli na enem mestu zbrane vse knjige, ki jih izdajo v Sloveniji, smo vzpostavili NUK, kjer mora vsak založnik oddati obvezne izvode. Tukaj je logika podobna: če hočemo imeti delujočo umetno inteligenco v slovenščini, potem moramo oddati ta 'obvezni izvod'. Da bo model videl tudi vaš tekst in da bo znal zgenerirati iz tega neka druga besedila.«
Kako tvoriti lepe stavke
»Potrebujemo slovenski jezikovni model, ki bo resnično dobro znal slovenščino. Postati mora temeljna infrastruktura, ne samo za jezik, ampak tudi za umetno inteligenco, ki se bo koristila na različnih področjih, od kulture do znanosti, kajti veliki jezikovni in slikovni modeli se uporabljajo za reševanje cele vrste nalog, za povzemanje, načrtovanje, razvoj, skratka za različne servise in raziskave, ki jih bomo z izgradnjo modela omogočili tudi v slovenščini,« pravi dr. Marko Robnik Šikonja.
Slovenci smo med prvimi, ki smo začeli graditi svoj veliki jezikovni model, vendar so v vseh jezikih, takoj ko se je pojavil ChatGPT, začeli razmišljati o tem, da bi imeli svojega. Med prvimi so reagirali Nemci, Poljaki, Francozi, skratka tisti, ki imajo več govorcev in tudi močnejšo podporo.
»Za projekt ne potrebujemo besed, temveč besedila, tvorjene celotne stavke, ker jezikovni modeli delujejo po principu, da se učijo napovedovati vsako naslednjo besedo; v osnovi delujejo zato, ker vidijo ogromno število tekstov oziroma besed v določenem kontekstu. Na podlagi te statistike potem vedo, katera beseda oziroma kaj naj bi sledilo. Z generiranjem velike količine besedil sčasoma lahko model tvori lepe in smiselne stavke,« je prepričan dr. Krek.
Trenutno so v fazi, ko model učijo, kako naj napove naslednjo besedo. Dr. Robnik Šikonja dodaja: »To pomeni, da mu na vhod damo del stavka, model pa potem poskuša napovedati naslednjo besedo in še naslednjo in še naslednjo itd. S tem se nauči, kakšna je tipična struktura slovenskega stavka, kako jezik izgleda, kakšna so slovnična pravila, kakšne so specifike slovenskega jezika. Nauči se tudi pogojnih odvisnosti med odgovori in vprašanji, pridobi različna znanja, denimo o slovenski zgodovini, o trenutni situaciji pri nas.« Projekt se bo zaključil junija 2026, model GaMS pa bo ostal kot trajna dobrina, kot del digitalne infrastrukture za slovenski jezik, ki ga nameravajo še naprej dopolnjevati.