I forrige uke la Nasjonalbiblioteket (NB), UiO og NTNU fram en rapport om det såkalte Mímir-prosjektet, som har forsøkt å måle hvilken verdi det har å bruke opphavsrettslig beskyttet materiale i treningen av en språkmodell. Norge sitter på et unikt materiale ettersom en uvanlig stor mengde av den nasjonale litteraturen og avisene er digitalisert. I neste fase skal NB finne ut hvordan forfatterne skal få betalt, og dette er en prosess kunstnerorganisasjonene overvåker nøye.
– Forskningen er interessant og viktig, men måten den blir lagt fram, og hastigheten dette blir gjort i, gjør at vi er ekstra på vakt for konsekvensene. I dag skal vi ta beslutninger som kan prege inntektene og den skapende virksomheten til forfattere i all overskuelig fremtid, sier Bjørn Vatne, leder for Den norske Forfatterforening.
Allerede i april 2023 sendte DnF, på vegne av de seks medlemmene i Skribentorganisasjonenes samarbeidsorgan (SOS), et brev til regjeringen der vi ba om at den «trekker opp noen tydelige linjer knyttet til opphavsrett, hensynet til skapende kunstnere og KI». I august samme år ble SOS enige om å be KUD og KDD utrede en kompensasjonsordning, og det er denne som nå er på trappene.
Dårligere av romaner?
Mímir-prosjektet er omtalt i en artikkel i Aftenposten 13. august, under overskriften «Chatboter blir dårligere av å lese romaner». Dette viser til ett av funnene i rapporten, som er at modellene presterer dårligere i grammatikk og tegnsetting når de fores utelukkende med skjønnlitteratur og åpent tilgjengelig materiale fra nettet. I rapporten omtales dette forsøksvis fiffig som «Jon Fosse-paradokset».
– Overskriften gir et feilaktig inntrykk. Det totale bidraget fra skjønnlitteraturen er positivt, særlig i kombinasjon med andre tekstkilder. Den har sin største effekt på viktige områder som språklig variasjon og lesbarhet, og hverdagskunnskap og forståelse av verden. Sistnevnte variabel «tester om modellen kan resonnere om situasjoner som krever praktisk, hverdagslig kunnskap som folk tar for gitt», noe som er viktig når vi vet at folk allerede i dag bruker en chatbot som rådgiver i mange situasjoner, sier Vatne etter å ha satt seg inn i den tekniske rapporten.
Hastverk er lastverk
Prosjektet har båret preg av et ønske om å gå fort fram. I rapporten skriver prosjektgruppen selv at «Mímir-prosjektet ble fullført i løpet av seks måneder, og dekket alle stadier fra idé og etablering av prosjektgruppe til evaluering og rapportskriving. Følgelig har tidsbegrensninger påvirket hver beslutning. Med mer tid kunne vi ha utformet eksperimentene annerledes.»
Dette bekymrer DnF-lederen. Særlig er Vatne skeptisk til at Nasjonalbiblioteket i samme tempo skal utrede en kompensasjonsordning for forfatterne. Her nytter det ikke å resirkulere gamle lisensordninger, ettersom KI representerer en genuint ny måte å utnytte et originalverk på. Konsekvensene må utredes nøye, mener han.
– For eksempel mener vi det ikke nødvendigvis er et godt valg med en engangsutbetaling som kompensasjon for å trene en modell som alle – også kommersielle aktører – kan bygge videre på og bruke fritt. La oss si at det på bakgrunn av den norske språkmodellen lages en tjeneste som genererer KI-romaner. Verken det å lage denne tjenesten, eller det uendelige antall bøker som kan lages med den, vil utløse lisensbetaling som gir ny kompensasjon til opphaverne som har bidratt med sine verk. Vi risikerer dermed både å selge arvesølvet for en kortsiktig gevinst, og legge bedre til rette for at det skapes massive mengder litteratur av lav kvalitet som vil oversvømme markedet. Vi ser allerede at dette skjer internasjonalt på markedsplasser som Amazon.
Forfatterbistand til billige robotskribenter?
Det store paradokset i denne saken er nemlig at de profesjonelle forfatterne ville være med på å bedre vilkårene for en konkurrent som ikke opererer med samme kunstneriske og språklige standarder som dem, sier Vatne.
– Når norske forfattere, forlag og bokhandlere i fremtiden kan være nødt til å operere i et marked fullt av gratis genererte bøker med liten eller ingen kvalitetskontroll, som selges til spottpris, risikerer vi at prisforskjellen gjør både forfattere, redaktører og salgsledd arbeidsledige. I ytterste konsekvens kan det gi oss en nasjonal litteratur preget av mer stillstand, resirkulering av ideer og klisjéer. KI kan kun repetere og ikke skape noe nytt i ordets virkelige forstand. Det er dette som er virkeligheten vi står overfor, og prestisjen i å få en modell fort ut på markedet må ikke få overprøve disse hensynene. Den norske kunstner- og språkpolitikken sier at det skal legges til rette for mangfold og høy kvalitet i litteraturen. Hvis det offentlige utvikler en språkmodell, må de samtidig lage ordninger som sikrer at den ikke undergraver deres egne politiske mål.
Har ikke målt kreativ verdi
I rapporten innrømmer prosjektgruppen at arbeidet så langt ikke tar høyde for at språk er mer enn bare sammenhengende og faktabasert tekst.
«Likevel mangler vi fortsatt riktige måter å vurdere de kreative aspektene ved språkmodeller for norsk, noe som ofte krever menneskelig evaluering. Dette kan føre til at dagens evalueringsmøter passer bedre i kommersielle sammenhenger og for og rutineoppgaver», står det i rapporten.
– I lys av dette er det vanskelig å se hvordan prosjektet har klart å måle den sanne verdien av å tilføre skjønnlitteratur i treningen. Lest som brosjyre eller oppslagsverk vil naturlig nok enhver roman, dikt eller novelle falle gjennom. Det er nettopp som en motkraft til det flate, kommersielle eller byråkratiske språket – ja, chatbot-språket, om du vil – at den vil ha sin kanskje største verdi. En kompensasjonsordning må ta utgangspunkt i dette fremfor noe annet.