DEBATT

Kunstig intelligens skaper både begeistring og bekymring. Innen høyere utdanning er det særlig behov for å ta grep, skriver Hedda Hassel Mørch. Hun etterspør økt bruk av skoleeksamen, her for anledningen avbildet ved hjelp av KI.

Skoleeksamen må gjeninnføres – KI gir oss ikke noe annet valg

Bruken av KI på hjemmeoppgaver og -eksamener eksploderer ved universiteter og høgskoler, men de samme institusjonene løper fra sitt kjerneansvar ved ikke å ty til det enkleste og beste botemiddelet – skoleeksamen.

Publisert Sist oppdatert

Dette er et debattinnlegg. Meningene som fremkommer, er skribentens.

Kunstig intelligens er muligens den teknologien som ved sin introduksjon har vekket mest uro i forhold til begeistring og fremtidshåp. Mange av bekymringene er spekulative – som at KI kan være på vei til å utslette menneskeheten, eller lede til maktkonsentrasjon hos noen få og økonomisk overflødighet blant flertallet.

Andre bekymringer har derimot allerede manifestert seg, og da spesielt én: Trusselen det utgjør for skole og høyere utdanning. Her vil jeg fokusere på høyere utdanning. Som mange umiddelbart fryktet – eller egentlig forutså som en ren selvfølgelighet – har studenter begynt å bruke kunstig intelligens i stor skala til å generere hjemmeoppgaver og -eksamener.

I utgangspunktet skulle man tro dette ville lede til full alarm, og umiddelbar overgang til skoleeksamen i alle sammenhenger mulig – på samme måte som koronapandemien ledet til umiddelbar endring i motsatt retning. Men i realiteten har universiteter og høgskoler endret lite av betydning.[1]

Institusjonene har riktignok tydeliggjort et forbud mot å fremstille KI-generert tekst som eget arbeid. Men det sies lite om hvordan dette realistisk kan håndheves. Ellers virker de mer opptatt av å se KI som «en mulighet, ikke en trussel», som studentene vil bruke uansett, slik at vi bare «må lære dem å bruke det riktig». Slike påstander høres stadig ved min egen institusjon, samt via rapporter og uttalelser fra andre landet rundt.

Problemet er at studenter allerede bruker KI på en måte som radikalt undergraver deres reelle utdannelse og læringsutbytte – altså til å la KI nærmest skrive oppgaver og eksamener for seg. Fordelene mer legitim bruk måtte ha er ubetydelige i forhold til skaden dette utgjør. Det er ingen måte for undervisere og sensorer å kontrollere – på en pålitelig og rettssikker måte – om studenter har brukt KI på uriktig eller kun «riktig» måte i en innlevering.

Derfor må studentene hindres i å bruke KI i det hele tatt, på de aller fleste eksamener, noe som enkelt kan oppnås ved overgang til skoleeksamen. Noe annet risikerer å føre til et enormt læringstap hos hele kull, om ikke en hel generasjon, av studenter.

KI-bruken øker

Bruk av KI til å generere oppgaver brer om seg. Anekdotisk opplevde en underviser jeg kjenner nylig at 80 prosent av en stor bunke innleveringer viste tydelige tegn på å være delvis KI-generte. Jeg snakker ofte med studenter som forteller om slik bruk blant andre. I Khrono rapporteres det om stor økning i antallet studenter som tas for KI-fusk.

Utviklingen i Norge vil med stor sannsynlighet følge den i land som USA, Canada og Storbritannia. På forumer og Facebook-grupper for undervisere i mitt eget fagfelt fra hovedsakelig disse landene er det fullt av fortvilte innlegg om hvordan KI-bruk åpenbart florerer. Undervisere er utmattede av å måtte være KI-politi fremfor å skape god undervisning, og frustrerte over at administrasjon og ledelse for det meste ser en annen vei. Problematikken er blitt beskrevet med dramatikk og bekymring i flere høyprofilerte artikler.

Ifølge ulike undersøkelser blant studenter i de samme landene innrømmer opptil 32 prosent bruk av KI til å skrive oppgaver for seg. Man kan også anta stor underrapportering, og at den reelle andelen er høyere.

Det er all grunn til å tro at bruken bare vil fortsette å øke, i Norge som i andre land. At bruken allerede er betydelig bidrar til normalisering som igjen vil lede til mer bruk. Men viktigst er simpelthen insentivene. Om man som student lærer seg de rette triksene, kan det lede til ikke bare akseptable men gode karakter, for en brøkdel av vanlig arbeidsinnsats – med en svært lav risiko for å bli tatt.

KI-bruk passerer uoppdaget

For bruk av KI til å generere oppgaver kan ikke påvises og straffes i den grad som ville være tilstrekkelig for å avskrekke det.

Undervisere er dårligere til å avdekke KI-generert arbeid enn mange tror. I en studie fra 2024 leverte forskere inn en mengde KI-genererte essays på ulike eksamener ved et anerkjent britisk universitet. 94 prosent av essayene ble ikke flagget som KI-genererte, på tross av de ifølge forskerne brukte KI «in the most detectable way possible». De KI-genererte besvarelsene fikk gjennomsnittlig en halv karakter bedre enn studentenes.

Man skulle kanskje tro at dette kunne bedres ved å øke undervisernes bevissthet om KI-bruk og dens kjennetegn – andre undervisere legger jo, som nevnt, merke til svært mye bruk. Men dette er ikke en holdbar løsning.

For å ta en student for fusk kreves stor sannsynlighetsovervekt. Det finnes tegn på KI-bruk sterke nok til å passere denne terskelen – som at en oppgave refererer til ikke-eksisterende litteratur hallusinert av KI-en. Men mange studenter klarer å unngå disse.

Andre trekk kan gi betydelig grunnlag for mistanke, men uten å gi en helt sikker indikasjon; for eksempel, et generisk språk mistenkelig velpolert for en førsteårsstudent, eller KI-typiske ord og mønstre (som ordet «delve» på engelsk, eller høy forekomst av lange tankestreker). I tillegg til eventuelle falske positiver, vil slike indikatorer også etterlate seg en mengde falske negativer – selv om noen blir tatt, vil det alltid gjenstå mange andre som ikke blir det. Dette blir et rettferdighetsproblem.

Det er mulig – som undervisere ofte får velmente tips om – å utforme oppgaver som KI i utgangspunktet har vanskeligere for å svare godt på, for eksempel om temaer lite omtalt i KI-enes treningsmateriale (offisielt inkluderer dette den åpne delen av internett og materiale utenfor opphavsrett). Men dette er både krevende og begrensende.

Undervisere bør bruke tiden sin på det faglige, istedenfor å finne subtile måter å utmanøvrere KI på. Og KI-sikring vil ofte være i konflikt med pedagogiske hensyn – den mest lærerike oppgaven for en student er ofte ikke den samme som den KI har størst vanskeligheter med. Skal man for eksempel systematisk unngå oppgaver om de mest velkjente teoriene eller problemstillingene i et felt, siden KI vil ha mye informasjon om dem?

Men hovedproblemet er at de aller fleste deteksjonsstrategier uansett vil kunne omgås etter hvert som studentene blir klar over dem. For eksempel kan KI-en instrueres til å «skrive som en litt naiv førsteårsstudent», inkludere noen skrivefeil og klossete formuleringer, og unngå KI-typiske ord og uttrykk. Hvis oppgaven krever innsikt i lite omtalte fakta eller teorier, kan den relevante informasjonen bare inkluderes i forespørselen, for eksempel ved å laste opp lysbilder fra undervisningen eller tekster fra pensum.

Istedenfor å generere en ferdig tekst, kan studenter også be KI-en instruere egen skriving – altså å gi en detaljert disposisjon over alle poenger, argumenter og referanselitteratur besvarelsen bør inneholde, som deretter bare skrives ut, med lite behov for egen lesing eller tankearbeid. Da vil man unngå alle rent språklige og formelle indikatorer på KI-bruk.

Med andre ord står undervisere og sensorer i et kappløp med KI og studentene som bruker det, som vi aldri vil vinne og samtidig tapper oss for tid og krefter.

KI-bruk undergraver læring

For mange vil det være åpenbart hvordan denne typen KI-bruk undergraver læring. Men om det skal gjøres eksplisitt, fører det å skrive og løse en oppgave selv til læring på helt grunnleggende måter.

Det gjør det at man husker og forstår fakta og teorier man skriver om bedre. Det bidrar til breddekunnskap, fordi man alltid må lese mye mer enn man ender med å bruke for å finne frem til det mest relevante. Men kanskje viktigst av alt er hvordan det utvikler ens egen tankeevne. En tanke, i hvert fall en kompleks en, er sjelden ordentlig tenkt før man har skrevet den ned og inn i en større sammenheng. Å fremstille egne argumenter og resonnementer er selvfølgelig også en evne som styrkes ved å bruke den, på utfordrende oppgaver som løses ved egen hjelp.

KI-bruk leder dermed til overfladisk og snever fagkunnskap og lite til ingen oppøving av ens evne til selvstendig, kritisk tenking – utover det å finne ut hvordan man mest effektivt kan bruke KI til uoppdaget å generere oppgaver måtte lede til.

Dette understøttes av forskning. To nylige studier konkluderte for eksempel begge at hyppig KI-bruk ledet til svekket kritisk tenkning.

Det rapporteres også av studenter selv, ofte med bekymring og vemod på egne vegne. Ifølge en nylig artikkel i amerikanske Chronicle of Higher Education, sier de for eksempel:

  • “I’ve become lazier. AI … slowly causes my brain to lose the ability to think critically or understand every word.”
  • “I literally can’t even go 10 seconds without using Chat[GPT] when I am doing my assignments … I know I am learning NOTHING, but I am too far behind now to get by without using it.”

Hva med kalkulatorer?

Noen argumenterer for at i fremtidens KI-pregede samfunn vil tradisjonelle akademiske ferdigheter bli mindre viktige – derfor trenger ikke studenter trenes opp i dem på samme måte som før.

Men selvstendig, kritisk tenkning må vel, om noe, bare bli mer viktig. Gitt KI vil samfunnet flyte over av mer upålitelig informasjon enn noensinne. Selv om fremtidig KI skulle hallusinere mindre, vil mennesker fortsatt kunne bruke det til å generere store mengder upålitelig og villedende materiale, som vi ikke kan regne med at KI selv kan sortere ut for oss. En reflektert og kunnskapsrik befolkning er også en forutsetning for å finne gode, demokratisk funderte løsninger på de økonomiske og politiske utfordringene KI kan vise seg å medføre.

Fremtidens arbeidsmarked vil selvsagt etterspørre KI-kompetanse. Men slik kompetanse består ikke i ukritisk å hente ut KI-generert materiale, men i stor grad i å vurdere og kvalitetssikre det. Uten den kritiske evnen som utvikles ved å skrive og løse oppgaver uten hjelp av KI, vil man dermed mangle en essensiell del av denne kompetansen.

Med dette finner vi svaret på det etter hvert velkjente «hva med kalkulatorer?»-argumentet. Da kalkulatoren kom, fryktet mange en katastrofal nedgang i folks matematikkunnskaper. Siden dette gikk bra likevel, vil det, ifølge argumentet, også gå bra med KI.

Men fortsatt er det vel sånn at elever må lære å gjøre grunnleggende matematiske operasjoner på egenhånd for i det hele tatt å forstå hva kalkulatoren gjør. På samme måte er det med KI og kritisk tenkning. Kalkulatorer har også utvilsomt gjort at folk er blitt dårligere på hoderegning, men dette er ikke et stort problem siden kalkulatorer faktisk er en egnet erstatter for det. Kritisk tenkning har åpenbart både høyere egenverdi og bredere nytteverdi enn hoderegning, og i motsetning til kalkulatorer er KI-er langt fra pålitelige og må derfor fortsatt kontrolleres av oss. KI gjør, til forskjell fra kalkulatorer, dermed egentlig ikke evnene det svekker overflødige. Derfor vil KIs inntog ha svært mye verre konsekvenser – med mindre vi avverger det ved å unngå bruk i tiden vi utvikler disse evnene, altså under utdanningen.

Skoleeksamen er en god eksamensform

Ved overgang til skoleeksamen kan studenter ikke bruke KI i vurderingssituasjoner. Det gir også et sterkt insentiv til ikke å bruke KI på forberedende hjemmeoppgaver, siden studentene da går glipp av kunnskap og ferdigheter de vet de vil trenge til eksamen.

Noen mener skoleeksamen er pedagogisk ugunstig. Skoleeksamen motiverer pugging av fakta, sies det, mens hjemmeeksamen gir anledning til å utvikle lengre tanke- og argumentasjonsrekker og gjøre egen research.

Men skoleeksamen kan ta mange former. Det er mulig å skrive lengre essays på skoleeksamen. Studentene kan få lov til å ha med bøker og notatark. Eksamen kan vare i opptil åtte timer, slik at det blir tid til refleksjon og redigering. Det inkluderer også muntlig eksamen.

Ved Oxford, Cambridge og andre britiske toppuniversiteter er nesten alle eksamener skoleeksamen, etter lang tradisjon.[2] Dette har åpenbart ikke gått utover kvaliteten på utdanningen de tilbyr eller deres kapasitet til å frembringe forskere på høyeste nivå.

Hva med masteroppgaver? De kan forhåpentligvis fortsatt skrives uten tilsyn. Studenter som allerede har gått gjennom flere studieår uten å basere seg på KI vil i alle fall ha mindre å vinne på å begynne da, siden de allerede vil ha utviklet gode skriveferdigheter, og det også er vanskeligere (i hvert fall med dagens teknologi) for KI å generere svært lange tekster på høyt nivå.

Masteroppgaver, og andre eventuelle nødvendige hjemmeoppgaver, bør også følges opp av en grundig muntlig høring og andre former for KI-kontroll, av typer som vil være for ressurskrevende for hjemmeeksamener generelt. Muntlig høring vil heller aldri være helt pålitelig som KI-kontroll, derfor bør det også fungere som et vesentlig, selvstendig karaktergrunnlag, ikke bare noe som kan vippe opp eller ned, som i dag.

Hva med KIs læringsfremmende bruksområder? KI har stort potensial til å fungere som en slags privatlærer for studenter, som søkemotor, til hjelp med språk og formuleringer, og mye annet. Men denne bruken vil enten være forenelig med skoleeksamen – da verktøy kan brukes til forberedelse selv om ikke på selve eksamen – eller av ubetydelig verdi i forhold til det å hindre radikalt læringshemmende bruk.

Vi har råd til skoleeksamen

Universiteter og høgskoler i Norge, på forespørsel om omlegging til skoleeksamen, svarer ofte at dette har de ikke råd til. I motsetning til ved hjemmeeksamen kreves store rom, kanskje egne PC-er til å skrive på, og eksamensvakter.

Men om argumentet så langt stemmer, er skoleeksamen, gitt KIs inntog, blitt en nødvendig forutsetning for at universiteter og høgskoler skal kunne fortsette å utføre sitt grunnleggende samfunnsoppdrag – altså å frembringe genuin læring og ferdighetsutvikling og å utstede vitnemål som indikerer reell kompetanse. Å si at universiteter ikke har råd til skoleeksamen, blir dermed som å si at vi ikke har råd til reelle universiteter.

For å senke kostnadene er det også mulig å spre skoleeksamener utover i semesteret, slik at lokalene utnyttes bedre, eller å ha færre, lengre og mer avgjørende, eksamener. På muntlig eksamen kan man fjerne kravet om to sensorer, som i hovedsak bidrar til å gjøre dette dyrt, selv om dette ikke er ideelt

Institusjonene svikter studentene

Læringstapet som resulterer av bruk av KI til å generere arbeid rammer både samfunnet og studentene individuelt. En student som baserer seg på KI under studiene, kan oppnå gode karakterer, men vil gå glipp av verdifulle ferdigheter, som vil straffe seg senere i arbeidslivet.

Studentene vil også gå glipp av den gleden, mestringen og selvtilliten som kommer av å skrive og løse oppgaver selv, og den dype forståelsen det kan gi opphav til – og som svært mange i utgangspunktet kommer til universiteter og høgskoler med et ønske om å oppleve.

Disse studentene vil også settes i et vanskelig dilemma: Når en stor andel andre studenter bruker KI, vil de som, av langsiktige eller ideelle grunner, velger ikke å gjøre det settes i en ufordelaktig posisjon på kortere sikt, i den grad de også kunne oppnådd høyere karakterer ved bruk av KI og må konkurrere med andre som gjør det.

Alle mennesker responderer på insentiver, og kortsiktige og umiddelbare belønninger tiltrekker oss sterkere enn de som ligger mer på avstand. På abstrakt nivå kan mange institusjoners funksjon forstås nettopp som å skape en insentivstruktur som forsterker de langsiktige eller høyere formålenes kraft i forhold til de kortsiktige eller lavere, og dermed legge til rette for at mennesker får levd ut sin ideelle motivasjon. Ved ikke å legge om insentivene vi gir til studentene, på en måte som ser ut til å kun kunne gjøres ved omlegging til skoleeksamen, løper universiteter og høgskoler fra et av sine dypeste ansvar.

**

[1] Med noen unntak – det finnes enkeltstudier som i stor grad har gått over til skoleeksamen, og NTNU for eksempel rapporterer større andel skoleeksamener enn før. Men generelt er hjemmeeksamen fortsatt svært utbredt.

[2] Med unntak av under pandemien og på enkelte programmer fra og med noen år forut for det. Etter pandemien har hjemmeeksamen også blitt beholdt i noen grad, men dette reverseres nå i mange tilfeller i lys av KI.

Powered by Labrador CMS