Språkrådet fann fleire språkfeil hos KI-tenestene dei undersøkte. Illustrasjonsfoto: Annika Byrde / NTB / NPK
Språkrådet fann fleire språkfeil hos KI-tenestene dei undersøkte.

Språkrådet fann fleire språkfeil hos KI-tenester

Språkrådet har testa språket til fire språkmodellar som ChatGPT og Copilot. Dei har funne mange feil, og resultata er svakast på nynorsk.

Publisert Sist oppdatert

Språkrådet har testa språket til fire språkmodellar som ChatGPT og Copilot. Dei har funne mange feil, og resultata er svakast på nynorsk.

– Vi fann mange språkfeil i tekstane dei produserte, flest i tekstane på nynorsk. Feila omfattar logiske og syntaktiske brestar, engelske vendingar og manglande konsekvens i bruk av valfrie former, skriv Språkrådet i ei pressemelding.

Dei har testa fire KI-verktøy som er eller skal takast i bruk i skulen og offentleg forvaltning:

* ChatGPT 4.5

* Microsoft Copilot

* Le Chat med Mistral pro

* NorMistral-11b-warm-instruct (utvikla ved Universitetet i Oslo)

– Må setje av ressursar

Språkrådet understrekar at lova slår fast at offentlege organ skal bruke eit klart og korrekt språk.

– Viss eit offentleg organ vil bruke dei praterobotane vi har testa, til å produsere tekst frå grunnen av, må dei derfor vurdere bruksområdet nøye og setje av nok ressursar til etterarbeid, inkludert kontroll av språk, fakta og kjelder, skriv Språkrådet.

Dei kjem også med fleire råd til korleis bruken bør fungere.

Fleire feil

I testen Språkrådet gjorde, vart det generert til saman 68.635 ord. Hos ChatGPT vart det funne 1,5 feil per 100 ord på bokmål og 2,6 feil per 100 ord på nynorsk.

Le Chat hadde flest feil både på bokmål (2,2 per 100 ord) og på nynorsk (3,3 per 100 ord).

Copilot og Normistral hadde færrast feil på bokmål (1,3 per 100 ord). Desse to gjorde det også best på nynorsk, med høvesvis 2,4 og 2,3 feil per 100 ord.

– Ein feilprosent på 2,3 svarer om lag til éin feil for annakvar setning i ein typisk sakprosatekst i materialet vårt. Det svarer til minst 8 feil per side, skriv Språkrådet i rapporten.

– Ikkje nok til å rangere

Språkrådet understrekar at materialet dei har undersøkt, ikkje er stort nok til å rangere dei ulike verktøya.

– ChatGPT kjem litt dårlegare ut i materialet vårt enn Copilot og Normistral, men forskjellen er ikkje signifikant når vi måler robotane mot kvarandre direkte.

– Det vi kan slå fast, er at alle dei fire robotane gjer mange feil av mange slag, og at Le Chat gjer flest.

Språkrådet kjem ikkje med nokon råd om korleis problema bør handterast i skulen og den høgare utdanninga.

– Men det er viktig at problema er kjende og blir tekne på alvor, skriv dei.

(NPK)

Powered by Labrador CMS