Hur bra klarar ChatGPT av en universitetstenta?

Astronomiprofessor David Kipping testar ChatGPT och om den kan klara av hans examination för studenter som tar en grundkurs i astronomi. Frågorna han ställer till sina studenter är konceptuella och inte så fakta- eller matematiktunga. Han beskriver det som frågor anpassade för humanister som vill ta/behöver lite naturvetenskap. Och han låter ChatGPT i stort ta testet rakt av med ytterst små förändringar i frågorna. Det är ett intressant klipp, och jag rekommenderar att du tittar på det innan du läser vidare nedan.

Det går… sådär… för ChatGPT. Den klarar examinationen, men får strax under medel i jämförelse med hans studenter. Mycket handlar antagligen om att ChatGPT trots allt har haft begränsad tillgång till data. ChatGPT är ej heller uppkopplad mot internet med/som en sökmotor. Så den har den data den har, tills ny tillförs av människor.

Jag noterar en del saker i klippet. Det verkar som att en del av ChatGPTs problem kommer ur semantik som kräver kunskaper. Den förstår antagligen inte helt vissa typer av frågors natur. T ex om det inte framgår tydligt att en flervalsfråga kan ha flera svar, så kommer den inte kunna svara rakt av. Något som studenter också kan missa och som medvetet ibland används just för att “lura” studenter. Min tanke direkt är att en student rimligen rätt fort kan lära sig detta, och lägga till den möjligheten i frågan (“flera svar kan vara korrekt”) så att AIn förstår det. Flervalsfrågor kan också innehålla flera mer eller mindre korrekta svar, något de flesta av oss vet från körkortsteorin. Då efterfrågas ett svar i stil där AIn förstår det med. Något man också rimligen som student kan skapa en brasklapp kring i sitt svar. Jag tror alltså att ChatGPT, i händerna på en lite mer lurigare användare, skulle kunna få bättre svar än den fick i filmen. Och i händerna på någon som därtill också kan ämnet ganska bra (men är lat) så kan de få näst intill perfekt svar. Allt fuskande i skolor handlar trots allt inte om studenter som inte kan svaren, utan som vill hitta snabbare genvägar.

Och genom hela klippet återfinns också tanken hos mig att det här är den första versionen av ChatGPT (GPT 3.5, men alltså den första chat-versionen), och att under våren ska ChatGPT 4 släppas, som sägas innehålla väldigt mycket mer uppgraderingar. Något han också tar upp i klippet i en diskussion om den kraftmätning man står inför om man på något sätt vill vinna mot AIn genom att skapa allt mer omständliga frågor eller t om har den naiva tilltron till att svar från en AI ska kunna gå att identifiera med fuskdetektorer (andra AIs) på något sätt.

När man överlag recenserar något, inte minst en applikation eller ett spel, vilket detta egentligen är, en applikation, om än en absurt avancerad sådan, så finns det en gyllene princip att följa: Gnäll inte för mycket på hur en första version av något fungerar eller inte fungerar och dra aldrig för stora slutsatser.

För det är bara just det. Den första versionen. De har *alltid* enorma brister. Men för att vara en första version av något, så är denna komplexa chatbot oroväckande bra redan.

Astronomen hintar att han inte tror på en kraftmätning mot AIn. Att den kanske egentligen faktiskt bara kommer bli ett naturligt verktyg för framtidens studenter. Som man kanske måste acceptera och anpassa sig efter. Precis som man gör med miniräknare och referenslitteratur på prov idag.

Det gör mig glad. För det visar på insikt, rim och reson. Jag hoppas att den inställningen sprider sig i den akademiska världen. Den bör göra det där om något, eftersom den världen trots allt är fylld av ganska smarta människor.

Då får vi väl se om samma inställning till AI blir norm bland andra med. Att copywriters, musiker, animatörer och grafiker och illustratörer ser AIs som ett verktyg att bemästra för att underlätta sitt arbete och öppna upp nya dörrar i möjligheter, istället för att fnysa åt dess barndomsbrister eller se som en ondskefull konkurrent.