Nej, du kan inte alls avgöra eller testa om en text är skriven av en AI

AI-ord
Jo, låt mig direkt säga att jag vet. Det finns ett par *påstådda* lösningar för att kontrollera om en text är skriven av en AI. Problemet, det inte helt oväntade, är att de inte alls fungerar pålitligt enligt mer ingående tester. Vilket alla vi som begriper det minsta kring både textskapande, språk, vattenstämplar och AI sa redan från början eftersom det finns ett par uppenbara problem här.

Det finns faktiskt inget 100% säkert sätt att säkerställa att en text är skriven av en AI och kommer sannolikt aldrig heller. Det finns gott om folk som påstår att de kan känna igen det och utvecklares optimistiska eller kanske t om rent bedrägliga påståenden om “vattenstämplar” och slikt. Allt påståenden som du definitivt ska ta med en väldigt stor nypa salt.

Jo jag vet, OpenAI själva försöker utveckla sätt att kunna avslöja AI-texter med vattenstämplar och/eller stiligenkännande. Deras egna texter då. Och de har onekligen koll på hur sin egen AI arbetar. Eller hur? De har t om en liten applikation för det. Så då är väl allt på väg i rätt riktning då? Nja…

Än så länge fungerar det bara behjälpligt och utan större statistisk framgång och de säger själva att de egentligen inte vet hur de ska gå vidare med saken på sikt och att det sannolikt aldrig kan gå helt. Det fungerar framförallt inte alls juridiskt, för där krävs betydligt mer tveklöshet i bevis än ett (kvalificerat “trust me bro”).

Eftersom det i texters blotta natur finns variabler som ingen teknik i världen bara kan kategorisera, oavsett hur avancerad den än är. Och så har vi ju även det där faktumet att man hela tiden just jobbar med att alla texter ska bli så bra och mänskliga som möjligt som går stick i stäv med just kategorisering. Det är en tydligt motsägelse att då tro att tydligheten kring om något är gjort av en AI ska öka.

Det är t om ganska uppenbart att utvecklingen bara kan gå i motsatt håll. Ju mer en AI lär sig skriva så som människor gör, desto mindre konkreta eller imaginära variabler finns kvar.

En AI har faktiskt inte ens idag en egen unik stil rent språkligt som är distinkt nog för att en människa ska kunna säkert säga att den 100% inte är skriven av någon annan människa. Många påstår motsatsen men det är inte sant.

Och försöker en utvecklare just ge den en distinkt stil blir användaren ganska snart varse om det och missnöjd med resultatet. “Varför börjar den alltid med 5 verb i de första 2 meningarna? Varför är meningarna alltid 25-60 tecken långa? Varför finns det alltid minst en mening skriven i jagform i texter över 600-tecken? Varför är den så trevlig när jag bad om sur stil? Varför är det alltid dubbla mellanslag där? Varför får den inte rätt på plural? Hmm, är inte det rätt skumt att det alltid blir så?”

Folk ser tillslut alla vattenmärken i en text. Eller så gör en anti-anti-AI det. Det är bara en fråga om tid. Du kan inte plantera hemligheter och mönster i en textmassa utan att någon eller något ser det. Så möjliggörande är faktiskt inte texter för hemligheter.

Du kan absolut säga med säkerhet att du vet att just en specifik person omöjligt kan ha skrivit en text, men inte att en annan människa inte kan ha gjort det. Och däri ligger problemet. Det kvittar vad du vet om någon människa, du vet inget om människors alla olika sätt att skriva om du tror att ingen skriver på samma sätt som en AI gör. Och du vet verkligen heller inte allt om hur en AI kan skriva. Du kan också tycka att du kan känna igen att en text nu i början av 2023 sannolikt inte är gjord av människa, pga upprepade mönster i denna första version av ChatGPTs sätt att skriva i händerna på en usel promptskribent. Men det sista håller inte juridiskt alls – som testet ovan visar, för människor skriver också på det sättet.

Och det är det viktiga här. För det är ett krav på universitet för anklagelser om plagiat att du kan styrka det med bevis. Då gäller endast fakta om du inte kan få studenten att erkänna på något sätt. Inte ditt tyckande och intuition. Oavsett hur mycket erfarenhet du än har och kan åberopa.

Och om någon institution börjar införa en tyckande-klausul där godtycke införs, så är det bortsett att vara rättsvidrigt, sannolikt bara något som håller tillfälligt. På lägre utbildningsnivå har lärare än så länge makten att med sitt godtycke stoppa en text och så räcker det. Men det är en farlig väg att vandra och bejaka.

Och glöm inte det allra viktigaste här: till nästa (eller nästa, eller nästa) version av AIn utplånar alla buggar och brister du tycker dig kunna identifiera idag.

FFör även OM man kan se vissa saker upprepas i dessa första iterationer av t ex ChatGPT (jag har bloggat om just dessa saker innan, så jag vet) är det just första iterationernas brister du kommenterar. Inte en egentlig stil. Och framförallt kan man redan nu påverka stilen med sin prompt i en myriad av riktningar. Eller bara snabbt manuellt korrigera ett par saker, så är alla dessa av AIns textmässiga barndomsfel försvunna och lösta. De språkliga felen då.

Faktafel kräver ju såklart en betydligt större insats. Faktafel lär garanterat avslöja en och annan AI än mer än språk gör. Så länge man kan bevisa att en människa inte kan ha fel… Vilket du ju själv hör hur dumt det låter. Människor har ofta tokfel på tentor ifall du nu inte kände till det.

ChatGPT må i dagsläget ha buggar och brister som gör att t ex “en och ett” just för stunden råkar vara vanliga fel när den ska skriva på svenska, men det är något som rimligen snart kommer att korrigeras. Man kan även tänka sig att det kommer att komma vattenmärkesförsök.

Och det är något som en observant student som korrekturläser sin AI-text ju lär se i de flesta fall.

För glöm inte: Alla som fuskar är sannerligen inga korkade kretiner. De flesta är bara bekväma eller lata. De kommer snart bli varse om ev saker som planteras in i texten för att avslöja en text. Via rykten. Via sociala medier. Eller så betalar de Tvetydiga Ord AB för en appen “UNAIYourText” eller bara manuell korrektur som kan det om de på riktigt inte kan eller vill göra det själva.

Och eftersom ingen fil eller filformat existerar heller så kan inget gömmas i bakomliggande kod eller liknande. I bilder man kan tänka sig en rad saker i algoritmerna som skulle kunna avslöja mycket mer saker i kompressioner, färger och pixlar eller i en kod som man kan maskera som en slags vattenstämpel. Åtminstone i den råsparade filen. Men kanske även i kopior i andra format.

Men texter fungerar inte så. Alls.

Och ÄVEN om någon kommer på något galet listigt sätt att just vattenmärka en text som väldigt få vet hur de ska kringgå eller upptäcka, så kommer det att komma, som ett brev på posten, tekniska lösningar för att sudda bort sådant med tillslut och en dyr lösning är åter igen ogjord.

Det är en kamp i teknik som kommer att förloras från dag ett av de som hävdar att texter kan identifieras av appar, vattenmärken, andra AIs, “skickliga ögon” oavsett om man råkar vinna små slag i början av utvecklingskriget.

Och egentligen finns det inte så mycket mer att säga om den saken, utom det uppenbara: Att en rad instanser kommer att bli lurade att köpa dessa antifuskprodukter, lösningar och konsultationstimmar eller göra bort sig med att lyssna på självgoda eller rent bedrägliga människor som tror (eller vill lura dig) att de ser något stiltypiskt och att fullständigt oskyldiga studenter kommer att bli anklagade till höger och vänster som en konsekvens.

Istället för att man arbetar med utvecklingen och försöker hitta nya sätt att arbeta. För på samma sätt som det finns ohederliga människor som är lata och vill “fuska”, finns det gott om lata människor som köper lösningar av andra ohederliga människor, istället för att fundera och läsa på mer.

Jo jag vet. Ibland får man äta upp säkra ställningstaganden. Jag brukar själv roa mig med att kommentera andras arrogans. Jag gör det t om i detta inlägg. Jag är fullt medveten om både paradoxen och risken.

Men det här är en av ytterst få saker jag är säker på kring AIns utveckling och möjligheter. Texter i sin rena råform är inte stora mängder komplex data på samma sätt som bilder, film, musik, appar och filer är på en dator. Alltså kan man inte alls säga lika mycket utifrån dem, som många tror, eller heller manipulera dem utan att någon ser det eller galet enkelt hittar något vattenmärke som någon försöker dölja. Det finns verkligen inget i dagens teknik och i våra kunskaper idag som ens tyder på att det kommer att bli möjligt att identifiera vem som skrivit en text. På ett sätt som håller juridiskt och vetenskapligt.

Så blicka framåt istället för bakåt. Det är där lösningarna på dessa problem ligger. Inte i skyttegraven. Det kriget är redan över, även om många inte begriper det. Det gläder mig därför att jag ser pedagoger (åtminstone på grundskola och gymnasier) redan börja fundera på hur de ska inkludera text-AIs i sin undervisning, istället för att ställa sig på barrikaderna och fäkta mot väderkvarnar.

Men den stora stridigheten har såklart ännu inte inletts. Mycket kan ske än.