Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks
Artikeln undersöker hur mycket de främsta AI-modellerna faktiskt är överens när de faktagranskar verkliga påståenden. Resultatet är ganska uppseendeväckande: de är oense i två tredjedelar av fallen.
Huvudresultat
Forskarna lät fem ledande AI-modeller bedöma 1 000 verkliga påståenden som användare skickat in till en faktagranskningstjänst.
Modellerna var:
- GPT-5.4
- Claude Opus 4.7
- Gemini 3 Pro
- Gemini 3 Pro + Search
- Sonar Pro
1. AI-modellerna är ofta oense
På 67 % av alla påståenden gav modellerna inte samma svar. Det betyder att minst en modell tyckte annorlunda än majoriteten, eller att ingen majoritet ens kunde bildas.
Bara 33 % av påståendena gav exakt samma bedömning från alla fem modeller.
2. Oenigheten är ofta stor
I 34 % av fallen låg modellerna minst två steg ifrån varandra i bedömningsskalan.
Exempel:
- En modell: ”Sant”
- En annan: ”Missvisande”
I 21 % av fallen fanns till och med situationer där en modell svarade ”Sant” och en annan ”Falskt” på samma påstående.
3. Mittenkategorierna är problemet
Modellerna verkar relativt bekväma med tydliga fall:
- Sant
- Falskt
Men de har mycket svårare för:
- Mestadels sant
- Missvisande
När majoriteten landade i dessa mellankategorier var nästan ingen grupp helt enig.
4. Olika modeller har olika personligheter
Studien visar att modellerna verkar ha olika ”bedömningsstilar”.
Exempel:
- Gemini placerade väldigt många påståenden i ”Sant” eller ”Falskt”.
- Claude använde oftare mellanlägen som ”Mestadels sant” och ”Missvisande”.
Det betyder att svaret du får delvis beror på vilken AI du frågar.
5. Detta är inte benchmark-tester
Det viktiga med studien är att den inte använder klassiska AI-benchmarks.
Istället används:
- verkliga användarfrågor
- aktuella påståenden från de senaste månaderna
- frågor som sannolikt inte fanns i modellernas träningsdata
Forskarna menar därför att resultaten bättre speglar hur AI fungerar i verkligheten än traditionella tester.
AI ger ofta ett intryck av säker kunskap, men bakom kulisserna finns betydande oenighet även mellan de starkaste modellerna.
Studien säger inte att AI är dåligt på fakta. Den visar snarare att:
- sanning är svårare än benchmark-resultat antyder,
- olika AI-system tolkar evidens olika,
- och att en ensam AI-modell inte bör betraktas som en slutgiltig auktoritet i komplexa frågor.
Om fem av världens bästa AI-system ofta inte kan enas om vad som är sant, blir frågan inte bara ”Vad är sant?” utan också ”Vem litar vi på när experterna – eller maskinerna – inte är överens?”
Vad tycker du? Dela dina tankar :)