Hur ense är egentligen våra AI-modeller?

Beyond Benchmarks: Frontier LLM Disagreement on Fact-Checks

Artikeln undersöker hur mycket de främsta AI-modellerna faktiskt är överens när de faktagranskar verkliga påståenden. Resultatet är ganska uppseendeväckande: de är oense i två tredjedelar av fallen.

Huvudresultat

Forskarna lät fem ledande AI-modeller bedöma 1 000 verkliga påståenden som användare skickat in till en faktagranskningstjänst.

Modellerna var:

GPT-5.4
Claude Opus 4.7
Gemini 3 Pro
Gemini 3 Pro + Search
Sonar Pro

1. AI-modellerna är ofta oense

På 67 % av alla påståenden gav modellerna inte samma svar. Det betyder att minst en modell tyckte annorlunda än majoriteten, eller att ingen majoritet ens kunde bildas.

Bara 33 % av påståendena gav exakt samma bedömning från alla fem modeller.

2. Oenigheten är ofta stor

I 34 % av fallen låg modellerna minst två steg ifrån varandra i bedömningsskalan.

Exempel:

En modell: ”Sant”
En annan: ”Missvisande”

I 21 % av fallen fanns till och med situationer där en modell svarade ”Sant” och en annan ”Falskt” på samma påstående.

3. Mittenkategorierna är problemet

Modellerna verkar relativt bekväma med tydliga fall:

Sant
Falskt

Men de har mycket svårare för:

Mestadels sant
Missvisande

När majoriteten landade i dessa mellankategorier var nästan ingen grupp helt enig.

4. Olika modeller har olika personligheter

Studien visar att modellerna verkar ha olika ”bedömningsstilar”.

Exempel:

Gemini placerade väldigt många påståenden i ”Sant” eller ”Falskt”.
Claude använde oftare mellanlägen som ”Mestadels sant” och ”Missvisande”.

Det betyder att svaret du får delvis beror på vilken AI du frågar.

5. Detta är inte benchmark-tester

Det viktiga med studien är att den inte använder klassiska AI-benchmarks.

Istället används:

verkliga användarfrågor
aktuella påståenden från de senaste månaderna
frågor som sannolikt inte fanns i modellernas träningsdata

Forskarna menar därför att resultaten bättre speglar hur AI fungerar i verkligheten än traditionella tester.

AI ger ofta ett intryck av säker kunskap, men bakom kulisserna finns betydande oenighet även mellan de starkaste modellerna.

Studien säger inte att AI är dåligt på fakta. Den visar snarare att:

sanning är svårare än benchmark-resultat antyder,
olika AI-system tolkar evidens olika,
och att en ensam AI-modell inte bör betraktas som en slutgiltig auktoritet i komplexa frågor.

Om fem av världens bästa AI-system ofta inte kan enas om vad som är sant, blir frågan inte bara ”Vad är sant?” utan också ”Vem litar vi på när experterna – eller maskinerna – inte är överens?”

Vad tycker du? Dela dina tankar :) Avbryt svar

Följ och delta i den syntopiska debatten på Facebook och Linkedin