Steeds meer AI modellen kunnen omgaan met afbeeldingen. Ik heb ze eens getest op een eenvoudige ‘zoek de verschillen’ puzzel.


Testopzet

Ik zette zes modellen tegen elkaar. Twee van OpenAI (gpt-4o en gpt-4o-mini), twee van Anthropic(claude-3-opus en claude-3.5-sonnet) en twee van Google (gemini-1.5-pro en gemini-1.5-flash).

Ze kregen allemaal dit plaatje te zien:

verschillen1a

En natuurlijk het twee de plaatje erbij. Zoek zelf maar eens de verschillen. Het zijn er 12.

verschillen1b

De plaatjes komen uit het online tijdschrift van ASVZ.

Resultaten

Het eerste dat opviel is dat de resultaten nogal onregelmatig waren. De ene keer vond een model een ander aantal verschillen dan de andere keer. Ik ga dus maar uit van gemiddelden.

Het tweede dat me op- en tegenviel was dat LLM’s eigenlijk heel slecht zijn in zo’n simpele taak. Gemiddeld vonden ze maar 1,4 van de 12 verschillen.

En dan de verschillen tussen de modellen zelf:
De winnaar is Claude-3.5-Sonnet van Anthropic (sowieso een favoriet) die het met 3,4 verschillen gemiddeld een stuk beter doet dan zijn oudere en grotere broer Claude-3-Opus met maar 0,6 verschillen gemiddeld.

OpenAI kwam tweede met een score van 2,4 voor GPT-4o en 1,6 voor GPT-4o-mini.

Google stelt nogal teleur met zijn Gemini modellen. Het simpele model Gemini-1.5-Flash wist af en toe nog een verschil te vinden maar hun flagship model Gemini-1.5-Pro bleef volhouden dat het een trucvraag was omdat er helemaal geen verschillen zijn.

Conclusie

3,4 (gemiddelde) van de 12 verschillen gevonden valt nogal tegen voor de winnaar. Ik blijf deze test (en andere moeilijke prompts die ik zoal tegen kom) geregeld runnen tegen nieuwe en verbeterde modellen. Wordt vervolgd dus…


Vorige post: LLM denkt als Systeem 1