Beste AI-modellen voor medische diagnose

Vergelijking & klinische inzichten

In het huidige zorglandschap is snelle en nauwkeurige medische diagnose van groot belang. AI-modellen spelen een steeds vitalere rol in het ondersteunen van medici bij deze essentiële taak. Dit artikel evalueert toonaangevende AI-modellen voor deze diagnoses. Het laat zien hoe het o1-model van OpenAI uitblinkt in abductieve redenatie voor medische diagnoses, vooral in complexe en onduidelijke gevallen.

ai model vergelijking medische diagnose

18 september 2024 11 minuten lezen

Waarom abductief redeneren belangrijk is voor diagnostische AI

Abductieve redenatie is cruciaal in cases waar patiëntgegevens incompleet of onduidelijk zijn. Het houdt in dat plausibele diagnoses worden gerangschikt en verdere tests of behandelingen worden voorgesteld. Deze aanpak helpt clinici om onzekerheden in patiëntsymptomen en complexe besluitvorming te beheren, wat uiteindelijk de nauwkeurigheid verbetert en naadloos integreert in klinische workflows.

Hoe we AI-modellen voor medische diagnoses vergeleken

We hebben modellen zoals o1 mini, GTP-4o mini, Copilot en Gemini geëvalueerd door hun prestaties te analyseren over 10 gedetailleerde patiëntcases. Deze cases omvatten symptomen, medische geschiedenis, risicofactoren en testresultaten. Voor de Windows Copilot hebben we een nauwkeurigere stijlinstelling gekozen om de nauwkeurigheid te verbeteren.

Onze aanpak was een zero-shot prompting, waarbij we gebruikmaakten van de bestaande kennisbasis van de modellen in een gestructureerd, case-gebaseerd formaat. De evaluatie bestond uit 13 specifieke criteria om de effectiviteit van elk AI-model te meten.

Voorbeeldpromptcase
Geef een diagnose voor deze patiëntcase: duizeligheid, hoofdpijn en koorts. Geschiedenis: Een 28-jarige man presenteert met duizeligheid, ernstige hoofdpijn en een koorts (38°C) die 5 dagen aanhoudt. Hij is recent gaan kamperen in een gebied waar teken veel voorkomen.
Risicofactoren: recente buitenshuisactiviteiten, mogelijke tekenblootstelling.
Tests:
- Volledig bloedbeeld: milde thrombocytopenie (laag aantal bloedplaatjes).
- Lyme-ziekte serologie: positief voor Lyme-ziekte-antistoffen.
- Vestibulaire tests: normaal, wat een binnenoorzaak voor duizeligheid uitsluit.

Resultaten AI-diagnosemodel

Nauwkeurigheid

  • GTP-4o mini: Biedt doorgaans nauwkeurige diagnoses voor eenvoudige en goed gedefinieerde cases (bijv. PID, posttraumatische epilepsie). In meer complexe gevallen (bijv. gevorderde longkanker, neuroborreliosen) vereenvoudigt het model vaak of mist het nuances.
  • Copilot: Biedt over het algemeen nauwkeurige diagnoses in veelvoorkomende medische cases. In meer complexe gevallen biedt het echter minder specificiteit en diepgang, waardoor het minder betrouwbaar is dan o1 mini.
  • Gemini: Biedt nauwkeurige diagnoses voor een breed scala aan gevallen en presteert vaak iets beter dan Copilot. Het gaat goed om met veelvoorkomende en sommige gematigd complexe aandoeningen, maar mist de fijn afgestemde nauwkeurigheid voor zeldzame of zeer genuanceerde gevallen.
  • o1 mini: Biedt consistent de meest nauwkeurige en gedetailleerde diagnoses, zelfs in complexe en onduidelijke gevallen. Het identificeerde correct zeldzame en uitdagende diagnoses, zoals gevorderde niet-kleincellige longkanker (NSCLC) en neuroborreliosen.

Hypothesegeneratie en evaluatie

  • GTP-4o mini: Heeft de neiging om zich op een enkele diagnose te concentreren en verkent zelden alternatieve hypothesen. Deze aanpak werkt goed in duidelijke gevallen, maar faalt in onduidelijke of complexe cases.
  • Copilot: Genereert redelijke hypothesen, maar richt zich voornamelijk op de meest waarschijnlijke, zonder minder voor de hand liggende mogelijkheden grondig te overwegen.
  • Gemini: Presteert vergelijkbaar met Copilot, maar biedt af en toe een iets bredere evaluatie van alternatieven. Het is over het algemeen effectief, maar excelleert niet in het genereren van meerdere concurrerende hypothesen.
  • o1 mini: Biedt consistent de meest grondige hypothesegeneratie, verkent een breed scala aan mogelijkheden en beoordeelt elk daarvan grondig. Dit was duidelijk in gevallen met complexe presentaties, zoals gevorderde longkanker en neuroborreliosen.

Omgaan met ambiguïteit en onzekerheid

  • GTP-4o mini: Heeft moeite met ambiguïteit en committeert zich vaak aan een enkele diagnose zonder onzekerheden aan te pakken. Het presteert het best wanneer patiëntgegevens compleet en duidelijk zijn.
  • Copilot: Gaat om met gematigde niveaus van onzekerheid, maar mist diepgang in onduidelijke gevallen. Het biedt meestal zelfverzekerde diagnoses zonder de complexiteit te erkennen.
  • Gemini: Beheert onzekerheid redelijk goed in typische gevallen, maar verkent alternatieve diagnoses niet in detail wanneer symptomen onduidelijk zijn.
  • o1 mini: Het beste in het omgaan met onzekerheid door meerdere diagnoses te overwegen en uit te leggen waarom bepaalde aandoeningen minder waarschijnlijk zijn. Het excelleert in gevallen waar patiëntgegevens incompleet of onduidelijk zijn, zoals gevorderde gemetastaseerde longkanker en mogelijke neuroborreliosen.

Differentiële diagnose

  • GTP-4o mini: Biedt minimale verkenning van differentiële diagnoses en focust op de meest voor de hand liggende optie.
  • Copilot: Biedt basisdifferentiële diagnoses, maar mist vaak breedte en richt zich meestal op een of twee waarschijnlijke mogelijkheden.
  • Gemini: Biedt enige verkenning van differentiële diagnoses, vooral in meer complexe gevallen, maar rangschikt over het algemeen minder alternatieven dan o1 mini.
  • o1 mini: Biedt consistent de breedste en meest gedetailleerde differentiële diagnoses, rangschikt meerdere mogelijkheden en legt hun relevantie uit. Dit was bijzonder sterk in gevallen zoals idiopathische intracraniale hypertensie (IIH) en posttraumatische epilepsie.

Keten-van-denken redenatie

  • GTP-4o mini: Biedt logische maar vereenvoudigde redenatie, vaak zonder de stap-voor-stap aanpak die nodig is voor complexe gevallen.
  • Copilot: Biedt duidelijke maar basisredenatie, geschikt voor eenvoudige gevallen, maar mist diepgang in meer complexe cases.
  • Gemini: Biedt redelijke keten-van-denken redenatie, hoewel niet zo gedetailleerd of multi-stap als o1 mini. Het presteert over het algemeen goed in typische gevallen.
  • o1 mini: Biedt de meest gedetailleerde en logische redenatie, met duidelijke stap-voor-stap uitleg die symptomen, testresultaten en diagnoses verbindt. Deze aanpak was bijzonder waardevol in complexe gevallen zoals gemetastaseerde longkanker en IIH.

Klinische relevantie

  • GTP-4o mini: Biedt standaard klinische aanbevelingen die overeenkomen met richtlijnen, maar mist diepgang in het voorstellen van geavanceerde behandelingen of tests.
  • Copilot: Biedt relevante en praktische klinische aanbevelingen, maar stelt geen geavanceerde of gepersonaliseerde behandelingsopties voor.
  • Gemini: Biedt klinisch relevante aanbevelingen, maar mist de geavanceerde behandelingssuggesties en gedetailleerde follow-up plannen die o1 mini biedt.
  • o1 mini: Biedt de meest gedetailleerde en klinisch relevante behandelingsaanbevelingen, inclusief geavanceerde therapieën (bijv. moleculaire testen, immunotherapie) en gepersonaliseerde zorgplannen. Het sluit consistent aan bij klinische richtlijnen, terwijl het diepgang biedt in behandelingsopties, vooral in complexe gevallen zoals NSCLC.

Interpretatie

  • GTP-4o mini: Biedt duidelijke maar te vereenvoudigde uitleg, vaak zonder het detailniveau dat nodig is in complexe gevallen.
  • Copilot: Biedt duidelijke en begrijpelijke redenatie, maar kan kort zijn in zijn uitleg, vooral in complexe of onduidelijke cases.
  • Gemini: Biedt redelijk duidelijke en beknopte uitleg, maar mist de diepgang van o1 mini.
  • o1 mini: Biedt de duidelijkste en meest gedetailleerde uitleg, waarbij complexe gevallen op een gemakkelijke manier worden uiteengezet en begrepen. Dit was bijzonder nuttig in risicovolle gevallen zoals gemetastaseerde longkanker en gevorderde neuroborreliosen.

Aanpassingsvermogen

  • GTP-4o mini: Heeft moeite met aanpassing en biedt gegeneraliseerde diagnoses en behandelingen zonder veel maatwerk voor individuele patiënten.
  • Copilot: Biedt enige aanpasbaarheid, maar volgt meestal een gestandaardiseerde aanpak, zonder maatwerk voor unieke patiëntpresentaties.
  • Gemini: Redelijk aanpasbaar, biedt enige mate van maatwerk op basis van patiëntgeschiedenis, maar past zich niet zo goed aan als o1 mini.
  • o1 mini: Het meest aanpasbaar, stemt diagnoses en behandelingen af op basis van individuele patiëntgeschiedenissen, risicofactoren en specifieke testresultaten. Dit was duidelijk in gevallen met complexe comorbiditeiten of chronische aandoeningen.

Comorbiditeiten

  • Het vermogen om complexe gevallen met meerdere aandoeningen te beheren.
  • GTP-4o mini: Beheert comorbiditeiten niet goed, focust meestal op een enkele diagnose zonder meerdere aandoeningen aan te pakken.
  • Copilot: Beheert comorbiditeiten redelijk goed in veelvoorkomende gevallen, maar mist diepgang in meer complexe presentaties.
  • Gemini: Biedt enige overweging van comorbiditeiten, vooral in gematigd complexe gevallen, maar gaat er niet zo goed mee om als o1 mini.
  • o1 mini: Pakt consistent comorbiditeiten en gerelateerde complicaties aan en biedt uitgebreide beheersplannen voor meerdere aandoeningen. Dit was bijzonder duidelijk in gevallen zoals gevorderde longkanker met cachexie en anemie.

Robuustheid

  • GTP-4o mini: Presteert goed in duidelijke gevallen, maar heeft moeite als gegevens onvolledig of ambigu zijn.
  • Copilot: Redelijk robuust in het omgaan met typische gevallen, maar presteert niet goed in zeer complexe cases met onvolledige gegevens.
  • Gemini: Biedt gemiddelde robuustheid, gaat om met enige complexiteit maar heeft moeite met zeer genuanceerde of onduidelijke gevallen.
  • o1 mini: Het meest robuust, gaat consistent om met onvolledige of ruisachtige gegevens en biedt duidelijke diagnoses in complexe en onduidelijke situaties. Dit was evident in gevallen zoals NSCLC met metastase en neuroborreliosen.

Vergelijkende prestaties

  • GTP-4o mini: Biedt betrouwbare maar basisprestaties, geschikt voor veelvoorkomende gevallen maar niet vergelijkbaar met expertniveau besluitvorming in complexe cases.
  • Copilot: Consistent en betrouwbaar in veelvoorkomende medische cases, maar bereikt niet de expertniveau prestaties van o1 mini in meer complexe gevallen.
  • Gemini: Biedt consistente prestaties in routinematige gevallen en gematigd complexe situaties, maar mist de geavanceerde redenatie van o1 mini.
  • o1 mini: Presteert consistent beter dan andere modellen, biedt expertniveau prestaties in het omgaan met complexe en onduidelijke gevallen, met hoge consistentie in alle patiëntcases.

Gebruikerservaring

  • GTP-4o mini: Snel en gemakkelijk te gebruiken, maar mist diepgang, waardoor het meer geschikt is voor eenvoudige gevallen.
  • Copilot: Biedt een goede balans tussen bruikbaarheid en duidelijkheid, waardoor het geschikt is voor typische klinische workflows.
  • Gemini: Biedt een gebruiksvriendelijke ervaring met duidelijke en beknopte uitleg, die goed integreert in klinische workflows.
  • o1 mini: Hoewel gedetailleerd, blijft het gebruiksvriendelijk en biedt het actiegerichte aanbevelingen, hoewel de hoeveelheid informatie overweldigend kan zijn in eenvoudigere gevallen.

Model efficiëntie

  • GTP-4o mini: Meest efficiënt in termen van snelheid, maar biedt minder diepgang en nauwkeurigheid in complexe gevallen.
  • Copilot: Biedt redelijke efficiëntie, met een balans tussen snelheid en praktische aanbevelingen.
  • Gemini: Biedt goede efficiëntie met een balans tussen detail en snelheid.
  • o1 mini: Het minst efficiënt door het niveau van detail en diepgang, maar deze afweging is acceptabel in complexe gevallen waar nauwkeurigheid en grondigheid cruciaal zijn.

Vergelijking per model: Welke AI presteert het best in medische diagnoses?

  1. o1 mini: Komt naar voren als het beste model voor medische diagnoses, vooral bedreven in het omgaan met complexe, onduidelijke gevallen. Het excelleert in het genereren van gedetailleerde en nauwkeurige diagnoses, biedt een uitgebreide evaluatie van mogelijke aandoeningen en beoordeelt differentiële diagnoses.
  2. Gemini: Bekend om zijn gebruiksvriendelijkheid en efficiëntie, presteert Gemini goed in duidelijke klinische scenario's. Het tekortschiet echter in complexere gevallen, waarbij de diepgang van o1 mini ontbreekt.
  3. Copilot: Dit model biedt betrouwbare, praktische diagnoses in routinematige medische omgevingen, maar heeft moeite met diepere diagnostische uitdagingen en abductieve redenatie in ingewikkelde gevallen.
  4. GTP-4o mini: Snel en eenvoudig, ideaal voor ongecompliceerde gevallen waarin de diagnose duidelijk is. Zijn eenvoud is echter een beperking in meer complexe diagnostische situaties.

O1 Mini in actie: Voorbeeld differentiële diagnose in de praktijk

In een geval met symptomen van duizeligheid, hoofdpijn en koorts (idem voorbeeldprompt) excelleert o1 mini in differentiële diagnoses door grondig meerdere aandoeningen te overwegen, naast de meest waarschijnlijke diagnose van neuroborreliosen:

  • Anaplasmose: Veroorzaakt door Anaplasma phagocytophilum van Ixodes teken, presenteert zich met koorts, hoofdpijn en spierpijn, opmerkelijk door de afwezigheid van Lyme-serologie.
  • Meningitis: Bacterieel of viraal, geïdentificeerd door ernstige hoofdpijn, koorts en nekstijfheid, gedifferentieerd via resultaten van een lumbale punctie.
  • Viraal encefalitis: Symptomen zijn onder andere veranderde mentale status en aanvallen, met diagnose bevestigd door specifieke virale tests.
  • Benigne paroxismale positieduizeligheid (BPPV): Gekenmerkt door duizeligheid uitgelokt door hoofdbewegingen, geïdentificeerd met Dix-Hallpike-manoeuvres.
  • Vestibulaire neuritis/labyrinthitis: Presenteert acute duizeligheid en onevenwichtigheid, bevestigd door vestibulaire testen.
  • Systeeminfecties: Zoals griep of Epstein-Barr-virus, met algemene symptomen zoals koorts en vermoeidheid, onderscheiden door serologische tests en de afwezigheid van tekenblootstelling.

Belangrijkste conclusies: Het juiste AI-model kiezen voor klinische diagnose

Het kiezen van het juiste AI-model hangt sterk af van de specifieke behoeften van de klinische omgeving en de complexiteit van een case. Het o1 mini model is bijzonder waardevol in omgevingen waar diepgaande analyses en uitgebreid patiëntenbeheer essentieel zijn. In tegenstelling tot modellen zoals Gemini en Copilot, die beter geschikt zijn voor cases met minder complexiteit.

On-the-job AI coaching »