Et netop publiceret dansk studie viser, at der kan være grund til at tøjle optimismen i forhold til, i hvilken grad brugen af kunstig intelligens (AI) kan aflaste de hårdt pressede radiologiske afdelinger på landets hospitaler.
Undersøgelsen, som er publiceret i tidsskriftet Radiology, viser, at kendskab til patientens sygdomshistorie og muligheden for at sammenligne med tidligere billeddiagnostiske undersøgelser giver radiologen et fortrin over for AI i forhold til at identificere luftvejssygdomme på røntgenbilleder af thorax.
Læge og ph.d.-studerende Louis Plesner, Herlev-Gentofte Hospital, har stået i spidsen for undersøgelsen. Han mener, at vurderingen af AI’s muligheder ofte har været baseret på værktøjets evne til alene at bekræfte eller afkræfte tilstedeværelsen af en enkelt sygdom, hvilket er en langt enklere opgave end den kliniske virkelighed, hvor patienterne ofte er langt mere komplekse. Tidligere sammenligninger af AI versus radiologer har heller ikke været baseret på et klinisk realistisk grundlag.
»Når mange tidligere studier har hævdet, at AI var radiologerne overlegen, var det baseret på, at radiologen alene havde forholdt sig til ét billede og ikke havde adgang til hverken sygdomshistorie eller tidligere billeddiagnostiske undersøgelser. Men i vores daglige arbejde, er fortolkningen af en billeddiagnostisk undersøgelse altid en kombination af de tre elementer,« siger Louis Plesner.
Både han og medforfatter til undersøgelsen, overlæge Michael Brun Andersen, er enige om, at AI vil blive markant bedre inden for en overskuelig årrække.
»Hidtil har AI-forskning været baseret på åbne data, og de private firmaer, som har udviklet AI-værktøjerne, har ikke kunnet trække på historiske billeder. AI vil kunne lære at sammenligne med tidligere billeder. Det kommer til at ske inden for få år,« siger Michael Brun Andersen.
Flere falsk positive svar
Studiet udgår fra Radiologisk AI Test Center på Herlev-Gentofte Hospital og er en del af det såkaldte SmartChest projekt. Undersøgelsen er baseret på resultaterne fra 2.040 patienter, der på fire hospitaler i Region Hovedstaden fik foretaget en røntgenundersøgelse for tre hyppigt forekommende sygdomme: Lungebetændelse eller lungeødem, pneumothorax (punkteret lunge) og væske omkring lungerne. Billederne blev efterfølgende vurderet af en gruppe på 72 radiologer og sammenholdt med resultaterne fra fire AI-systemer.
Den viser, at en AI-algoritme, som i eksperimentelle studier var bedre til at finde hudkræft, i den virkelige kliniske verden viste sig at være signifikant ringere end de lægelige specialister
Louis Plesner, læge, Herlev-Gentofte Hospital
Generelt havde de fire undersøgte AI-systemer en moderat til høj sensitivitet sammenlignet med radiologer i forhold til at identificere lungesygdommene.
»Men de producerede langt flere falsk-positive resultater end radiologerne gjorde, og deres ydeevne faldt, når der var flere eller små fund,» siger Louis Plesner.
For pneumothorax var sandsynligheden for, at et positivt svar var korrekt, mellem 56 og 96 pct. for de fire AI-systemer, sammenlignet med 96 pct. for radiologerne. Værst præsterede AI i forhold til at identificere lungebetændelse og lungeødem, hvor sandsynligheden for et korrekt, positivt svar var 40-50 pct.
»I en gruppe af ældre og komplekse patienter fandt AI med andre ord tegn på lungesygdom, hvor der fem til seks gange ud af ti ingen sygdom var. Det er ikke et AI-system, som autonomt kan bruges til at stille diagnoser,« siger Louis Plesner.
Som sorteringsværktøj ved billeder, som er normale eller kun har et enkelt fund, fungerer AI-algoritmerne glimrende, er Louis Plesner og Michael Brun Andersen enige om. Men bliver billederne mere komplekse, så kommer AI derimod til kort overfor radiologerne. Det rejser flere bekymrende spørgsmål, mener Michael Brun Andersen.
»Vi kan bruge AI til at frasortere de ultra-normale billeder og til at finde mønstre på enkeltstående røntgenbilleder. Men ved at fjerne de normale fra det case-mix af patienter, vi har på en normal dag, kan det påvirke læringen. Ved at bruge AI til at fjerne de normale, efterlader det de komplekse og mere tidskrævende. Så paradoksalt nok, kan brugen af AI også risikere at øge arbejdsbelastningen og øge risikoen for udbrændthed blandt de radiologer, vi nødigt vil undvære,« siger Michael Brun Andersen.
Fortsat i barndommen
AI brugt inden for radiologien er efter de to forfatteres vurdering fortsat på et tidligt og langt fra færdigt stadie. Samtidig er det vigtigt at fastholde et kritisk blik på resultaterne af eksperimentelle studier, hvor AI tilsyneladende er lægerne overlegne.
»Der er f.eks. netop publiceret en australsk undersøgelse i The Lancet, som har set på læger versus mobiltelefonbaseret AI til at diagnosticere hudkræft. Den viser, at en AI-algoritme, som i eksperimentelle studier var bedre til at finde hudkræft, i den virkelige kliniske verden viste sig at være signifikant ringere end de lægelige specialister,« siger Louis Plesner.
Med summen af evidens i hånden, er der fortsat grund til at bevare en sund skepsis, mener Michael Brun Andersen.
»Vi siger ikke, at AI-algoritmerne ikke kan bruges, men når vi gennemgår den samlede litteratur, og sammenholder med vores nye studie, er der fortsat ikke evidens for en betydende effekt i form af tidsbesparelse eller forbedret diagnostik med AI til røntgen af brystkassen, som er en af de mest almindelige røntgenundersøgelser i Danmark,« siger Michael Brun Andersen.