I en dugfrisk videnskabelig artikel i Lancet Digital Health bringes en undersøgelse, som jeg personligt har ventet længe på. Forskerne tager os nemlig et spadestik dybere i svaret på, om sprogmodellerne (LLM) kan bruges til at svare på patienters kliniske spørgsmål.
Vi ved fra tidligere undersøgelser, at ChatGPT kan svare på kliniske spørgsmål med en høj kvalitet og vurderet empati i svarene, endda om alvorlige kræftsygdomme. Vi ved også, at mange patienter selv søger sundhedsinformation online, fry gælder omkring 70 pct. af danskerne, og det må forventes at mange i fremtiden vil bruge chatbots i en eller anden udstrækning til dette.
Tilbage til studiet. Det viste at LLM-assistance kan reducere lægers arbejdsbyrde, gøre lægers svar mere homogene og øge informationsmængden og den pædagogiske værdi af svarene. Kvaliteten af LLM-genereret indhold blev generelt vurderet acceptabelt med minimal risiko for skade.
Dog viste forskerne også, at LLM’er muligvis uventet ændrer klinisk beslutningstagning – ja, de kunne få lægen til at ændre beslutning! – og dermed er det ikke beslutnings-støtte, men LLM-beslutnings-tagen, og det er ikke hensigten på nuværende tidspunkt.
Siden udgivelsen af ChatGPT i november 2022, har interessen for feltet eksploderet. Sprogmodellerne er nærmest blevet synonym med kunstig intelligens, selv om moderne AI er meget mere end generativ AI.
Sprogmodellernes spidskompetencer
Tidligere på foråret var jeg så heldig at bruge tre dage sammen med en god snes praktiserende læger for at udforske anvendelsesområderne for denne nye teknologi i primærsektoren. Det var nogle intense dage med mange diskussioner om fordele og ulemper, men alle var dog enige om, at teknologien kan tjene os indenfor flere områder, ligesom vi var enige om områder, hvor den er ubrugelig.
Vi havde ikke gode erfaringer med EKG-analyse, ligesom den også havde svært ved at ekstrahere data fra et billede af en medicinliste eller blodprøver
Vi arbejdede med GPT3,5, GPT4, Gemini og CoPilot. Overordnet var der stor forskel på performance for betalings-og gratisudgaverne, hvilket er bemærkelsesværdigt, da de fleste patienter forventes at bruge gratisudgaven.
Med lægens briller var der flere interessante nedslagspunkter. Nemlig at den er rigtig god til at skrive lokale instrukser, fraser, delegations-og juridiske rammeaftaler med samarbejdspartnere (f.eks. plejehjem). Derudover var den god til at lave resuméer, differentialdiagnostisk sparring og medicin-sanering-ud/optrapning mm.
En af sprogmodellernes spidskompetencer er at forkorte lange tekster, og denne kompetence vil være særdeles skattet som bistand til besvarelser af attester, når vi får en sikker udgave vi kan bruge til dette arbejde.
Mere gennemsigtighed
Ingen af chatbottenes svar kunne bruges fuldstændigt uredigeret, og det anbefales altid at der er en specialist med i loopet, ligesom det naturligvis ikke kan bruges til patientfølsomme data (endnu).
De nyeste modeller er multimodale og kan analysere og skabe billeder, hvilket vi også fik stress-testet. Sprogmodellernes billede-output kan på nuværende tidspunkt ikke anvendes i sundhedsvæsenet, men som billede-input er der flere muligheder. Herunder f.eks. til beskrivelse og differentialdiagnostik til hududslæt, hvor specielt GPT4 excellerede.
Vi havde ikke gode erfaringer med EKG-analyse, ligesom den også havde svært ved at ekstrahere data fra et billede af en medicinliste eller blodprøver.
Vi ved at EPIC samarbejder med OpenAI om at integrere sprogmodellerne i journalen. For at bringe værdi kræver brugen i klinisk praksis, at der er behov for mere gennemsigtighed fra it-leverandører omkring brugen af sprogmodeller og deres prompting-metoder, hvis de skal bruges til at svare på patientspørgsmål.
Vi bliver altså nødt til at evaluere LLM’er som enhver anden ‘software as a medical device’.
Hvis du vil læse mere om det her uddyber vi det i vores kommende bog her: https://www.saxo.com/dk/doktor-hansens-nye-praksis_bog_9788773391716