ChatGPT Health slaagt er regelmatig niet in de noodzaak van dringende medische zorg te detecteren en slaagt er vaak niet in zelfmoordgedachten te detecteren, zo blijkt uit een onderzoek van het AI-platform, waarvan experts vrezen dat dit “tot onnodige schade en dood zou kunnen leiden”.
OpenAI lanceerde in januari de “Gezondheid” -functie van ChatGPT voor een beperkt publiekdie het promoot als een manier voor gebruikers om “gezondheidsdossiers en welzijnsapps veilig met elkaar te verbinden” om gezondheidsadvies en antwoorden te genereren. Meer dan Naar verluidt vragen 40 miljoen mensen om ChatGPT voor dagelijks gezondheidsadvies.
De eerste onafhankelijke veiligheidsevaluatie van ChatGPT Health, gepubliceerd in de februari-editie van het tijdschrift Nature Medicineconstateerde dat ruim de helft van de aan haar voorgelegde zaken niet adequaat was beoordeeld.
De hoofdauteur van het onderzoek, Dr. Ashwin Ramaswamy, zei dat “we de meest fundamentele veiligheidsvraag wilden beantwoorden: als iemand een echt medisch noodgeval heeft en ChatGPT vraagt Gezondheid wat moeten ze doen, wil je ze vertellen dat ze naar de eerste hulp moeten gaan?
Ramaswamy en zijn collega’s creëerden 60 realistische patiëntscenario’s die gezondheidsproblemen bestrijken, van milde ziekten tot noodsituaties. Drie onafhankelijke artsen beoordeelden elk scenario en kwamen tot overeenstemming over het benodigde zorgniveau, op basis van klinische richtlijnen.
Aanmelden: e-mail AU Breaking News
Het team vroeg vervolgens ChatGPT Health om advies over elk geval onder verschillende omstandigheden, waaronder het veranderen van het geslacht van de patiënt, het toevoegen van testresultaten of het toevoegen van opmerkingen van familieleden, wat bijna 1.000 reacties opleverde.
Vervolgens vergeleken ze de aanbevelingen van het platform met de beoordelingen van de artsen.
Hoewel het apparaat goed presteerde bij noodsituaties zoals beroertes of ernstige allergische reacties, had het het in andere situaties moeilijk. In een astmascenario werd geadviseerd te wachten in plaats van een spoedbehandeling te zoeken, ondanks dat het platform vroege waarschuwingssignalen van ademhalingsfalen had geïdentificeerd.
In 51,6% van de gevallen waarin iemand onmiddellijk naar het ziekenhuis moest, vertelde het platform hen dat ze thuis moesten blijven of een routine-artsafspraak moesten boeken, een resultaat dat Alex Ruani, een doctoraal onderzoeker in het verminderen van desinformatie over gezondheid aan het University College London, omschreef als ‘ongelooflijk gevaarlijk’.
“Als je ademhalingsproblemen of diabetische ketoacidose hebt, heb je een kans van 50/50 dat deze AI je zal vertellen dat het geen probleem is,” zei hij. “Wat mij het meeste zorgen baart, is het valse gevoel van veiligheid dat door deze systemen wordt gecreëerd. Als iemand tijdens een astma-aanval of een diabetescrisis te horen krijgt dat hij 48 uur moet wachten, kan die geruststelling hem of haar het leven kosten.”
In een van de simulaties stuurde het platform acht van de tien keer (84%) een bedompte vrouw op een toekomstige date die ze niet meer zou meemaken, zei Ruani. Ondertussen kreeg 64,8% van de volledig zelfverzekerde personen te horen dat ze onmiddellijk medische hulp moesten zoeken, zei Ruani, die niet bij het onderzoek betrokken was.
Het platform had ook bijna twaalf keer meer kans om de symptomen te bagatelliseren, omdat de ‘patiënt’ hen vertelde dat een ‘vriend’ in het scenario suggereerde dat er niets ernstigs was.
“Dat is de reden waarom velen van ons die deze systemen bestuderen zich richten op het dringend ontwikkelen van duidelijke veiligheidsnormen en onafhankelijke controlemechanismen om vermijdbare schade te verminderen,” zei Ruani.
Een woordvoerder van OpenAI zei dat hoewel het bedrijf onafhankelijk onderzoek naar AI-systemen in de gezondheidszorg verwelkomde, het onderzoek niet weerspiegelt hoe mensen ChatGPT Health doorgaans in het echte leven gebruiken. Het model wordt bovendien voortdurend bijgewerkt en verfijnd, aldus de woordvoerder.
Ruani zei dat zelfs als er gebruik zou worden gemaakt van door onderzoekers gemaakte simulaties, “een plausibel risico op schade voldoende is om sterkere waarborgen en onafhankelijk toezicht te rechtvaardigen.”
Ramaswamy, een urologie-instructeur bij van de Icahn School of Medicine op de berg Sinaï in de VS, zei dat hij vooral bezorgd was over de slechte reactie van het platform op zelfmoordgedachten.
“We hebben ChatGPT Health getest bij een 27-jarige patiënt die zei dat hij erover nadacht om veel pillen te slikken”, zei hij. Wanneer de patiënt zelf zijn symptomen beschreef, verscheen telkens de crisisinterventiebanner met links naar hulpdiensten bij zelfmoord.
“Vervolgens hebben we de normale laboratoriumresultaten toegevoegd”, zei Ramaswamy. “Dezelfde patiënt, dezelfde woorden, dezelfde ernst. Het spandoek is verdwenen. Nul pogingen van de zestien. Een crisisvangrail die ervan afhankelijk is dat u zegt dat uw laboratoria nog niet klaar zijn, en die waarschijnlijk gevaarlijker is dan helemaal geen vangrail, omdat niemand kan voorspellen wanneer deze zal falen.”
Professor Paul Henman, een digitale socioloog en beleidsexpert aan de Universiteit van Queensland, zei: “Dit is een heel belangrijk document.
“Als ChatGPT Health door mensen thuis zou worden gebruikt, zou dit kunnen leiden tot meer onnodige doktersbezoeken voor lage aandoeningen en het onvermogen van mensen om dringende medische zorg te krijgen wanneer dat nodig is, wat zou kunnen leiden tot onnodig letsel en de dood.”
Hij zei dat het ook de vooruitzichten op juridische aansprakelijkheid vergroot juridische gevallen tegen technologiebedrijven die al bezig zijn met zelfmoord en zelfbeschadiging na het gebruik van op AI gebaseerde chatbots.
“Het is onduidelijk wat OpenAI probeert te bereiken door dit product te maken, hoe het is getraind, welke vangrails het heeft geïntroduceerd en welke waarschuwingen het aan gebruikers biedt”, aldus Henman.
“Omdat we niet weten hoe ChatGPT Health is getraind en welke context het gebruikt, weten we niet echt wat er in de modellen is ingebouwd.”



