Home Nieuws Waarom het van cruciaal belang is om verder te gaan dan al...

Waarom het van cruciaal belang is om verder te gaan dan al te geaggregeerde machine learning-statistieken | MIT-nieuws

1
0
Waarom het van cruciaal belang is om verder te gaan dan al te geaggregeerde machine learning-statistieken | MIT-nieuws

MIT-onderzoekers hebben belangrijke voorbeelden geïdentificeerd van machine learning-modellen die falen wanneer deze modellen worden toegepast op andere gegevens dan waarop ze zijn getraind. Dit roept vragen op over de noodzaak van testen telkens wanneer een model in een nieuwe context wordt ingezet.

“We hebben laten zien dat zelfs als je modellen traint op grote hoeveelheden data en het beste gemiddelde model kiest, dit ‘beste model’ in een nieuwe context misschien wel het slechtste model is voor 6-75% van de nieuwe data”, zegt Marzyeh Ghassemi, universitair hoofddocent bij MIT’s Department of Electrical and Computer Engineering (EECS), lid van het Institute for Medical Engineering and Science, en hoofdonderzoeker bij het Laboratory for Information and Decision Systems.

In een paper dat in december op de conferentie Neural Information Processing Systems (NeurIPS 2025) werd gepresenteerd, wijzen onderzoekers erop dat modellen die zijn getraind om ziekten effectief te diagnosticeren via röntgenfoto’s van de borst in bijvoorbeeld het ene ziekenhuis, gemiddeld als effectief kunnen worden beschouwd in een ander ziekenhuis. Uit de prestatie-evaluatie van de onderzoekers bleek echter dat enkele van de best presterende modellen in het eerste ziekenhuis de slechtste waren bij maar liefst 75% van de patiënten in het tweede ziekenhuis, hoewel wanneer alle patiënten in het tweede ziekenhuis worden samengevoegd, de hoge gemiddelde prestatie dit falen maskeert.

Hun resultaten tonen aan dat hoewel valse correlaties – een eenvoudig voorbeeld hiervan is wanneer een machinaal leersysteem, nadat het niet veel koeien op het strand heeft “gezien” een foto van een koe die naar het strand gaat eenvoudigweg vanwege zijn achtergrond als een orka classificeert – verondersteld wordt te worden verzacht door simpelweg de prestaties van het model op geobserveerde gegevens te verbeteren, ze in werkelijkheid nog steeds voorkomen en een risico blijven voor de betrouwbaarheid van een model in nieuwe contexten. In veel gevallen, inclusief gebieden die door onderzoekers zijn onderzocht, zoals röntgenfoto’s van de borstkas, histopathologische beelden van kanker en detectie van haatzaaiende uitlatingen, zijn dergelijke valse correlaties veel moeilijker te detecteren.

In het geval van een medisch diagnosemodel dat is getraind op röntgenfoto’s van de borstkas, kan het model bijvoorbeeld hebben geleerd een specifiek, irrelevant teken op een röntgenfoto van een ziekenhuis te correleren met een bepaalde pathologie. In een ander ziekenhuis waar geen markering wordt gebruikt, wordt die pathologie mogelijk niet gedetecteerd.

Eerder onderzoek door de groep van Ghassemi heeft aangetoond dat modellen factoren als leeftijd, geslacht en ras ten onrechte kunnen correleren met medische uitkomsten. Als een model bijvoorbeeld was getraind op röntgenfoto’s van de borstkas van meer oudere mensen met een longontsteking en niet zoveel röntgenfoto’s van jongere mensen ‘zag’, zou het kunnen voorspellen dat alleen oudere patiënten een longontsteking hebben.

“We willen dat de modellen leren de anatomische kenmerken van de patiënt te observeren en vervolgens op basis daarvan een beslissing te nemen”, zegt Olawale Salaudeen, een MIT-postdoc en hoofdauteur van het artikel, “maar eigenlijk alles in de gegevens dat correleert met een beslissing kan door het model worden gebruikt. En die correlaties zijn misschien niet echt robuust voor veranderingen in de omgeving, waardoor de voorspellingen van het model onbetrouwbare bronnen voor besluitvorming worden.”

Valse correlaties dragen bij aan het risico van vooringenomen besluitvorming. In het NeurIPS-conferentieartikel toonden onderzoekers aan dat röntgenmodellen van de borstkas die de algehele diagnostische prestaties verbeterden, feitelijk slechtere resultaten hadden bij patiënten met een pleurale aandoening of een vergroot cardiomediastinum, wat een vergroting van het hart of de centrale borstholte is.

Andere auteurs van het artikel waren onder meer promovendi Haoran Zhang en Kumail Alhamoud, EECS-assistent-professor Sara Beery en Ghassemi.

Terwijl uit eerder werk algemeen werd aangenomen dat modellen, gerangschikt van beste naar slechtste op basis van prestaties, die volgorde zullen behouden wanneer ze worden toegepast in nieuwe omgevingen, genaamd online nauwkeurigheid, konden de onderzoekers voorbeelden aantonen van wanneer de best presterende modellen in de ene omgeving de slechtste waren in een andere.

Salaudeen bedacht een algoritme genaamd OODSelect om voorbeelden te vinden waarbij de online nauwkeurigheid in gevaar kwam. Kortom, het heeft duizenden modellen getraind met behulp van gedistribueerde gegevens, wat betekent dat de gegevens afkomstig waren uit de eerste instelling, en de nauwkeurigheid ervan berekend. Vervolgens paste hij de modellen toe op de gegevens uit de tweede setting. Wanneer degenen met de hoogste nauwkeurigheid op het gebied van gegevens uit de eerste context het bij het verkeerde eind hadden wanneer ze werden toegepast op een groot percentage voorbeelden in de tweede context, identificeerde dit problematische subsets of subpopulaties. Salaudeen benadrukt ook de gevaren van geaggregeerde statistieken voor evaluatie, die gedetailleerdere en consequentere informatie over de prestaties van modellen kunnen verdoezelen.

In de loop van hun werk hebben de onderzoekers de ‘slechte voorbeelden’ gescheiden om valse correlaties binnen een dataset niet te verwarren met situaties die eenvoudigweg moeilijk te classificeren zijn.

Het NeurIPS-artikel geeft de code van de onderzoekers en enkele geïdentificeerde subsets vrij voor toekomstig werk.

Zodra een ziekenhuis, of elke organisatie die machine learning gebruikt, de subsets identificeert waarop een model slecht presteert, kan die informatie worden gebruikt om het model te verbeteren voor zijn specifieke taak en context. De onderzoekers bevelen aan dat toekomstige werkzaamheden OODSelect gebruiken om doelstellingen voor evaluatie en ontwerpbenaderingen te benadrukken om de prestaties consistenter te verbeteren.

“We hopen dat de vrijgegeven code en subsets van OODSelect een springplank zullen worden”, schrijven de onderzoekers, “naar benchmarks en modellen die de negatieve effecten van valse correlaties aanpakken.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in