Jak modele sztucznej inteligencji poprawiają diagnozy medyczne i uprzedzenia twarzy

Ponieważ modele sztucznej inteligencji poprawiają diagnozy medyczne, ale borykają się z uprzedzeniami w różnych grupach demograficznych pacjentów, badania pokazują wyzwania w zakresie uczciwości

Photo by: Domagoj Skledar/ arhiva (vlastita)

Modele sztucznej inteligencji często odgrywają kluczową rolę w diagnozach medycznych, zwłaszcza w analizie obrazów takich jak zdjęcia rentgenowskie. Badania wykazały, że te modele nie działają równie skutecznie we wszystkich grupach demograficznych, często gorzej radząc sobie z kobietami i przedstawicielami mniejszości. Modele wykazały również pewne nieoczekiwane zdolności. Badacze z MIT odkryli w 2022 roku, że modele AI mogą dokładnie przewidywać rasę pacjentów na podstawie ich zdjęć rentgenowskich klatki piersiowej — coś, czego nie mogą osiągnąć nawet najbardziej doświadczeni radiolodzy. Niedawne badanie tego zespołu badawczego pokazuje, że modele, które są najdokładniejsze w przewidywaniu danych demograficznych, również wykazują największe "uprzedzenia w sprawiedliwości" — odchylenia w zdolności do dokładnej diagnozy obrazów ludzi różnych ras lub płci. Odkrycia sugerują, że te modele mogą używać "demograficznych skrótów" przy dokonywaniu ocen diagnostycznych, co prowadzi do niedokładnych wyników dla kobiet, czarnych i innych grup, twierdzą badacze.

"Jest powszechnie znane, że modele uczenia maszynowego o dużej mocy dobrze przewidują demografię ludzką, taką jak deklarowana rasa, płeć lub wiek. To badanie ponownie potwierdza tę zdolność, a następnie wiąże ją z brakiem wydajności w różnych grupach, co dotąd nie było zrobione," mówi Marzyeh Ghassemi, profesor nadzwyczajny inżynierii elektrycznej i informatyki na MIT, członek Instytutu Inżynierii Medycznej i Nauki MIT oraz główny autor badania.

Badacze odkryli również, że mogą ponownie trenować modele w sposób, który poprawia ich sprawiedliwość. Jednak ich podejścia do "usuwania uprzedzeń" działały najlepiej, gdy modele były testowane na tych samych typach pacjentów, na których były trenowane, na przykład pacjentach z tej samej szpitala. Kiedy te modele zastosowano do pacjentów z różnych szpitali, uprzedzenia ponownie się pojawiały.

"Myślę, że główne lekcje to, po pierwsze, dokładne ocenienie każdego zewnętrznego modelu na własnych danych, ponieważ wszelkie gwarancje dotyczące sprawiedliwości, które zapewniają twórcy modeli na swoich danych treningowych, mogą nie przenieść się na waszą populację. Po drugie, kiedy tylko dostępna jest wystarczająca ilość danych, należy trenować modele na własnych danych," mówi Haoran Zhang, student MIT i jeden z głównych autorów nowego badania. Student MIT Yuzhe Yang jest również głównym autorem badania, które zostało dziś opublikowane w czasopiśmie Nature Medicine. Judy Gichoya, profesor nadzwyczajny radiologii i nauki o obrazowaniu na Wydziale Medycyny Uniwersytetu Emory, oraz Dina Katabi, profesor inżynierii elektrycznej i informatyki na MIT, również są autorami badania.

Od maja 2024 roku, FDA zatwierdziła 882 urządzenia medyczne wspomagane sztuczną inteligencją, z których 671 przeznaczonych jest do użytku w radiologii. Od 2022 roku, kiedy Ghassemi i jej koledzy wykazali, że te modele diagnostyczne mogą dokładnie przewidywać rasę, oni i inni badacze wykazali, że takie modele są również bardzo dobre w przewidywaniu płci i wieku, mimo że modele nie były trenowane do tych zadań.

"Wiele popularnych modeli uczenia maszynowego ma nadludzką zdolność do przewidywania demografii — radiolodzy nie mogą wykryć deklarowanej rasy na podstawie zdjęcia rentgenowskiego klatki piersiowej," mówi Ghassemi. "To są modele, które są dobre w przewidywaniu chorób, ale podczas treningu uczą się również przewidywać inne rzeczy, które mogą nie być pożądane."

W tym badaniu badacze chcieli zbadać, dlaczego te modele nie działają równie dobrze dla określonych grup. W szczególności chcieli sprawdzić, czy modele używają demograficznych skrótów do dokonywania przewidywań, które ostatecznie były mniej dokładne dla niektórych grup. Te skróty mogą pojawić się w modelach AI, gdy używają demograficznych atrybutów do określenia obecności stanu medycznego, zamiast polegać na innych cechach obrazów.

Wykorzystując publicznie dostępne zdjęcia rentgenowskie klatki piersiowej z Centrum Medycznego Beth Israel Deaconess w Bostonie, badacze trenowali modele do przewidywania, czy pacjenci mają jedno z trzech różnych stanów medycznych: gromadzenie się płynów w płucach, zapadnięcie się płuca lub powiększenie serca. Następnie testowali modele na zdjęciach rentgenowskich, które nie były uwzględnione w danych treningowych.

Ogólnie modele wypadły dobrze, ale większość wykazywała "uprzedzenia w sprawiedliwości" — tj. odchylenia w stopach dokładności dla mężczyzn i kobiet oraz dla białych i czarnych pacjentów.

Modele mogły również przewidzieć płeć, rasę i wiek podmiotów na podstawie zdjęć rentgenowskich. Ponadto istniała znacząca korelacja między dokładnością każdego modelu w dokonywaniu przewidywań demograficznych a wielkością jego uprzedzeń w sprawiedliwości. To sugeruje, że modele mogą używać demograficznych kategoryzacji jako skrótów do dokonywania swoich przewidywań chorób.

Badacze następnie próbowali zmniejszyć uprzedzenia w sprawiedliwości, używając dwóch rodzajów strategii. Dla jednego zestawu modeli trenowali je, aby optymalizować "odporność podgrupy", co oznacza, że modele były nagradzane za lepsze wyniki w podgrupie, w której miały najgorsze wyniki, i karane, jeśli ich stopa błędów dla jednej grupy była wyższa niż dla innych.

W drugim zestawie modeli, badacze zmuszali je do usunięcia wszystkich demograficznych informacji z obrazów, używając "adwersarialnych" podejść. Obie strategie okazały się dość skuteczne, odkryli badacze.

"Dla danych wewnątrz dystrybucji, można użyć istniejących najnowocześniejszych metod do zmniejszenia uprzedzeń w sprawiedliwości bez znaczących kompromisów w ogólnych wynikach," mówi Ghassemi. "Metody odporności podgrupy zmuszają modele do bycia wrażliwymi na błędy w przewidywaniu określonej grupy, a metody adwersarialne próbują całkowicie usunąć informacje o grupie."

Jednak te podejścia działały tylko wtedy, gdy modele były testowane na danych od tych samych rodzajów pacjentów, na których były trenowane — na przykład tylko pacjentów z zestawu danych Centrum Medycznego Beth Israel Deaconess.

Kiedy badacze testowali modele, które były "pozbawione uprzedzeń" przy użyciu danych BIDMC do analizy pacjentów z pięciu innych zestawów danych szpitalnych, odkryli, że ogólna dokładność modeli pozostała wysoka, ale niektóre z nich wykazywały duże uprzedzenia w sprawiedliwości.

"Jeśli model pozbywa się uprzedzeń w jednym zestawie pacjentów, ta sprawiedliwość niekoniecznie musi pozostać, gdy przeniesiesz się na nowy zestaw pacjentów z innego szpitala w innej lokalizacji," mówi Zhang.

To jest niepokojące, ponieważ w wielu przypadkach szpitale używają modeli, które zostały opracowane na danych z innych szpitali, szczególnie w przypadkach, gdy kupują gotowy model, twierdzą badacze.

"Odkryliśmy, że nawet najnowocześniejsze modele, które są optymalnie wykonane na danych podobnych do ich zestawów danych treningowych, nie są optymalne — to znaczy, nie dokonują najlepszego kompromisu między ogólną wydajnością a wydajnością podgrup — w nowych środowiskach," mówi Ghassemi. "Niestety, tak prawdopodobnie model jest stosowany. Większość modeli jest trenowana i walidowana na danych z jednego szpitala lub jednego źródła, a następnie szeroko stosowana."

Badacze odkryli, że modele, które były pozbawione uprzedzeń przy użyciu adwersarialnych podejść, wykazywały nieco większą sprawiedliwość, gdy były testowane na nowych grupach pacjentów niż te pozbawione uprzedzeń metodami odporności podgrupy. Teraz planują opracować i przetestować dodatkowe metody, aby sprawdzić, czy mogą stworzyć modele, które lepiej dokonują sprawiedliwych przewidywań na nowych zestawach danych.

Odkrycia sugerują, że szpitale używające takich modeli AI powinny ocenić ich wydajność na własnej populacji pacjentów przed ich użyciem, aby zapewnić, że nie dają one niedokładnych wyników dla określonych grup.

Badania zostały sfinansowane przez nagrodę Google Research Scholar, Program Rozwoju Wydziałów Medycznych Harold Amos Fundacji Robert Wood Johnson, RSNA Health Disparities, fundację Lacuna, Fundację Gordona i Betty Moore, Narodowy Instytut Obrazowania Biomedycznego i Bioinżynierii oraz Narodowy Instytut Serca, Płuc i Krwi.

Źródło: Massachusetts Institute of Technology

Czas utworzenia: 02 lipca, 2024

Uwaga dla naszych czytelników:
Portal Karlobag.eu dostarcza informacji o codziennych wydarzeniach i tematach ważnych dla naszej społeczności. Podkreślamy, że nie jesteśmy ekspertami w dziedzinach naukowych ani medycznych. Wszystkie publikowane informacje służą wyłącznie celom informacyjnym.
Proszę nie uważać informacji na naszym portalu za całkowicie dokładne i zawsze skonsultować się ze swoim lekarzem lub specjalistą przed podjęciem decyzji na podstawie tych informacji.
Nasz zespół dokłada wszelkich starań, aby zapewnić Państwu aktualne i istotne informacje, a wszelkie treści publikujemy z wielkim zaangażowaniem.

Zapraszamy do podzielenia się z nami swoimi historiami z Karlobag!
Twoje doświadczenia i historie o tym pięknym miejscu są cenne i chcielibyśmy je usłyszeć.
Możesz je przesłać napisz do nas na adres karlobag@karlobag.eu.
Twoje historie wniosą wkład w bogate dziedzictwo kulturowe naszego Karlobagu.
Dziękujemy, że podzieliłeś się z nami swoimi wspomnieniami!