Czy medyczne urządzenia AI są odpowiednio oceniane?

 W ciągu zaledwie ostatnich dwóch lat sztuczna inteligencja została wbudowana w wiele urządzeń medycznych, które służą radą lekarzom z ostrego dyżuru, kardiologom, onkologom i niezliczonym innym pracownikom służby zdrowia.

 

Agencja ds. Żywności i Leków zatwierdziła co najmniej 130 urządzeń medycznych opartych na sztucznej inteligencji, z czego połowę w ciągu ostatniego roku, a liczba ta z pewnością wzrośnie w ciągu najbliższych kilku lat.

 

Kilka urządzeń AI ma na celu wykrywanie i ostrzeganie lekarzy o podejrzeniu zakrzepów krwi w płucach. Niektóre analizują mammogramy i obrazy ultrasonograficzne w poszukiwaniu oznak raka piersi, inne zaś badają skany mózgu w poszukiwaniu oznak krwotoku. Kardiologiczne urządzenia AI mogą obecnie wykrywać szeroki zakres ukrytych problemów z sercem.

 

Ale ile tak naprawdę wiedzą regulatorzy i lekarze na temat dokładności tych narzędzi?

 

Nowe badanie przeprowadzone przez naukowców ze Stanford, z których niektórzy sami opracowują urządzenia, sugeruje, że dowody nie są tak wszechstronne, jak być powinny, i mogą pomijać niektóre z osobliwych wyzwań stawianych przez sztuczną inteligencję.

 

Wiele urządzeń było testowanych wyłącznie na historycznych - i potencjalnie nieaktualnych - danych pacjentów. Niewiele z nich było testowanych w rzeczywistych warunkach klinicznych, w których lekarze porównywali swoje własne oceny z zaleceniami generowanymi przez sztuczną inteligencję. Wiele urządzeń testowano tylko w jednym lub dwóch ośrodkach, co może ograniczać różnorodność rasową i demograficzną pacjentów i powodować niezamierzone uprzedzenia.

"Dość zaskakujące jest to, że wiele algorytmów sztucznej inteligencji nie było ocenianych bardzo dokładnie"

- mówi James Zou, współautor badania, który jest adiunktem w dziedzinie biomedycyny na Uniwersytecie Stanforda, a także członkiem Stanford Institute for Human-Centered Artificial Intelligence (HAI).

 

W badaniu, opublikowanym właśnie w Nature Medicine, naukowcy ze Stanford przeanalizowali dowody przedłożone dla każdego urządzenia medycznego AI, które zostało zatwierdzone przez FDA w latach 2015-2020.

 

Oprócz Zou, badanie zostało przeprowadzone przez Erica Wu i Kevina Wu, doktorantów w Stanford; Roxanę Daneshjou, badaczkę kliniczną w dziedzinie dermatologii i stypendystkę podoktorancką w dziedzinie biomedycznych nauk o danych; Davida Ouyanga, kardiologa w szpitalu Cedars-Sinai w Los Angeles; oraz Daniela E. Ho, profesora prawa w Stanford, a także zastępcę dyrektora Stanford HAI.

 

Wyzwania związane z badaniami, tendencyjne dane

 

W ostrym kontraście do rozległych badań klinicznych wymaganych dla nowych leków, naukowcy odkryli, że większość urządzeń medycznych opartych na sztucznej inteligencji była testowana na danych "retrospektywnych" - co oznacza, że ich przewidywania i zalecenia nie były testowane na podstawie tego, jak dobrze oceniały żywych pacjentów w rzeczywistych sytuacjach, ale raczej na podstawie tego, jak mogłyby działać, gdyby były używane w historycznych przypadkach.

 

Jeden duży problem z tym podejściem, mówi Zou, polega na tym, że nie uwzględnia ono sposobu, w jaki dostawcy usług medycznych wykorzystują informacje AI w rzeczywistej praktyce klinicznej. Algorytmy predykcyjne mają być przede wszystkim narzędziem wspomagającym lekarzy, a nie zastępującym ich osąd. Ich skuteczność zależy jednak w dużej mierze od tego, w jaki sposób lekarze faktycznie z nich korzystają.

 

Badacze odkryli również, że wiele nowych urządzeń AI było testowanych tylko w jednej lub dwóch lokalizacjach geograficznych, co może poważnie ograniczyć ich skuteczność w różnych grupach demograficznych.

 

"To dobrze znane wyzwanie dla sztucznej inteligencji, że algorytm może działać dobrze dla jednej grupy ludności, a dla innej nie"

- mówi Zou.

 

Ujawnienie znaczących rozbieżności

 

Naukowcy przedstawili konkretne dowody na istnienie takiego ryzyka, przeprowadzając studium przypadku modelu głębokiego uczenia, który analizuje zdjęcia rentgenowskie klatki piersiowej w poszukiwaniu oznak zapadnięcia się płuc.

 

System został wytrenowany i przetestowany na danych pacjentów z Centrum Zdrowia Stanforda, ale Zou i jego koledzy przetestowali go na danych pacjentów z dwóch innych ośrodków - Narodowego Instytutu Zdrowia w Bethesda, Md. i Centrum Medycznego Beth Israel Deaconess w Bostonie. Okazało się, że algorytmy były o prawie 10 procent mniej dokładne w innych ośrodkach. Co więcej, w Bostonie okazało się, że ich dokładność była wyższa dla białych niż dla czarnych pacjentów.

 

Zou zauważa, że systemy AI są znane z podatności na wbudowane uprzedzenia rasowe i płciowe. Systemy rozpoznawania twarzy i głosu, na przykład, okazały się być znacznie dokładniejsze w przypadku białych ludzi niż osób kolorowych. Te uprzedzenia mogą się pogłębić, jeśli nie zostaną zidentyfikowane i skorygowane.

 

Zou twierdzi, że sztuczna inteligencja stwarza inne nowe wyzwania, które nie pojawiają się w przypadku konwencjonalnych urządzeń medycznych. Po pierwsze, zbiory danych, na których szkolone są algorytmy sztucznej inteligencji, mogą się łatwo zdezaktualizować. Charakterystyka zdrowia Amerykanów może być zupełnie inna, na przykład po pandemii COVID-19.

 

Co może być jeszcze bardziej zaskakujące, systemy AI często ewoluują same z siebie, w miarę jak włączają do swoich algorytmów dodatkowe doświadczenia.

 

"Największa różnica między AI a tradycyjnymi urządzeniami medycznymi polega na tym, że są to uczące się algorytmy, które wciąż się uczą" - mówi Zou.

"Są one również podatne na błędy. Jeśli nie będziemy rygorystycznie monitorować tych urządzeń, tendencyjność może się pogłębić. Populacja pacjentów również może ewoluować".

 

"Jesteśmy niezwykle podekscytowani ogólną obietnicą AI w medycynie" - dodaje Zou. Rzeczywiście, jego grupa badawcza opracowuje własne algorytmy medyczne AI. "Nie chcemy, aby sprawy były nadmiernie regulowane. Jednocześnie chcemy się upewnić, że istnieje rygorystyczna ocena, zwłaszcza w przypadku zastosowań medycznych wysokiego ryzyka. Chcesz mieć pewność, że leki, które bierzesz, są dokładnie sprawdzone. To samo jest w tym przypadku."

 

Edmund L. Andrews, Uniwersytet Stanforda

 

źródła:

https://medicalxpress.com/news/2021-04-medical-ai-devices-appropriately.html

https://www.nature.com/articles/s41591-021-01312-x

Udostępnij ten artykuł

Nawigacja po wpisach

Leave a Reply

Skomentuj jako pierwszy(a)

Covid, cybernetyka i nowa normalność

W świetle wydarzeń politycznych i gospodarczych, które miały miejsce od czasu ogłoszenia pandem...

Dlaczego opowiedziałem się przeciwko blokadom

Martin Kulldorff o konieczności zakwestionowania kowidowego konsensusu.

Nauka wstaje - wnioski Komitetu Korony.

Główne wnioski z przesłuchań Komitetu Korony, w których uczestniczyło do tej pory prawie 200 ek...

Białko kolca COVID-19 może być potencjalnie niebezpiecznym, toksycznym patogenem śródbłonka

Zwracamy uwagę na widmo szkodliwości szczepionek u dzieci i młodzieży. Jesteśmy naukowcami i pr...

ACE2 - receptor SARS i białko kolca temat był znany od 2005 r.

ACE2, proteina biorącą udział w regulacji ciśnienia krwi i jej związek z ARDS itp, jako potencj...

Popełniliśmy błąd. Białko kolca samo w sobie jest toksyczne.

Profesor Bridle przestrzega: "Popełniliśmy błąd. Białko kolca jest samo w sobie toksyczne i nie...

Najnowsze posty

Tags

Podążaj za nami