Egy átlagos orvosnál jobban diagnosztizál a mesterséges intelligencia

Híres ember

Olvasási idő

5perc

Eddig olvastam

a- a+

Egy átlagos orvosnál jobban diagnosztizál a mesterséges intelligencia

2023. március 17. - 10:38

Technika

A mesterséges intelligencia képességeit ma már aligha kell bárkinek magyarázni, lassan mindenhol jelen lesz már valamilyen formában.

Szegeden például már a mesterséges intelligencia számolja az utasokat a villamoson, de nemrég írtunk arról is, hogy élesben is elindult a mesterségesintelligencia-alapú bőrgyógyászat Magyarországon. Utóbbi jól mutatja, hogy az orvoslásban is komoly segítséget jelenthet a technika, és erre utal egy friss magyar tanulmány is, melyben orvosdiagnosztikai eszközként vetették be a ChatGPT-t, amely több, különböző neurológiai esetben szakemberekhez mérhető eredményességgel dolgozott, és még az olyan esetek 40 százalékában is helyesen diagnosztizált, amikor az orvosok helytelen diagnózist adtak.

A lektorálás előtt álló (preprint) tanulmányt a Szegedi Biológiai Kutatóközpont Biofizikai Intézet és a Szegedi Tudományegyetem kutatói és orvosai jegyzik, a kutatás hátterében pedig az áll, hogy bár a ChatGPT és más nagy nyelvi modellek (large language model, LLM) az elmúlt időszakban mind tudományos körökben, mind általánosan nagy népszerűségre tettek szert, de az orvosdiagnosztikai segédeszközként történő használatával eddig viszonylag keveset foglalkoztak. A szegedi kutatócsoport most azt vizsgálta, hogy mennyire hatékonyan tud diagnosztizálni a ChatGPT a kórtörténet és egy státuszfelmérésből származó információk alapján.

MIagnózis

A szintetikus, azaz nem a való életből vett, hanem mesterségesen előállított betegadatokat használó esetek a gyakori megbetegedésektől az egészen ritka kórképekig számos neurológiai kötődésű betegséget foglaltak magukba. A kutatók az eseteket szétbontották annak függvényében, hogy kezelés nélkül 24 órán belül visszafordíthatatlan károsodáshoz vagy életveszélyhez vezetnek-e (akut esetek) vagy sem, majd a kutatásban részt vevő hat neurológusnak és hat általános orvosnak az adatok alapján fel kellett állítania egy diagnózist. Az eseteket aztán a ChatGPT is megkapta, majd arra kérték a modellt, hogy listázza ki az öt legvalószínűbb diagnózist, kezdve azzal, aminek a legnagyobb az esélye.

(Rövid, ám fontos kitérőként érdemes megemlíteni, hogy a kutatók angolul tették fel a kérdéseket az MI-nek, illetve a rövid anamnézis és a státusz is angolul lett betáplálva, ami szerintük elengedhetetlen volt a kérdés és az esetleírás megfelelő értelmezéséhez. A ChatGPT-vel magyarul is lehet beszélgetni, ám miután a modellt döntően angol nyelvű szövegeken tanították – hogy pontosan min, azt nem lehet tudni –, és a legtöbb felhasználó is angolul beszélget vele, alighanem ezen a nyelven adja a legpontosabb válaszokat. A Bingbe épített, a ChatGPT-nél erősebb modell egyébként érzésre jobban teljesít magyarul, de így is érdemesebb angolul kérdezni.)

Ezeket három csoportra bontották – a legvalószínűbb diagnózisra, az első háromra és az első ötre. A kutatók végül minden csoportra vonatkozóan megállapították a helyes diagnózisok arányát, melyből kiderült, hogy a ChatGPT diagnózisa az esetek 68,5 százalékában megegyezett az eredetivel. Ez meghaladta azoknak az orvosoknak a szintjét, akik nem specializálódtak az ideggyógyászatra, de elmaradt a neurológus szakemberek helyes diagnózisainak arányától.

Az öt legvalószínűbb diagnózisban viszont az esetek 83,5 százalékában szerepelt a helyes diagnózis, amivel a mesterséges intelligencia gyakorlatilag ugyanolyan eredményt ért el, mint a neurológusok.

A kutatók az akut eseteket külön is megvizsgálták, mert ezeknek jól elkülöníthető tünetei vannak, gyakoriságuk miatt pedig az irodalmuk is kiterjedtebb, ami rendkívül fontos az ilyen nyelvi modellek tanításánál. Ebben az alcsoportban az általános orvosok, a neurológusok és a ChatGPT is hasonlóan teljesítettek, 70 százalékos pontosság környékén, míg az MI öt javaslata között közel 86 százalékban szerepelt a helyes diagnózis. A nem akut esetekben alacsonyabb eredményesség mellett a ChatGPT volt a legpontosabb 66 százalékkal, nem sokkal megelőzve a neurológus szakembereket, és közel 20 százalékkal az általános orvosokat.

Természetesen minden csoportban voltak hibás diagnózisok is, itt az esetek negyedében egyezett meg a ChatGPT legvalószínűbb, de hibás javaslata a szakértők téves diagnózisaival. Az is kiderült ugyanakkor, hogy néhány ritka neurológiai betegséget érintő esetben az emberi szakértők nem tudtak megfelelő diagnózist felállítani, de a ChatGPT az esetek 40 százalékában itt is pontos volt, az öt javaslatából valamelyik pedig az esetek 60 százalékában volt helyes.

Nem levált, tehermentesít

A mesterséges intelligencia tehát jól vizsgázott az orvosdiagnosztikában, de ahogy az elmúlt hónapokban a legtöbb alkalmazási módnál, úgy itt is az derült ki, hogy jelen állapotában nem önmagában, hanem a szakemberek kezében lehet igazán hasznos. A kutatók kiemelték, hogy a ChatGPT diagnózisait minden esetben felül kell vizsgálnia egy szakembernek is, és rögzítették azt a tényt is, hogy miután a kutatás során az MI neurológusok által megírt szintetikus betegadatokból dolgozott, a pontossága nagyban függött az emberi szakértelemtől.

Dr. Patai Roland, a tanulmány felelős szerzője a Telex kérdésére azt írta, kiemelten fontos a bemeneti adatok magas minősége, vagyis, hogy az esetleírás és a státusz jól legyen megírva, ami természetesen elvárható egy szakorvostól. Azt is megjegyezte, hogy mivel a bemenetek neurológiai kórképek voltak, a neurológusok rendelkeznek a diagnosztizáláshoz szükséges legnagyobb szakmai tapasztalattal. A kutató kiemelte, hogy a kevés adatból, nehezen diagnosztizálható eseteken kívül nagyon hasonló eredményeket adott mindhárom csoport. A ritka, vitatott esetekben természetesen további vizsgálatok (laboratóriumi és képalkotó módszerek) kellenek a pontos diagnózishoz.

Patai szerint a ChatGPT az egészségügy leterheltségén is segíthet, mert nemcsak az orvosdiagnosztikában, hanem például a zárójelentések és a leletek megírásának automatizálásában is jó, amit más kutatócsoportok vizsgáltak. Persze ahogy azt a szegedi kutatók is kiemelték, a gyakorlati alkalmazás nem megy egyik napról a másikra. A tanulmányban például egyrészt azért használtak szakértők által írt esetleírásokat, hogy gyorsan lefolytathassák a kutatást, másrészt pedig, hogy elkerüljék az etikai és jogi bonyodalmakat.

Ahhoz, hogy valódi adatokat használjanak, egyedi betegjóváhagyásra is szükség lenne, ami nem magától értetődő, hiszen jelenleg a ChatGPT-ről, illetve általánosan a mesterséges intelligenciáról is szélsőségesen megoszlanak a vélemények.

Az ugyanakkor egyértelmű, hogy ezek az MI-n alapuló modellek már jelen, kezdeti formájukban is hasznos kiegészítőnek tűnnek az orvoslásban. Ezt a magyar kutatás mellett a Harvard Egyetem friss, egyelőre szintén nem lektorált tanulmánya is bizonyítja, melyben kisebb elemszám mellett jutottak hasonló következtetésre a kutatók.

A ChatGPT a harvardi kutatók által betáplált harminchat szintetikus eset 71,8 százalékában képes volt helyes diagnózist felállítani, ami összemérhető a szegedi kutatásban vizsgált kétszáz eset eredményével. Azt ugyanakkor a kutatók is kiemelték, hogy a ChatGPT természetesen nem képes emberi gondolkodásra, így javasolhat hiábavaló ellátást, bizonyos esetekben diagnózist sem állít fel, a gyógyszerek dózisának beállításánál pedig rendszeresen hibázik. (Telex)

Címkék:

kutatás

mesterséges intelligencia