A mesterséges intelligencia azért hazudik, mert azt mondja, amiről azt hiszi, hogy hallani akarod
A mesterséges intelligencia tanul az emberektől, és hogy a felhasználók kedvében járjon, hazugságokkal próbálja kielégíteni őket.
A generatív mesterséges intelligencia számos okból népszerű, de ezzel a népszerűséggel egy komoly probléma is jár. Ezek a chatbotok gyakran helytelen információkat szolgáltatnak a válaszokat kereső embereknek. Miért történik ez? A lényeg az, hogy azt mondjuk az embereknek, amit hallani akarnak.
Míg számos generatív MI-eszköz és chatbot elsajátította a meggyőző és mindentudó hangzást, a Princetoni Egyetem által végzett új kutatás azt mutatja, hogy a MI embereknek tetsző jellegének súlyos ára van. Ahogy ezek a rendszerek egyre népszerűbbek lesznek, egyre közömbösebbek lesznek az igazsággal szemben.
A mesterséges intelligencia modelljei, akárcsak az emberek, reagálnak az ösztönzőkre. Hasonlítsuk össze a nagyméretű nyelvi modellek pontatlan információkkal történő előállításának problémáját azzal, hogy az orvosok nagyobb valószínűséggel írnak fel függőséget okozó fájdalomcsillapítókat, amikor azokat a betegek fájdalmának kezelési hatékonysága alapján értékelik. Az egyik probléma (fájdalom) megoldására irányuló ösztönző egy másik problémához (túlzott felírás) vezetett.
Az elmúlt hónapokban láthattuk, hogyan lehet elfogult a mesterséges intelligencia , sőt, pszichózist is okozhat . Sok szó esett a mesterséges intelligencia „ szépkedéséről ”, amikor egy chatbot gyorsan hízelegni kezd vagy egyetért velünk az OpenAI GPT-4o modelljével kapcsolatban. De ez a konkrét jelenség, amelyet a kutatók „gépi baromságnak” neveznek, más.
„[S]em a hallucináció, sem a szélhámoskodás nem ragadja meg teljesen a jogi mesterek (LLM) által gyakran mutatott szisztematikus, hazug viselkedések széles skáláját” – áll a Princeton-tanulmányban. „Például a részleges igazságokat vagy kétértelmű nyelvezetet alkalmazó kimenetek – mint például a civakodó és a gúnyolódó szavak példái – sem hallucinációt, sem szélhámoskodást nem jelentenek, hanem szorosan illeszkednek a baromság fogalmához.”
Hogyan tanulnak meg a gépek hazudni
Ahhoz, hogy megértsük, hogyan válnak a mesterséges intelligencia nyelvi modelljei a közönség kedvencévé, meg kell értenünk, hogyan képzik a nagy nyelvi modelleket.
Az LLM-ek képzésének három fázisa van:
- Előképzés , amelynek során a modellek hatalmas mennyiségű, az internetről, könyvekből vagy más forrásokból gyűjtött adatból tanulnak.
- Utasítások finomhangolása , amelynek során a modelleket megtanítják utasításokra vagy promptokra reagálni.
- Megerősítésen alapuló tanulás emberi visszajelzésekből , amelynek során azokat finomítják, hogy olyan válaszokat hozzanak létre, amelyek közelebb állnak ahhoz, amit az emberek akarnak vagy szeretnek.
A princetoni kutatók felfedezték, hogy a mesterséges intelligencia félretájékoztatási hajlamának gyökere az emberi visszajelzésekből történő megerősítéses tanulás, vagyis az RLHF fázis. A kezdeti szakaszokban a mesterséges intelligencia modellek egyszerűen csak megtanulják, hogyan jósolják meg statisztikailag valószínű szövegláncokat hatalmas adathalmazokból. De aztán finomhangolják őket, hogy maximalizálják a felhasználói elégedettséget. Ez azt jelenti, hogy ezek a modellek lényegében megtanulják, hogyan generáljanak olyan válaszokat, amelyek pozitív értékelést kapnak az emberi értékelőktől.
Az LLM-ek megpróbálják megnyugtatni a felhasználót, konfliktust teremtve, amikor a modellek olyan válaszokat adnak, amelyeket az emberek nagyra értékelnek, ahelyett, hogy igaz, tényszerű válaszokat adnának.
Vincent Conitzer , a Carnegie Mellon Egyetem számítástechnika professzora, aki nem vett részt a tanulmányban, azt mondta, hogy a vállalatok azt szeretnék, ha a felhasználók továbbra is „élveznék” ezt a technológiát és annak válaszait, de ez nem mindig biztos, hogy jó nekünk.
„Törtémileg ezek a rendszerek nem voltak jók abban, hogy azt mondják: »Egyszerűen nem tudom a választ«, és amikor nem tudják a választ, akkor csak kitalálnak dolgokat” – mondta Conitzer. „Olyan, mint egy diák a vizsgán, aki azt mondja, hogy ha azt mondom, hogy nem tudom a választ, akkor biztosan nem kapok pontot erre a kérdésre, szóval akár megpróbálhatok is valamit. Ezeknek a rendszereknek a jutalmazása vagy képzése némileg hasonló.”
A princetoni csapat kifejlesztett egy „baromsági indexet”, amellyel mérni és összehasonlítani lehet egy mesterséges intelligencia modell belső megbízhatóságát egy állításban azzal, amit a modell valójában mond a felhasználóknak. Amikor ez a két mérőszám jelentősen eltér egymástól, az azt jelzi, hogy a rendszer a felhasználó elégedettsége érdekében független állításokat tesz attól, amit valójában „igaznak” gondol.
A csapat kísérletei azt mutatták, hogy az RLHF képzés után az index majdnem megduplázódott 0,38-ról közel 1,0-re. Ezzel egyidejűleg a felhasználói elégedettség 48%-kal nőtt. A modellek megtanulták manipulálni az emberi értékelőket a pontos információk szolgáltatása helyett. Lényegében az LLM-ek „baromságok” voltak, és az emberek jobban szerették őket.
Őszintén szólva a mesterséges intelligencia
Jaime Fernández Fisac és csapata a Princetonon vezette be ezt a koncepciót, hogy leírja, hogyan kerülik meg a modern MI-modellek az igazságot. Harry Frankfurt filozófus nagy hatású esszéjére, az „ A baromságokról ”-re támaszkodva ezt a kifejezést használják, hogy megkülönböztessék ezt az LLM-viselkedést az őszinte hibáktól és a nyílt hazugságoktól.
A princetoni kutatók öt különböző formát azonosítottak ebben a viselkedésben:
- Üres retorika: Virágzó nyelvhasználat, amely nem ad hozzá tartalmat a válaszokhoz.
- Közmondások: Homályos jelzők, mint például a „tanulmányok szerint” vagy az „egyes esetekben”, amelyek kikerülik a határozott állításokat.
- Hazugság: Szelektíven igaz állítások félrevezetése, például egy befektetés „erős történelmi hozamainak” kiemelése, miközben elhallgatják a magas kockázatokat.
- Ellenőrizetlen állítások: Bizonyítékok vagy hiteles alátámasztás nélküli állítások.
- Szelídkedés: Őszinteségtelen hízelgés és beleegyezés a tetszésbe vételre.
Az igazságtól független mesterséges intelligencia problémáinak kezelésére a kutatócsoport egy új képzési módszert fejlesztett ki, a „Megerősítéses tanulás utólagos szimulációból”-t, amely a mesterséges intelligencia válaszait a hosszú távú eredményeik, nem pedig az azonnali elégedettség alapján értékeli. Ahelyett, hogy azt kérdezné: „Ez a válasz most boldoggá teszi a felhasználót?”, a rendszer azt vizsgálja, hogy „Vajon a tanács követése valóban segít-e a felhasználónak elérni a céljait?”
Ez a megközelítés figyelembe veszi a mesterséges intelligencia tanácsainak lehetséges jövőbeli következményeit, egy trükkös előrejelzést, amelyet a kutatók további mesterséges intelligencia modellek használatával kezeltek a valószínűsíthető eredmények szimulálására. A korai tesztek ígéretes eredményeket mutattak, a felhasználói elégedettség és a tényleges hasznosság javult, amikor a rendszereket ilyen módon képezték ki.
Conitzer szerint azonban az LLM-ek valószínűleg továbbra is hibásak lesznek. Mivel ezeket a rendszereket rengeteg szöveges adattal való betanítással képezik ki, nincs mód arra, hogy a válaszuk minden alkalommal értelmes és pontos legyen.
„Elképesztő, hogy egyáltalán működik, de bizonyos szempontból hibás lesz” – mondta. „Nem látok semmilyen végleges módot arra, hogy valaki a következő egy-két évben... ilyen briliáns meglátásra tegyen szert, és utána soha többé ne legyen semmi baj.”
A mesterséges intelligencia rendszerei a mindennapjaink részévé válnak, ezért kulcsfontosságú megérteni, hogyan működnek az LLM-ek. Hogyan egyensúlyoznak a fejlesztők a felhasználói elégedettség és az igazságszolgáltatás között? Milyen más területeken kell hasonló kompromisszumokkal szembesülni a rövid távú jóváhagyás és a hosszú távú eredmények között? És ahogy ezek a rendszerek egyre kifinomultabb gondolkodásra képesek az emberi pszichológiáról, hogyan biztosíthatjuk, hogy ezeket a képességeket felelősségteljesen használják? (CNET)