Leleplezték a ChatGPT sötét oldalát
Így rakják össze az AI-t a háttérben
A ChatGPT elképesztő képességeit csodálja a fél világ, a chatbottal szinte bármiről értelmesen lehet beszélgetni, ha szertenénk, szövegeket foglal össze, esszét és verset ír, sőt, alapszinten programozni is tud. Ám az internetet letaroló AI chatbot betanításához szükséges adatbázisból az internet sötét oldalát, az erőszakos, illegális, toxikus tartalmakat ki kell szűrni - hogy a válaszai ne legyenek erőszakosak, elfogultak vagy éppen paráznák. Ezt a mentálisan megterhelő munkát pedig a világ fejlődő országaiban pár dolláros munkabérért végzik el erre szakosodott cégek alkalmazottai. A Time egy hosszú riportban mutatja be a ChatGPT és partnere, a Sama esetét. - írja a Portfolio
Mi az a ChatGPT? 2022. november végén vált elérhetővé az OpenAI mesterséges intelligenciával megtámogatott nyelvi modellje, a ChatGPT 3.5, amely forradalmi áttörést jelent, hiszen a chatbot az egyszerűbb kérdések megválaszolása mellett olyan komplexebb feladatokat is teljesít, mint a versírás, illetve a programozás. A GPT 3.5-öt az Microsoft Azure AI szuperszámítógépes infrastruktúráján képezték ki. A nyelvi modell optimalizálásához egy emberi visszajelzéseken alapuló megerősítő tanulási módszert, vagyis az RLHF-et (reinforcement learning from human feedback) alkalmazták. Az OpenAI és a ChatGPT sikerére egyébként a riválisok is felkapták a fejüket, a Google hamarosan elindíthatja az ChatGPT kihívójának szánt Sparrow nevű mesterséges intelligencia béta verzióját. A legfrissebb hírek szerint kísérleti fázisban, de elérhetővé vált a ChatGPT fizetős változata is, a ChatGPT Professional. Arról is beszámoltunk, hogy többéves, egyes híresztelések szerint közel 10 milliárd dollár értékű megállapodást kötött a Microsoft a ChatGPT-t fejlesztő OpenAI-val.
AI szűri az internet sötét oldalát
A ChatGPT-t fejlesztő OpenAI nyelvi modellje, a GPT-3 lenyűgözően jól tud mondatokat összefűzni, ám nagy hibája, hogy az alkalmazás hajlamos erőszakos, szexista és rasszista megjegyzéseket tenni. Ennek oka, hogy a mesterséges intelligenciát az internetről származó több százmilliárd szóval képezték ki - az emberi nyelv hatalmas tárházával.
Mivel az internet egyes részei tele vannak toxikus tartalmakkal és előítéletes megjegyzésekkel, nem volt egyszerű módja annak, hogy ezeket az adatokat kiszűrjék a képzési adatokból. Még egy több száz főből álló csapat számára is évtizedekbe telt volna a hatalmas adathalmaz kézi átfésülése. Az OpenAI csak egy további, mesterséges intelligenciával működő biztonsági mechanizmus kiépítésével tudta volna megfékezni ezt a kárt, és egy mindennapi használatra alkalmas chatbotot létrehozni.
A biztonsági rendszer kiépítéséhez az OpenAI a közösségi médiavállalatok, például a Facebook példájából merített, akik már megmutatták, hogyan lehetséges olyan mesterséges intelligenciát építeni, amely képes felismerni a toxikus nyelvezetet, a gyűlöletbeszédet, és a technológia hogy segít eltávolítani azt a platformjáról.
Az alapfeltevés egyszerű: tanítsunk fel egy mesterséges intelligenciát az erőszak, a gyűlöletbeszéd és a szexuális visszaélések címkézett példáival, és az eszköz megtanulja felismerni az erőszak és a toxikus tartalmak ezen formáit.
Ezt a detektort beépítenék a ChatGPT-be, hogy ellenőrizze, hogy a tanulóadatokban megjelennek-e ilyen tartalmak, és kiszűrje azokat, mielőtt eljutnának a felhasználóhoz. Egy ilyen AI segítségével minden hasonló tartalmat ki lehetne törölni a jövőbeli mesterséges intelligencia modellek képzési adathalmazaiból.
Kiszervezett piszkos munka
Az említett toxikus tartalmak felcímkézése érdekében az OpenAI 2021 novemberétől kezdve több tízezer szövegrészletet küldött egy kenyai cégnek, a Samának, a lap szerint a szövegek nagy része az internet legsötétebb bugyraiból származott. Némelyik olyan helyzeteket írt le szemléletes részletességgel, mint a gyermekek szexuális zaklatása, állatokkal történő aktus, gyilkosság, öngyilkosság, kínzás, önkínzás és vérfertőzés.
A Sama egy San Franciscó-i székhelyű cég, amely kenyai, ugandai és indiai munkásokat foglalkoztat, hogy adatokat címkézzenek fel a Szilícium-völgyi ügyfelek, például a Google, a Meta és a Microsoft számára. A Sama "etikus mesterséges intelligenciával foglalkozó" cégként hirdeti magát, és azt állítja, hogy több mint 50 000 embert segített kiemelni a szegénységből.
A Sama által az OpenAI megbízásából foglalkoztatott adatcímkézők a szolgálati időtől és a teljesítménytől függően körülbelül 1,32 és 2 dollár közötti órabért kaptak. A Time a cikkhez több száz oldalnyi belső Sama és OpenAI dokumentumot vizsgált át, köztük a dolgozók bérszámfejtéseit, és interjút készített négy Sama-alkalmazottal, akik a projektben dolgoztak.
A ChatGPT-hez adatbázisokat címkéző dolgozók története bepillantást enged a mesterséges intelligencia ipar e kevéssé ismert részének körülményeibe, amely mindazonáltal alapvető szerepet játszik a mesterséges intelligencia rendszerek biztonságos közhasználatra való alkalmassá tételében.
Az OpenAI szóvivője nyilatkozatában megerősítette, hogy a Sama kenyai alkalmazottai hozzájárultak egy olyan eszközhöz, amelyet a toxikus netes tartalmak felismerésére építettek, és amelyet végül a ChatGPT-be építettek be.
"Küldetésünk, hogy a mesterséges általános intelligencia az egész emberiség javát szolgálja, és keményen dolgozunk azon, hogy biztonságos és hasznos AI-rendszereket építsünk, amelyek korlátozzák az elfogultságot és a káros tartalmakat" - mondta a szóvivő. "A káros szövegek és képek osztályozása és szűrése szükséges lépés a képzési adatokban szereplő erőszakos és szexuális tartalmak mennyiségének minimalizálásához, valamint a káros tartalmak felismerésére alkalmas eszközök létrehozásához."
Még akkor is, amikor a tágabb értelemben vett technológiai gazdaság lassul a várható visszaesés közepette, a befektetők versenyt futnak, hogy dollármilliárdokat öntsenek a "generatív mesterséges intelligenciába", a technológiai ipar azon ágazatába, amelynek vitathatatlan vezetője az OpenAI. A legbuzgóbb befektetők szerint a számítógép által generált szövegek, képek, videók és hangok számtalan iparágat fognak átalakítani, és a kreatív művészettől kezdve a jogon át a számítógépes programozásig mindenhol növelni fogják a hatékonyságot.
Az adatcímkézők munkakörülményei azonban a kép egy sötétebb oldalát tárják fel: a mesterséges intelligencia minden csillogása ellenére gyakran fejlődő országok rejtett emberi munkájára támaszkodik, ami gyakran káros és kizsákmányoló lehet. Ezek a láthatatlan munkavállalók a periférián maradnak, még akkor is, ha munkájuk milliárdos iparágakhoz járul hozzá.
Az egyik Sama dolgozó, akit az OpenAI számára szövegek olvasásával és címkézésével bíztak meg, a TIME-nak elmondta, hogy visszatérő látomásoktól szenvedett, miután elolvasott egy grafikus leírást, amelyben egy férfi egy kutyával szexelt egy kisgyerek jelenlétében. A munka traumatikus jellege végül arra késztette a Samát, hogy 2022 februárjában, a tervezettnél nyolc hónappal korábban felmondja az OpenAI projektben vállalt munkáját.
Szakítás
2022 februárjában a Sama és az OpenAI kapcsolata rövid időre elmélyült, aztán megszakadt. Abban a hónapban a Sama kísérleti munkát kezdett az OpenAI számára egy külön projektben: szexuális és erőszakos képek összegyűjtése az OpenAI-nak valóátadáss céljából. Úgy tűnik, hogy a képek címkézésével kapcsolatos munka nem kapcsolódik a ChatGPT-hez. Az OpenAI szóvivője nyilatkozatában nem részletezte, hogy a vállalat milyen céllal kérte a Sama-tól a képeket, de azt mondta, hogy a káros képek címkézése "szükséges lépés" a mesterséges intelligencia eszközeinek biztonságosabbá tételéhez. (az OpenAI egyébként képgeneráló technológiát is fejleszt).
Februárban a számlázási dokumentumok szerint a Sama 1400 képből álló mintatételt szállított az OpenAI-nak. A képek közül néhányat a dokumentum szerint "C4"-nek minősítettek - az OpenAI ezen belső címkéje a gyermekek szexuális zaklatását jelöli. A számlázási dokumentum szerint a tételben voltak "C3" képek (beleértve az állati erőszakot, nemi erőszakot és szexuális rabszolgaságot) és "V3" képek is, amelyek halál, erőszak vagy súlyos fizikai sérülés grafikus részleteit ábrázolják. Az OpenAI összesen 787,50 dollárt fizetett a Samának a képek összegyűjtéséért.
A Sama heteken belül idő előtt felmondta az OpenAI-jal kötött szerződéseit. A Sama közleményében azt állította, hogy az OpenAI számára történő képgyűjtésre vonatkozó megállapodásában nem szerepelt semmilyen utalás az illegális tartalmakra, és csak a munka megkezdése után küldött az OpenAI "további utasításokat", amelyek "néhány illegális kategóriára" utaltak.
Az OpenAI nyilatkozatában megerősítette, hogy 1400 képet kapott a Samától, amelyek "többek között C4, C3, C2, V3, V2 és V1 képeket tartalmaztak". Egy következő nyilatkozatban a vállalat azt mondta: "A Sama-t a biztonságosabb mesterséges intelligencia rendszerek létrehozására és a káros kimenetek megelőzésére irányuló folyamatos munka részeként vették igénybe. "Soha nem állt szándékunkban a C4 kategóriába tartozó tartalmak begyűjtése. Erre a tartalomra nincs szükség az előképző szűrőink bemeneteként, és arra utasítjuk a munkatársainkat, hogy aktívan kerüljék. Amint a Sama közölte velünk, hogy megpróbálták összegyűjteni az ebbe a kategóriába tartozó tartalmakat, tisztáztuk, hogy félreértés történt, és hogy nem akarjuk ezt a tartalmat. Miután pedig rájöttünk, hogy félreértés történt, nem nyitottuk meg és nem néztük meg a szóban forgó tartalmat - így nem tudjuk megerősíteni, hogy az tartalmazott-e a C4 kategóriába tartozó képeket" - írták. (Portfolio)