Hogyan használjunk masszív AI modelleket a startupunkban?
Ahogy a gépi tanulási technológia kiforrottá vált, és a kutatási kíváncsiságból az ipari szintűvé vált, a nagyléptékű gépi tanulást támogató módszerek és infrastruktúra is fejlődött. Ezen fejlesztések kihasználása lehetőségeket és kockázatokat is jelent a startupok számára – amelyek szinte mindegyike valamilyen módon kihasználja a gépi tanulást, miközben a saját piacuk egy részéért versenyez.
Az idáig vezető út kicsivel több mint 9 évvel ezelőtt kezdődött, amikor a mélytanulás forradalmát egy 2012-es, AlexNet nevű pályázat indította el az éves ImageNet LSVRC versenyre (a kutatói közösség által szervezett számítógépes látás versenyre). Ebben a pályázatban egy háromfős csapat (Alex Krizhevsky, Illya Sutskever és Geoffrey Hinton) egy konvolúciós neurális hálózatként ismert technikát használt a fényképek tartalmának megértésére. Magasan megnyerték a versenyt – jelentős különbséggel megelőzve mindenkit –, és mindezt egy 700 dolláros , videojátékokhoz használt számítógépes grafikus kártyán betanított rendszerrel érték el .
A gépi tanulás világa örökre megváltozott. Egy éven belül startupok jelentek meg, hogy lemásolják az AlexNet-et. Az előző cégem, az AlchemyAPI (amelyet az IBM 2015-ben vásárolt fel), 2013-ban kiadta az AlchemyVision számítógépes látás API-nkkal végzett munkánk egyik első kereskedelmi verzióját. Az ebben az időben alapított startupok közé tartozik többek között a DeepMind (amelyet a Google vásárolt fel), a MetaMind (amelyet a Salesforce vásárolt fel) és a Clarifai. Az akadémiai világ is drámaian átalakult, sok szakértő rendkívül gyorsan a mesterséges intelligenciával kapcsolatos szkepticizmusról a mélytanulás teljes szívű elfogadására tért át.
Ugorjunk előre 2022-be: A neurális hálózatok a gépi intelligencia minden aspektusát megváltoztatták a naponta használt szoftverrendszerekben, a beszédfelismeréstől kezdve a hírfolyamunkban található tartalmak ajánlásáig (jóba vagy rosszba). A mai rendszerek továbbra is használnak neurális hálózatokat – de egészen más léptékben. Az emberi nyelv megértésére és generálására szolgáló legújabb rendszereket, mint például az OpenAI GPT-3-át , szuperszámítógépes méretű erőforrásokon képezték ki: több ezer GPU-t (egyenként 10 000 dollárba vagy többbe kerülve), amelyeket nagy sebességű hálózati összeköttetések és adattároló infrastruktúra komplex szövetébe szőttek. Míg a 2012-es csúcstechnológiás rendszereket egy 700 dolláros videojáték-kártyán is be lehetett tanítani, a mai csúcstechnológiás rendszerek – amelyeket gyakran alapmodelleknek neveznek – valószínűleg több tízmillió dolláros számítási igényt igényelnek a betanításhoz.
Ezeknek a hatalmas léptékű, magas költségű alapmodelleknek a megjelenése lehetőségeket, kockázatokat és korlátokat is teremt a startupok és mások számára, akik a mesterséges intelligencia és a gépi tanulás területén szeretnének innoválni. Bár valószínűleg nem tudják felvenni a versenyt a Google-lel, a Facebookkal vagy az OpenAI-val a kutatás élvonalában, a kisebb szervezetek felhasználhatják ezen óriások munkáját, beleértve az alapmodelleket is, hogy beindítsák saját gépi tanuláson alapuló alkalmazásaik fejlesztését.
Az előre betanított hálózatok előnyt jelentenek a kisebb csapatoknak
Az olyan neurális hálózatokat, mint az AlexNet, eredetileg minden feladathoz a nulláról képezték ki – ez akkor még megvalósítható volt, amikor a hálózatok egyetlen játék hardveren néhány hetet igényeltek, de sokkal nehezebbé vált, ahogy a hálózatok mérete, a számítási erőforrások és a betanítási adatmennyiségek nagyságrendekkel kezdtek növekedni. Ez vezetett az előtanítás néven ismert megközelítés népszerűsítéséhez , amelynek során egy neurális hálózatot először egy nagy, általános célú adathalmazon képeznek ki jelentős mennyiségű számítási erőforrás felhasználásával, majd sokkal kevesebb adat és számítási erőforrás felhasználásával finomhangolják az adott feladathoz.
Az előre betanított hálózatok használata az utóbbi években robbanásszerűen megnőtt, mivel a gépi tanulás iparosodása számos területet (például a nyelvi vagy beszédfeldolgozást) átvett, és a betanításhoz rendelkezésre álló adatok mennyisége drámaian megnőtt. Az előre betanított hálózatok használata lehetővé teszi például egy startup számára, hogy sokkal kevesebb adat- és számítási erőforrással építsen egy terméket, mint amennyire egyébként a nulláról indulva lenne szükség. Ez a megközelítés az akadémiai szférában is egyre népszerűbb, ahol a kutatók gyorsan finomhangolhatják az előre betanított hálózatot egy új feladathoz, majd közzétehetik az eredményeket.
Bizonyos feladatkörök esetében – beleértve az írott szöveg megértését vagy generálását, fényképek vagy videók tartalmának felismerését, valamint a hangfeldolgozást – az előtanítás folyamatosan fejlődött olyan alapmodellek megjelenésével , mint a BERT , a GPT, a DALL-E , a CLIP és mások. Ezeket a modelleket nagy, általános célú adatkészleteken (gyakran milliárdos betanítási példák nagyságrendjében) előképzik , és jól finanszírozott MI-laboratóriumok, például a Google, a Microsoft és az OpenAI laboratóriumai nyílt forráskódúként adják ki.
A kereskedelmi forgalomba hozott gépi tanulási alkalmazások innovációs ütemét és ezen alapmodellek demokratizáló hatását nem lehet alábecsülni. Ezek csodaszert jelentettek azok számára, akik a területen dolgoznak, és nem rendelkeznek tartalék szuperszámítógéppel. Lehetővé teszik a startupok, kutatók és mások számára, hogy gyorsan elsajátítsák a legújabb gépi tanulási megközelítéseket anélkül, hogy időt és erőforrásokat kellene fordítaniuk ezen modellek nulláról történő betanítására.
Az alapmodellek kockázatai: méret, költség és kiszervezett innováció
Azonban nem minden pompás az előre betanított alapmodellek világában, és számos kockázattal jár a növekvő használatuk.
Az alapmodellekkel kapcsolatos egyik kockázat a folyamatosan növekvő méretük . Az olyan neurális hálózatok, mint a Google T5-11b-je (ami 2019-ben nyílt forráskódúvá vált), már most is drága GPU-klaszterre szorulnak a betöltéshez és az előrejelzések elkészítéséhez. Ezeknek a rendszereknek a finomhangolása még több erőforrást igényel. A Google/Microsoft/OpenAI által 2021-2022-ben létrehozott újabb modellek gyakran olyan nagyok, hogy ezek a vállalatok nem adják ki őket nyílt forráskódúként – ma már több tízmillió dollárt igényelnek a létrehozásuk, és egyre inkább jelentős szellemi tulajdonba való befektetésnek tekintik őket még ezeknél a nagyvállalatoknál is.
Azonban, még ha ezek a legújabb modellek nyílt forráskódúak is lennének, ezen hálózatok egyszerű betöltése az előrejelzések készítéséhez („következtetés” a gépi tanulás szóhasználatában) több erőforrás igénybevételét vonja maga után, mint amennyihez sok startup és akadémiai kutató könnyen hozzáférhet. Az OpenAI GPT-3-a például jelentős számú GPU-t igényel a betöltéshez . Még a modern számítási felhők, például az Amazon Web Services használata esetén is ez az Amazon több tucat legdrágább GPU-gépének egy nagy teljesítményű számítási klaszterbe való kiépítését jelentené.
Az adathalmazok illesztése szintén kihívást jelenthet azok számára, akik alapmodelleket használnak. Egy nagyméretű, általános célú adathalmazon végzett előzetes betanítás nem garantálja, hogy a hálózat képes lesz egy új feladatot végrehajtani zárt adatokon. A hálózat annyira kontextushiányos lehet, vagy az előzetes betanítás alapján elfogult, hogy még a finomhangolás sem oldja meg könnyen a problémát.
Például a GPT-2-t , egy népszerű alapmodellt a természetes nyelvi feldolgozás területén, eredetileg 2019 elején jelentették be, és így az adott dátum előtt vagy gyűjtött adatokon képezték ki . Gondoljon csak bele, mi minden történt 2019 óta – világjárvány, valaki? Az eredeti GPT-2 modell biztosan tudni fogja, mi a világjárvány, de hiányozni fog belőle a COVID-19-cel és variánsaival kapcsolatos részletes kontextus, amely az elmúlt években felmerült.
Ennek illusztrálására itt van a GPT-2, amint megpróbálja kiegészíteni a „COVID-19 egy …” mondatot :
GPT-2 (2019): „A COVID-19 egy nagy kapacitású LED-kibocsátó, amely információkat jelenít meg az akkumulátor méretéről és állapotáról.”
Összehasonlításképpen, a GPT-J , egy 2021-ben kiadott nyílt forráskódú nyelvi modell, a következőképpen egészíti ki a mondatot:
GPT-J (2021): „A COVID-19 egy új koronavírus, amely főként a légzőrendszert érinti, és olyan betegséget okoz, amelynek széleskörű klinikai tünetei vannak.”
Elég drámai különbség, ugye? Az adathalmazok összehangolása és a betanítási adatok frissessége rendkívül fontos lehet a felhasználási esettől függően. Minden olyan startupnak, amely alapmodelleket használ gépi tanulási tevékenységeiben, nagy figyelmet kell fordítania az ilyen típusú problémákra.
A felhőalapú API-k egyszerűbbek, de a kiszervezés nem ingyenes
Az olyan cégek, mint az OpenAI, a Microsoft és az Nvidia, felismerték a méretbeli kihívásokat, és olyan felhőalapú API- kkal reagálnak , amelyek lehetővé teszik a nagyméretű modellek következtetéseinek futtatását és finomhangolását a saját üzemeltetett infrastruktúrájukon. Természetesen ma már minden nagyobb felhőszolgáltató kínál gépi tanulási szolgáltatások csomagját, valamint bizonyos esetekben kifejezetten ezekhez a munkaterhelésekhez tervezett egyedi processzorokat. Ez korlátozott nyomáscsökkentő szelepet jelenthet a startupok, kutatók és akár az egyéni hobbitervezők számára is azáltal, hogy a számítási és infrastrukturális kihívásokat egy nagyobb vállalatra hárítja.
Ennek a megközelítésnek azonban megvannak a maga kockázatai . Ha nem tudjuk saját modellünket üzemeltetni, az azt jelenti, hogy mind a betanításhoz, mind a következtetéshez központosított entitásokra kell támaszkodnunk . Ez externalizált kockázatokat okozhat az éles üzemre kész gépi tanulási alkalmazások fejlesztése során: a hálózati kimaradások, az API-k párhuzamos működési vagy sebességkorlátai, vagy egyszerűen a tárhelyszolgáltató általi szabályzatváltozások jelentős működési hatással járhatnak. Ezenkívül az IP-szivárgás lehetősége kellemetlen lehet egyesek számára, amikor az érzékeny, címkézett adatkészleteket (amelyek némelyikére olyan szabályozások vonatkozhatnak, mint a HIPAA) finomhangolás vagy következtetés céljából felhőszolgáltatóknak kell elküldeni.
Végső soron az API-k meghívásának COGS (eladott áruk beszerzési költsége) hatása szintén aggodalomra adhat okot azok számára, akik felhőszolgáltatókat vesznek igénybe gépi tanulási igényeik kielégítésére. Az árképzési modellek szolgáltatónként eltérőek, de mondani sem kell, hogy az API-hívások, az adattárolás és a felhőpéldányok költsége a használattal együtt növekszik. Sok olyan vállalat, amely ma felhőalapú API-kat használ gépi tanuláshoz, végül megpróbálhat átállni az önállóan üzemeltetett vagy önállóan betanított modellekre, hogy nagyobb kontrollt szerezzen a gépi tanulási folyamatai felett, és kiküszöbölje a külső kockázatokat és költségeket.
A hosztolt és előre betanított modellek használatával járó lehetőségek és kockázatok miatt számos vállalat a „kísérleti fázisban” felhőalapú API-kat használ a termékfejlesztés beindításához. Ez az a szakasz, amikor egy vállalat megpróbálja megtalálni a termék és a piac illeszkedését az ajánlatához. A felhőalapú API-k kihasználása lehetővé teheti a vállalatok számára, hogy gyorsan nagy léptékben beindítsák terméküket anélkül, hogy drága infrastruktúrába, modellképzésbe vagy adatgyűjtésbe kellene befektetniük. A felhőalapú gépi tanulási szolgáltatások és a hosztolt előre betanított modellek olyan szolgáltatóktól, mint a Google, az IBM, a Microsoft és az OpenAI, ma már több ezer startupot és tudományos kutatási projektet működtetnek.
Miután egy vállalat megállapította, hogy a terméke illeszkedik a piachoz, gyakran áttér az önállóan üzemeltetett vagy önállóan betanított modellekre , hogy nagyobb kontrollt szerezzen az adatok, a folyamatok és a szellemi tulajdon felett. Ez az átállás nehéz lehet, mivel a vállalatnak képesnek kell lennie arra, hogy skálázza infrastruktúráját a modell igényeihez, valamint kezelnie kell az adatgyűjtéssel, annotációval és tárolással kapcsolatos költségeket. A vállalatok egyre nagyobb összegű befektetői tőkét vonnak be az átállás megvalósításához.
Legújabb startupom, a Hyperia , nemrégiben lépett át egy ilyen átálláson. Eleinte felhőalapú API-kkal kísérleteztünk, miközben az üzleti megbeszélések és az ügyfelekkel folytatott hangbeszélgetések tartalmának megértésén dolgoztunk. De végül a mélyvízbe vetettük magunkat, és nagyszabású adatgyűjtési és modellképzési erőfeszítéseket indítottunk el saját, szabadalmaztatott beszéd- és nyelvi motorok felépítése érdekében. Sok üzleti modell esetében egy ilyen evolúció egyszerűen elkerülhetetlen, ha pozitív egységgazdaságosságot és piaci differenciálást akarunk elérni .
Légy stratégiai, és tartsd szemmel a nagy mesterséges intelligencia laboratóriumokat
Az alapmodellek a gépi tanulás egyik legújabb diszruptív trendjét képviselik, de nem az utolsókat. Miközben a vállalatok egyre nagyobb gépi tanulási szuperszámítógépeket építenek (a Facebook legújabb modellje több mint 16 000 GPU-t tartalmaz), a kutatók új technikákat fejlesztenek a legmodernebb neurális hálózatok betanításával és üzemeltetésével járó számítási költségek csökkentése érdekében. A Google legújabb LaMDA modellje számos innovációt kihasználva hatékonyabban tanít, mint a GPT-3, és a kutatói közösség gyorsan fejleszti az olyan technikákat, mint a modelldesztilláció és a zajos diákok betanítása a modell méretének csökkentése érdekében.
Ezek és mások az innovációk azt jelentik, hogy a startupok továbbra is innoválhatnak – de fontos, hogy nyitva tartsuk a szemünket, mivel a környezet folyamatosan változik. Amit szem előtt kell tartani:
- A felhőalapú API-k kétségtelenül felgyorsíthatják egy vállalat termékpiacra való illeszkedését, de hosszú távon gyakran problémákat is okoznak. Fontos, hogy legyen egy stratégiai kilépési terve , hogy ezek az API-k ne irányítsák a termék sorsát.
- Az alapmodellek jelentősen felgyorsíthatják a gépi tanulási erőfeszítéseket, és csökkenthetik a betanítási és adatgyűjtési költségeket, de fontos tisztában lenni ezen rendszerek korlátaival (pl. a betanítási adatok frissessége) .
- Kövesd nyomon, hogy mi jön ki a nagyvállalati mesterséges intelligencia laboratóriumokból (Google, Microsoft, IBM, Baidu, Facebook, OpenAI stb.). A gépi tanulás rendkívül gyors ütemben változik, minden hónapban új technikák, modellek és adatkészletek jelennek meg. Ezek a kiadások gyakran váratlan időpontokban érkezhetnek, és drámai hatással lehetnek vállalatod gépi tanulási erőfeszítéseire, ha gyorsan tudsz alkalmazkodni.
Végső soron a gépi tanulás jövője és annak hatása a startupokra és a technológiai vállalatokra bizonytalan, de egy dolog világos : azok a vállalatok, amelyek megértik, mi áll rendelkezésre, és okos döntéseket hoznak azok használatáról, sokkal jobb helyzetben lesznek a sikerhez, mint azok, amelyek csak egy gyors MI-megoldást keresnek. (future.com)
Címlapkép forrása: Forbes