A Wikimedia mesterséges intelligencia-baráttá teszi adatait
A Wikipédia mögött álló nonprofit szervezet ma közzétett egy új, mesterséges intelligencia modellekhez tervezett adatbázist.
A Wikipédia és testvéroldalai, mint például a Wikimedia Commons és a Wikidata mögött álló nonprofit szervezet, a Wikimedia megkönnyítette a mesterséges intelligencia modelljei számára, hogy hozzáférjenek a hatalmas tudásbázisához.
A szervezet németországi részlege, a Wikimedia Deutschland kiadott egy új forrást, a Wikidata Embedding Projectet. A projekt a Wikidatában tárolt nagyjából 120 millió nyílt adatpontot olyan formátumba konvertálja, amelyet a nagy nyelvi modellek egyszerűbben használhatnak.
Habár a Wikidata strukturált adatai már géppel olvashatók, még nem kompatibilisek közvetlenül a generatív mesterséges intelligencia rendszerekkel, amelyeket a természetes nyelvvel való együttműködésre terveztek.
Az új projekt a Wikidata-bejegyzéseket vektorokká alakítja, amelyek alapvetően numerikus koordináták, és megmutatják, hogy a különböző állítások hogyan kapcsolódnak egymáshoz.
Képzeljük el úgy, mint egy térképet, ahol a szorosan összefüggő kifejezések, mint a „kutya” és a „kiskutya”, egy csoportban helyezkednek el, míg a nem kapcsolódó kifejezések, mint például a „kutya” és a „bankszámla”, sokkal távolabb vannak egymástól. Ez segít a mesterséges intelligencia rendszereinek a kifejezések kontextusban való megértésében és hatékonyabb feldolgozásában természetes nyelven.
A projekt célja, hogy a mesterséges intelligencia modelljei számára jobb minőségű információkat nyújtson, amelyek megbízhatóbb válaszokhoz vezetnek – áll a Wikimedia Deutschland sajtóközleményében . A Wikimedia szerint a legtöbb mesterséges intelligencia rendszer jelenleg átlátszatlan adatkészletekre támaszkodik.
Másodlagos cél az egyenlő versenyfeltételek megteremtése. A Wikimedia reményei szerint a Wikidata ingyenes elérhetővé tételével a kisebb mesterséges intelligencia alapú cégek versenyezhetnek a technológiai óriásokkal, amelyek egyébként maguk rendelkeznének az adatok vektorizálásához szükséges erőforrásokkal.
„A beágyazási projekt elindítása azt mutatja, hogy a nagy teljesítményű mesterséges intelligenciát nem kell maroknyi vállalatnak irányítania – nyíltan és együttműködésen keresztül is fejleszthető” – mondta Philippe Saadé, a Wikidata mesterséges intelligencia projektmenedzsere egy nyilatkozatban.
A Wikimedia Deutschland 2024 szeptembere óta dolgozik a projekten a Jina AI-val együttműködve, amely a Wikidata-bejegyzéseket vektorokká alakító beágyazó rendszert építette, valamint az IBM DataStax-szal, amely ezeket a vektorokat az adatbázisában tárolja.
Ezzel szemben a kiadás mindössze egy nappal azután érkezett, hogy Elon Musk az X-en bejelentette, hogy egy Wikipédia-riválist épít Grokipedia néven .
„A Grokipediát építjük az @xAI-n” – írta Musk kedden. „Ez hatalmas előrelépés lesz a Wikipédiához képest. Őszintén szólva, ez egy szükséges lépés az xAI célja, az Univerzum megértése felé.”
Musk többször is „Wokipédiának” bélyegezte a Wikipédiát, és panaszkodott, hogy nincs alternatívája a jobboldali nézeteknek. Újraposztolta Larry Sangert, a Wikipédia társalapítóját is, aki 2002-ben kilépett, és azóta több versengő projektet is megpróbált elindítani. Sanger, a Wikipédia régóta jobboldali kritikusa, nemrégiben az X-en azt írta, hogy a Wikipédia túlságosan globalistává, akadémikussá, világivá és progresszívvé vált .
Musk azon törekvése, hogy egy rivális enciklopédiát hozzon létre, amely az általa preferált tényeket tartalmazza, csak aláhúzza, hogy miért indította el a Wikimedia a saját mesterséges intelligencia projektjét. Ahogy a mesterséges intelligencia egyre inkább elterjed, az ezekben a rendszerekben használt adatok minősége és elfogultsága potenciálisan befolyásolhatja azt, hogy emberek milliói mit hisznek igaznak. (Gizmodo)