A nyílt forráskódú LLM-modellt fejlesztő, kínai DeepSeek sikeres debütálása a piacon alapjaiban kérdőjelezi meg azt a hiedelmet, hogy az AI-alapmodellek fejlesztéséhez dollármilliárdokra van szükség.
Már-már közhelyszámba megy, hogy az AI-alapmodellek fejlesztése akár dollármilliárdokat is megkövetelhet.
Ennek oka, hogy a modellfejlesztéshez olyan jelentős számítástechnikai teljesítmény kell, aminek során akár a tízezer darabot is meghaladó chipek klaszterbe fűzésére lehet szükség, ami pedig rendkívül magas tőke- és energiaszükséglettel jár.
Nem véletlen, hogy a piacvezető cégek hatalmas összegekkel gazdálkodnak: a ChatGPT-t fejlesztő OpenAI legutóbbi köre önmagában 4 milliárd dollárt tett ki, miközben értékelése 157 milliárd dolláron áll. A Claude-ot fejlesztő Antrophic legutóbbi köre 1 milliárd dollárról szólt, értékelése pedig eléri a 60 milliárd dollárt. Az amerikai versenytársak legígéretesebb európai kihívójának tűnő Mistral AI is nagyot robbantott, amikor 640 millió dolláros Series B kört vont be tavaly júniusban, 6,4 milliárd dollárra felszökő értékelésével pedig Európa legnagyobb értékelésű AI-startupjává vált.
Az ilyen befektetési és értékelési összegeket látva nem véletlen vált ki felhördülést az, ha valaki a ChatGPT teljesítményével vetekvő alapmodellel állít be a piacra, miközben azt állítja: a versenytársak büdzséjének töredékéből érte el ezt a teljesítményt.
A ChatGPT-vel vetekvő LLM, pár millió dollárból és kétezer chipből
Pont ezt valósította meg a mindössze 2023-ban alapított, kínai DeepSeek, ami R1 nevű, nyílt forráskódú, nagy nyelvi modelljével (LLM) januárban debütált a piacon, és már meg is előzte a rivális ChatGPT-t az AppleStore-ban.
A DeepSeek által publikált eredmények alapján modelljük az OpenAI o1modelljéhez hasonló teljesítményt ér el a matematikai, kódolási és következtetési feladatokban. És ami a legmeglepőbb: a startup állítása szerint mindössze 6 millió dollárt kellett költeniük az R1 betanítására,
ami csupán apró töredéke azoknak az összegeknek, amiket a versenytársaik elköltenek. Csak hogy érzékeltessük: a GPT-4 betanítására az OpenAI több mint 100 millió dollárt szánt. A kínai startup egyébként egyetlen seed kört jegyez az anyavállalatától, a kínai fedezeti alapokkal foglalkozó High-Flyer Quanttól.
Tavaly augusztusban híresség lett Yusuf Dikeç török sportlövő, aki a légpisztolyos vegyes csapat tagjaként lett olimpiai ezüstérmes Párizsban. A sportlövő azzal szerzett hírnevet, hogy zsebre dugott kézzel, profi eszközök nélkül lőtt olyan pontossággal, mint mások profi felszereléssel. Ezt felhasználva figurázza ki az OpenAI-t ez a mém, amelyet az AWS generatív AI vezetője, Eduardo Ordax alkotott.
A költségkülönbség magyarázata a DeepSeek által használt chipek számában rejtőzik:
amíg más modellekhez a fejlesztők akár több mint 16 ezer chipet használnak, addig az R1 modellhez mindössze 2 ezer Nvidia chipre volt szükség a DeepSeek közlése alapján.
A DeepSeek látványos felemelkedésére válaszul érkező tőzsdei pánik azt eredményezte, hogy január 27-e, hétfő nap végére a chipóriás Nvidia részvényei 18 százalékot zuhantak (ami közel 600 milliárd dolláros értékeléscsökkenést jelent), míg az Amazon és a Microsoft részvényei 5 százalék körüli mértékben estek vissza.
Milyen következményei lehetnek a DeepSeek váratlan sikerének?
Mindez alapjaiban kérdőjelezi meg az AI-alapmodellek hatalmas költségeibe vetett hiedelmet. „Ha egy 160 milliárd dollárra értékelt vállalat, mint az OpenAI, 3,7 milliárd dolláros bevétel mellett 5 milliárd dollár veszteséget termel, nem látom, hogy mégis hogyan lehet megtalálni a pénztermeléshez vezető utat” – mondja Umesh Padval, a Thomvest Ventures ügyvezető igazgatója. Hozzátette:
ez ébresztő kell legyen, hogy a csillagászati összeggel operáló term sheeteknek és cégértékeléseknek egyszerűen nincsen értelmük.
Liang Wenfeng, a DeepSeek CEO-ja elmondása szerint az R1 modell alapját az ilyen Nvidia A100-as chipek adták. Forrás: Az Nvidia honlapja
Hogy ennek mi lesz a következménye, arról egyelőre megoszlanak a vélemények. Ami biztos, hogy az alapmodelleket nagy költséggel fejlesztő cégeknek ezután nehezebb lesz megérvelni a befektetőknek, hogy miért kérnek akkora tőkét, amennyit.
Kiváltképp igaz lehet ez az európai alapmodell-fejlesztőkre, akik – mint arra Nathan Benaich, az AI-fókuszú Air Street Capital alapítója és általános partnere rávilágított –
már így is nehezen tudták megkülönböztetni magukat az árak vagy a teljesítmény tekintetében az amerikai versenytársaiktól: számukra az R1 modell megjelenése a világ egy másik részéről érkező pofont jelent.
Másrészt mindez kinyithatja a piacot más szereplők előtt is: Thomas Wolf, a Hugging Face francia-amerikai AI-vállalat tudományos vezetője és társalapítója szerint a DeepSeek váratlan sikere megmutatta, hogy közel sincsenek akkora akadályok a minőségi alapmodell-építésben, mint eddig gondoltuk: azt sok csapat meg tudja csinálni.
Aminek viszont igazán nagy lendületet adhat az R1 debütálása, az az alapmodellekből szerteágazó AI-innovációk fejlesztése. William Tunstall-Pedoe, a londoni székhelyű deeptech UnlikelyAI alapítója és vezérigazgatója szerint
„az alapmodellek sokkal alacsonyabb költsége és a nyílt forráskódolás felé való elmozdulás katalizátora a több innovációnak és a nagyobb választéknak, ami csak jól jöhet az ilyen modellekkel AI-technológiát építő startupok számára.”
Rahul Tyagi, a kvantumszámítással foglalkozó SECQAI vezérigazgatója és alapítója viszont arra hívta fel a figyelmet, hogy ettől függetlenül Európa hátrányai az AI-versenyben (mint a fragmentált befektetői piac, a lassabb technológia adaptáció és az agyelszívás) továbbra is léteznek, amik megakadályozhatják, hogy Európa kihasználja a DeepSeek által megnyitott lehetőségeket.
NYITÓKÉP: A DeepSeek logója