TLDR: Nový čínský model AI je zřejmě skutečně významně efektivnější bez ztráty přesnosti než dosavadní modely americké. Jeho výhody jsou ale umocněny tím, že americké AIčka si mohly dovolit plýtvat. Zdroj hír & skrz vlastní rozhovor.
Zvládá stejné úkoly jako ChatGPT, pokud po něm tedy zrovna nechcete vědět, co se dělo v noci ze 3. na 4. června 1989 na náměstí Nebeského klidu – nové čínské AIčko DeepSeek dělá vlny po celém světě. DeepSeek se již v pondělí postaral o rekordní ztrátu ceny akcí, když vlivem šíření informací poklesla důvěra investorů v americké AI a hardwarové společnosti o zhruba o bilion dolarů. Nezbylo tedy, než se do DeepSeeku zkusit alespoň po kotníky ponořit s někým z oboru…
„Co to je a proč mě to má zajímat?”
Zbičujme se na úvod shrnutím suchopárných fakt. Čínská společnost DeepSeek nedávno ve své zprávě o modelu představila inovativní přístup k trénování AI. Na rozdíl od americké konkurence se zaměřila pouze na nezbytné části modelu – oproti tomu běžné metody aktualizují všechny parametry, což vede k vyšší hardwarové náročnosti amerických AIček. Klíčovou strategií DeepSeek je dynamické přiřazování úloh jenom některým (správným) částem modelu. Zároveň má také open-source architekturu, od které západní společnosti (především dnes paradoxně pojmenovaný OpenAI) upustily.
To v praxi znamená, že za jediný token je natrénováno jen 5 % parametrů, nikoliv všech 100 % (kde je však 95 % parametrů více méně „zbytečných”), což obratem dle DeepSeek přineslo 95% snížení zátěže GPU oproti dosavadnímu trénování – to celé bez ztráty přesnosti.
Úspornější je dle asijských tygrů i samotný výstup modelu. DeepSeek optimalizoval práci s key/value páry, které jsou zásadní pro vyhledávání a udržení pozornosti AI. Tyto informace obvykle zabírají velké množství paměti – ale DeepSeek je dokázal efektivně komprimovat. Pokud je to potřeba, model je dokáže zpětně rozbalit s minimální ztrátou přesnosti.
Což znamená, že DeepSeek přináší mírný pokrok v mezích zákona – ale zejména pokrok levnější, jak se sluší a patří na inovaci z dnešní Číny. Zároveň se objevuje ale i protinázor, podle něhož DeepSeek není ani tak Úžasnou Technologickou Novinkou (TM), jako že spíše ukazuje, jak absurdně rozežrané jsou americké AIčka & jak nafouknutá je finanční bublina kolem nich…

„Co si o tom myslí vědátor z oboru?”
„Jsem momentálně na stáži na NUS v Singapuru a DeepSeek je tu velké téma,” píše mi David Herel z ČVUT, kterého mi jako odborníka na téma doporučil Tom Mikolov, „To, co Čína dokázala, otřáslo trhem – Nvidia za jediný den ztratila 400 miliard dolarů, což odpovídá celé valuaci Oraclu. Proč? Protože DeepSeek ukázal, že trénovat špičkové AI modely nemusí stát miliardy a že Západ možná zaspal.”
Jak David popisuje, důvodem úspěchu DeepSeek je skutečně kombinace několika klíčových inovací: hyperoptimalizace využití GPU (šli až na úroveň PTX assembleru, což se téměř nikdo neodvážil), FP8 trénink (většinou se trénuje ve full precision a FP8 je jen na inferenci, protože trénink FP8 má často problém s konvergencí), MoE architektura a především eliminace zbytečné komunikace mezi čipy.
„V podstatě vymáčkli z hardwaru maximum – paradoxně kvůli americkým sankcím museli jít touto cestou, zatímco Západ měl ‚luxus‘ používat ‚neomezený‘ výpočetní výkon a tím možná přišel o motivaci inovovat až na tak low level úrovni jako vymáčknout z GPU maximum – protože jich měl prostě víc a nemusel se starat o cenu. Celkově si myslím, že západní firmy penězi hodně plýtvaly,” shrnuje pohled z oboru.
Faktorů nízké ceny prý však víc než jen přístup k optimalizaci – jedním je prý také levná elektřina v provinciích Číny během období dešťů (což znají bitcoin těžaři), která spolu s dalšími jevy vytvořila model, který stál zlomek ceny západních konkurentů. Přesto David Herel ještě šampáňo nebouchá…
„Než vyhlásíme revoluci, chtěl bych říct jednu věc. Trénink DeepSeek R1 zatím nikdo nezreplikoval – může se stát, že ty zásadní triky si nechali pro sebe. Krom toho ta cena 5M USD je pravděpodobně cena toho nejlepšího runu. Ale předtím určitě ztratili hodně peněz na experimentech a nepovedených runech, takže to číslo je potřeba brát s rezervou,” dodává David.

„Takže spíše evoluce, nikoliv revoluce?”
Zdá se tedy, že DeepSeek skutečně disponuje řadou technologických inovací, které slibují, že soudobá AIčka budou moct běžet s menšími hardwardovými/finančními nároky. Zároveň to však není ani tak, že by ho na koleni za pár buráků postavila parta vesničanů – byť jeho úspěch zřejmě skutečně lze použít jako ilustraci toho, že americké investice do AIček byly zbytečně velké… Což však zároveň bylo veřejným tajemstvím i bez DeepSeeku.
Také jiní vědátoři/odborníci vyjádřili skepsi ohledně udržitelnosti tohoto úspěchu a poukázali na možné limity čínských AI modelů. Jinak řečeno: to, že DeepSeek nyní dosáhl, čeho dosáhl, neznamená, že za měsíc bude významně před OpenAI… Jejíž šéf Sam Altman se už na Twitter/X ke konkurentovi vyjádřil „DeepSeek r1 je působivý model, zejména v oblasti toho, co jsou schopni poskytnout za danou cenu“, nicméně doplnil přesvědčení, že OpenAI slavilo úspěch právě kvůli silnějšímu výpočetnímu výkonu a plánuje tak i nadále, čímž dle představ CEO posune technologii zase o skok před konkurenta. #držímepalečky
Je také otázkou, nakolik jde o trend udržitelný dále. Současné AIčka narážejí na své limity – a DeepSeek se toliko podařilo je v tom spíše dohnat než ve schopnostech přeskočit.
Osobně mi – jako laikovi – připadá, že DeepSeek demonstruje jednu hrozně důležitou věc na každé technologii: demokratizaci jejího vývoje, jakkoliv to je paradoxní u mašiny z Číny. Monopoly jsou zřídkakdy prospěšné, skutečnost, že takhle pokročilé AIčko zvládá i stát mimo ty Spojené, tak znamená dobrou zprávu pro další šíření vynálezu. Samozřejmě, evropští komentátoři si sypou na hlavu popel kvůli tomu, že vyzyvatel OpenAI nepřišel z Evropy. A rovněž: potenciální prasknutí bubliny investic do amerických AIček by zabolelo i investory z Evropy…
Nicméně, kdo jiný by vlastně měl přijít s levnější alternativou nějakého vynálezu, než právě Čína! DeepSeek ukazuje, že i kdyby OpenAI zítra zkrachovala, aktuální AIčka tu zůstanou i nadále – pokud jste doposud doufali, že jde jenom o dočasný módní výstřelek, máte nyní o pořádný důvod víc zvykat si na nový AI normál.
[Ladislav Loukota, DH, JRN]
Vědátor vznikl jako spinoff spolku studentů a popularizátorů vědy UP Crowd, dnes jej provozuje spolek Hyperion Media. Krom různých autorů projekt jako šéfredaktor vede Ladislav Loukota – kontaktní mail je [email protected]