Umělá inteligence, neasi. zdroj: Pixabay

Zdroj obrázku:

A.I. učená na datech od A.I. vede k degeneraci A.I.

TLDR: Doposud se strojová učení učila na datech vytvořených lidmi, to se ale může rychle změnit – a vést to může ke zvýšení rizika „dědičných“ poruch. Studie tuna.

Na datech záleží, áno?

Ačkoliv je to s podivem, letos v červnu uběhl sotva rok od prvního virálního rozšíření Dall-E v široké veřejnosti. Midjourney se ještě krčil opodál, ChatGPT znali jen fajnšmekři – a nyní používají oba nástroje stovky milionů lidí na světě! Spolu s tím se ale o to významněji mluví o tom, jaké má strojové učení i rizika – a jedním z těch přehlíženějších je problém trénování AI na datech… která vytvořila jiná AI.

Velké jazykové modely LLM, na nichž jsou stojí srandy jako jako ChatGPT, Stable Diffusion a Midjourney, byly natrénovány na datech od lidí. Zjednodušeně řečeno, mašiny se naučily svou magii na obsazích, které vytvořili lidi bez pomoci AI. Jenže to se v budoucnu může změnit.

Trénování na datech lidí se obvykle skloňuje kvůli tématu plagiátorství, ale to dnes dejme stranou – rizikem je totiž scénář, při němž se budoucí LLM bude trénovat na obsahu starších LLM. Dnes, kdy je stále větší podíl internetu dílem vzniklým s pomocí strojového učení, se totiž zdá být jen otázkou času, než se produkty AI dostanou do tréninkových dat vyvíjených LLMs.

Parta vědátorů z Velké Británie a Kanady se na toto úskalí zaměřila v nové studii a došla k tomu, že podobné trénování může vytvořit nevratné vady ve výsledných nových modelech. Ironií osudu při tom hrozí cosi, co je vzdáleným analogem inbreedingu – tedy křížení mezi příbuznými členy rodiny, jak ho znáte (doufám) z vtípků o Alabamě…

Digitální plemenitba

Při inbreedingu alias příbuzenské plemenitbě (podržím se anglického výrazu, protože zní méně jako produkt obrozenců) dochází na snížení genové variability potomstva – páření mezi příbuznými totiž může akcentovat nežádoucí geny, které by při množení v širším genovém rybníce nebyly podobně zdůrazněny.

Výsledkem mohou být dědičné choroby, deformace a vůbec všeobecné mrzení. Něco podobného, ale ve světě jedniček a nul, pak hrozí i při trénování LLM na datech jiné LLM…

A.I. učená na datech od A.I. vede k degeneraci A.I., zdroj: Public Domain
A.I. učená na datech od A.I. vede k degeneraci A.I., zdroj: Public Domain

Při konkrétním zkoumání pravděpodobnostních rozdělení pro generativní modely AI typu text-text a obrázek-obrázek dospěli vědátoři k závěru, že učení z dat vytvořených jinými modely způsobuje zhroucení modeluvýsledkem je jakýsi degenerativní proces, při němž modely časem zapomenou na skutečné základní rozdělení dat, a upřednostňuje opět data, která by v pestřejším balíku spíše zanikla.

Daný proces je při takovémto trénování podle autorů „nevyhnutelný“, a to i v případech s téměř ideálními podmínkami pro dlouhodobé učení. Postupem času se chyby ve vygenerovaných datech zkrátka vystupňují – až nakonec donutí modely, které se učí z vygenerovaných dat, ještě více zkreslit realitu.

Jsi to, co čteš

O důležitostí správného výběru tréninkových dat se popsaly již stohy papíru (a ještě více digitálních médií), konkrétním příkladem jsou situace, kdy se strojová učení stala rasisty až na půdu. Pokud vám to jako Čechům nepřipadá jako „zase tak velký problém“, bude dobré připomenout, že třeba čeština také není největším světovým jazykem, takže podobná marginalizace třeba hrozí i z hlediska anglofonních umělých inteligencí popisujících nesprávně české reálie

Autoři práce nicméně vypíchli dva možné způsoby, jak degeneraci umělé inteligence potlačit – v prvním případě skrze zachovávání původních kopií dat a LLM před jeho dalším trénováním, v případě druhém pak odlišením obsahů vytvořených lidmi vs. mašinami. Druhý přístup dnes ale v zásadě neexistuje a není po něm u uživatelů zrovna poptávka, první přístup pak sice teoreticky možný je, panuje však otázka, jak dlouho si společnosti vyvíjející LLM budou schovávat kopie původních dat.

Rozdíl ve výběru trénovacích dat samozřejmě hraje roli již dnes – v budoucnu ale význam tohoto oboru nejspíše jen poroste. Stejně jako nás učí královské rodiny minulosti (případně alabamské rodiny současnosti), že „na výběru záleží“, tuto lekci nám nejspíš jenom připomenou strojová učení budoucnosti.

Je nicméně rozhodně kuriózní, že první rok „nového věku“ AI začínáme objevovat celou plejádu nečekaných úskalí, které technologie má a bude mít!

[Ladislav Loukota]

Vědátor vzniká v dílně spolku studentů a popularizátorů vědy UP Crowd za podpory MUDRstart, který tvoří přípravné testy pro studenty vysokých škol. Krom různých autorů projekt jako šéfredaktor vede Ladislav Loukota – jeho kontaktní mail je vedatororg@seznam.cz

Autolink hír.

Reklama

Reklama

Copyright © 2025 VĚDÁTOR. Všechna práva vyhrazena.
Copyright © 2025 VĚDÁTOR. Všechna práva vyhrazena.