TLDR: Strojové učení AlphaFold na soutěži CASP vyhrálo s odhadem tvaru proteinů dle řetězce jeho aminokyselin. Může to být významný skok v celé medicíně, zatím jde ale jen o první krok v potvrzení milníku. Studie tu.
Proteinová revoluce?
Možná i vy jste zaznamenali zprávy o tom, že strojové učení od DeepMind provedlo na konci listopadu cosi výjimečného. Nebudeme vás napínat, konečně se totiž podařilo vypočítat složenou strukturu proteinů na základě jejich sekvence! Mašina tak určila vcelku přesně 3D strukturu proteinu z AA sekvence! Problém je, že polovina lidí nejspíše netuší, co jsem to teď napsal – a druhá polovina možná zase neví, že tahle AI nevznikla zrovna před týdnem…
Půjdeme tedy postupně. Program, který DeepMind (založená Demisem Hassabisem, který kdysi vyvíjel hry Republic: The Revolution a Evil Genius…) sesmolil, se jmenuje AlphaFold.Není to nové označení, jak jsem zmínil, algoritmus přichází od DeepMind, čili také tvůrců AlphaGo či AlphaZero. Umělá inteligence přitom – asi – počítá tvar výsledného proteinu podle řetězce jeho aminokyselin (ze kterých se skládá).
Jako obvykle platí, že výzkumníci nasypali do AI data, která „trénovala“ mašinu, a následně onu mašinu nechala si to nacvičit. AlphaFold se tak skládání proteinu naučil na veřejné databázi 170 tisíců proteinů nebo jejich částí, učení přitom běželo na cca 100-200 (dle toho, jak to kdo definuje) grafických čipech slušných pár týdnů.
S tímhle nastavením se AlphaFold účastnil letošní soutěže CASP (Critical Assessment of Structure Prediction), kde se jeho virtuální výsosti podařilo s přehledem obsadit první místo. Už v minulém ročníku (2018) se přitom Google držel na vrchních příčkách, ale tentokrát obsadil první místo zcela s přehledem. Struktury, které z AlphaFoldu vypadly, jsou přitom k nerozeznání od těch, co se získávají z rentgenové krystalografie!
Umělá inteligence tedy šlape, a šlape dobře – ale jde o výsledek dlouhého výzkumu, teprve praxe ukáže případné rozdíly výpočtu tvaru proteinů vůči reálnému tvaru. Ale k tomu se ještě dostaneme níže – nejprve si totiž musíme říct, k čemu ty proteiny jsou!

In silico we trust
Když se to vezme kolem a kolem, proteiny jsou vlastně základ toho, jak živý organismus (třeba vy nebo já) funguje. DNA je fajn, ale stojí o úroveň níže – a obsahuje vlastně „jen“ plány proteinů. Buňky jsou taky podstatné, ale ty zase stojí o level nad proteiny, a z proteinů se skládají. Protein, to je základ. Jenže protein není jen jeden. Existuje jich myriáda!
Každý protein je různého složení a není ve 2D, nýbrž ve 3D struktuře. Právě to, jak jsou proteiny zakroucené, jaký mají tvar, definuje jejich vlastnosti a vzájemné interakce mezi proteiny! Nějaký specificky zakroucený protein nového koronaviru je třeba to, co obsahují (v zásadě) vakcíny, a právě podle takového proteinu se učí naše imunitní buňky poznávat patogeny. Tvar proteinu je tedy dost podstatný.

Covid nezmiňuju jenom pro naplnění strašící kvóty, ale hlavně jako ilustraci proměny rychlosti výzkumu léků díky moderním technologiím – rychlosti, která se nejspíše bude i díky AlphaFold dále zrychlovat. Doposud se totiž ten tvar dost blbě odhaloval. Jak jsem rozebral několikrát nedávno, mikroskopem můžeme sice proteiny vyfotit, ale po desítky let to šlo jen v případě, že jsme ty proteiny zkrystalizovali. A nyní to už jde skoro i bez toho – ale pořád ty proteiny musíme zamrazit. Schopnost velmi věrně dopočítat proteinový tvar by tedy mohla být skutečně zlomová!
Pokud nyní, s pomocí AlphaFold, můžeme třeba srazit cenu objevu nových proteinových struktur, protože nebudeme potřebovat k novým lékům (vakcínám, drogám…) provádět náročné a detailní experimenty. Navíc, nyní máme plné databáze sekvencí, ať už genů, nebo přímo aminokyselin – takže je možné očekávat i boom v jejich analýze. V konečném důsledku z toho může třeba i vypadnout nějaký ten lék. A kdo ví, třeba i chleba bude levnější…
V tomto ohledu je tedy AlphaFold skutečně významný. Jenže přesně tohlecto úspěch v soutěži CASP ještě nedoručila!

Skeptický závěr
Co nyní víme, je v zásadě to, že AI na dopočet proteinů asi funguje, ale přirozený pesimista ve mně si není úplně jist, kdy budou tyhle výsledky aplikovány. Dovedu si totiž představit, že ještě setsakra dlouho budou muset být výpočty ověřovány experimentálně, a teprve to ukáže, nakolik je mašina přesná, a nakolik se případně plete.
Platí ale, že i v případě menší odchylky (kterou by se umělá inteligence časem navíc zřejmě naučila snižovat) by AlphaFold a jemu podobní následovníci mohli být “game changer” ve strukturní bioinformatice! Takhle rychlý postup predikce tvaru proteinů fakt nikdo nečekal – a nakonec se ukazuje, že budoucnost je již dnes!
Tahle AI nejen že překonala v úspěšnosti (pořád jen v rámci soutěže!) všechny ostatní doposud známé/používané programy, ale dokonce i laboratorní metody. Ty mají totiž spolehlivost/účinnost 90 ze sta, zatímco AlphaFold rovných 92,5 ze sta (bodů, které si autoři práce stanovili). Nicméně, toto číslo je jen medián, ale i u nejnáročnějších proteinů se úspěšnost propadla jen na 87.
Ještě lepší je rychlost výsledků. Laboratorně trvá zkoumání proteinů klidně desítky let – AIto zvládá za minuty, maximálně dny!
Revoluce to zatím není, a není to ani stoprocentní – bude tradičně čekat na nezávislé potvrzení, teprve postupně budou vyplývat nejspíše i nějaké nepřesnosti pro praktické využití. Spolu s nedávnými průlomy cryo-EM analýzy proteinů se však zdá, že farmacie bude mít v této dekádě na růžích ustláno. Skutečný zlom ale přijde až v okamžiku, kdy na základě těchto technologií dorazí i první skutečné aplikace.
Kdo ví, třeba budeme za „pár let“ sami překvapeni, že v roce 2020 jsme na očkování proti COVIDU museli čekat celý jeden rok!
[Martin Vondrák, Martin Jašek, LL]
Vědátor vzniká v dílně spolku studentů a popularizátorů vědy UP Crowd za podpory MUDRstart, který tvoří přípravné testy pro studenty vysokých škol. Krom různých autorů projekt jako šéfredaktor vede Ladislav Loukota – jeho kontaktní mail je [email protected]