TLDR: Během dvou let se umělé inteligence naučily predikovat tvar bílkovin – nyní by nám mohly říct, jak tyto molekuly i “postavit”. Studie tuna.
Obrátit postup
Bílkoviny alias proteiny jsou základní funkční dílek veškerého života. DNA si možná utrhlo více slávy – ale právě DNA v zásadě obsahuje plány pro stavbu proteinů. Proteiny jako titěrné komplexní makromolekuly obstarávají veškeré biochemické procesy nezbytné pro chod mikrobů, lidí i slonů, právě pro svou malou velikost…tedy maličkost…se ale špatně studují.
Do nedávna k tomu byly potřeba komplexní mikroskopovací metody jako RTG krystalografie či cryo-EM, které měly i své metodické limitace – například nutnost vzorky zmrazit či krystalizovat, což ovšem možnosti studia živých systémů omezuje. V poslední době se ale začaly proteiny naplno odhalovat i uvnitř prediktivních modelů strojových učení.
Zejména laboratoř umělé inteligence DeepMind vlastněná společností Alphabet překvapila svět v roce 2020, když oznámila AlphaFold. Toto strojové učení využívá deep learning nástroje právě pro přesné předpovídání tvarů proteinů. Začátkem letošního léta pak DeepMind oznámila, že AlphaFold nyní dokáže předpovídat tvary všech vědě známých proteinů…o tomu už jsme referovali v minulém týdnu.
Jeden z největších objevů tohoto roku se však nyní možná dočkal pokračování. Tím je nový nástroj ProteinMPNN, který popsala skupina výzkumníků z Washingtonské univerzity ve dvou článcích zveřejněných v časopise Science, nabízí výkonný doplněk této technologie. Ukazuje totiž, že tytéž algoritmy, které předpovídají tvar již existujících proteinů, by mohly navrhovat i tvary proteinů nových, ještě nevysyntetizovaných. Btw kód k článku byl dokonce zveřejněn na GitHubu.
Tradičně vědci navrhují proteiny úpravou těch, které se vyskytují v přírodě, ale ProteinMPNN otevře výzkumníkům zcela nový vesmír možných proteinů, které mohou navrhovat od nuly. S tím budou pojit i nové možnosti jejich využití v medicíně, průmyslu a dalších civilizačních oborech.
Pomoc při tvorbě
Proteiny se skládají ze stovek až tisíců aminokyselin, které jsou spojeny do dlouhých řetězců, jež se pak ještě skládají do trojrozměrných tvarů. Dva proteiny stejného složení, ale různého tvaru, budou mít jiné vlastnosti, a naopak. Složení již umíme delší čas zjistit, AlphaFold ovšem pomáhá vědcům předvídat výslednou strukturu a nabízí tak náhled na to, jak se budou chovat.
Nový algoritmus ProteinMPNN pak snad pomůže výzkumníkům s inverzním problémem. Pokud již vědci mají na mysli přesnou strukturu proteinu, pomůže jim strojové učení najít takovou sekvenci aminokyselin, která se do tohoto tvaru složí.
Systém využívá neuronovou síť vycvičenou na velmi velkém počtu příkladů sekvencí aminokyselin, které se skládají do trojrozměrných struktur. Existence ProteinMPNN však samozřejmě neznamená, že biologie a medicína jsou jedním šmahem dokončené obory.
Výzkumníci stále musí vyřešit i další problém – aby tak mohli navrhnout proteiny užitečné pro reálné aplikace, například nový enzym, který tráví plasty, musí rovněž nejprve zjistit, jaká páteř proteinu by měla tuto funkci plnit.
K tomu vědci Washingtonské univerzity používají dvě metody strojového učení, které tým nazývá „omezená halucinace“ a „v malování„.
První „omezená halucinace“ umožňuje uživatelům náhodně hledat mezi všemi možnými proteinovými sekvencemi a upřednostňovat sekvence s určitými funkcemi. Tato „halucinace“ umožňuje prozkoumat prostor všech možných proteinových struktur díky schopnosti strojového učení zpracovat rozsáhlé soubory dat. K dispozici je 20 aminokyselin, které lze kombinovat do obrovského množství možných sekvencí.
Druhá „v obraze“ funguje podobně jako automatické dokončování v textovém procesoru, ale pro proteinové struktury a sekvence. Pomocí těchto metod mohou vědci vytvořit zcela nový protein, který dosud nebyl v přírodě pozorován, například obří strukturu podobnou prstenci.
Tým autorů studie postuluje, zda by tyto prstencové struktury mohly být použity jako součásti malých strojů, které pracují v nanorozměrech. V budoucnu by tyto nanostroje mohly být použity například k uvolňování tepen.
Nové možnosti
Tyto možnosti nejsou technicky vzato nic, co by doposud nebylo možné zkoumat i bez umělých inteligencí. Díky strojovému učení bude celý proces mnohem rychlejší a jednodušší a výzkumníci budou moci vytvářet zcela nové proteiny a struktury v mnohem větším měřítku. Software je více než 200krát rychlejší než předchozí nejlepší nástroj a vyžaduje minimální vstup uživatele, což může snížit bariéry pro vstup do navrhování proteinů.
To znamená potenciálně rychlejší a efektivnější navrhování léků a dalších chemických látek, které mohou být užitečné pro reálné aplikace i výzkumné účely.
Vzniklo původně pro Mudrstart.cz.
[Ladislav Loukota]
Vědátor vzniká v dílně spolku studentů a popularizátorů vědy UP Crowd za podpory MUDRstart, který tvoří přípravné testy pro studenty vysokých škol. Krom různých autorů projekt jako šéfredaktor vede Ladislav Loukota – jeho kontaktní mail je vedatororg@seznam.cz