AI maakt de vorm van eiwitten voorspelbaar

(Dit is een fantasie-eiwit in de vorm van de menselijke hersenen)

In dit artikel een excursie in een gebied waarover ik normaliter niet schrijf, namelijk biochemie in relatie met medische zaken. Ik weet daar te weinig van.

Maar de digitale nieuwsbrief van MIT van 30 nov 2020 beschrijft hoe AI (Artificial Intelligence) een probleem opgelost heeft dat  al vijftig jaar een van de hoofdproblemen van de biologie is: hoe voorspel je de vorm van een eiwit als je de bestanddelen daarvan volledig kent? Het definieren van de vraag was in de jaren ’70 al goed voor de Nobelprijs Scheikunde in 1972 (Christian Anfinsen, een kind overigens van (in dit geval) Noorse immigranten in de VS).
Het MIT-artikel is te vinden op https://www.technologyreview.com/2020/11/30/1012712/deepmind-protein-folding-ai-solved-biology-science-drugs-disease/?truid=17ea3c5617f2127d84996cc1fb99d190&utm_source=the_download&utm_medium=email&utm_campaign=the_download.unpaid.engagement&utm_term=non-subs&utm_content=12-01-2020&mc_cid=47f95a73fc&mc_eid=4c1d1315ec .
Het is ook voor niet-medici goed genoeg te volgen om er over te schrijven, en het belang van de ontwikkeling kan niet hoog genoeg ingeschat worden.

Elk eiwit is een heel lang kralensnoer. De kralen zijn aminozuren en daar zijn er twintig verschillende van, die alle leven op aarde dragen. Elke combinatie in elke volgorde is denkbaar en een kralensnoer kan van enkele tot enkele duizenden kralen lang zijn. Zodoende zijn er miljarden verschillende eiwitten – in het menselijk lichaam alleen zo’n 20.000. Van het bindweefseleiwit collageen tot insuline tot keratine in je huid en haren tot insuline. En tot het spike-eiwit van het Coronavirus.



Het eenvoudigste aminozuur is glycine (links en midden). Alle 19 andere aminozuren zijn variaties op dit thema door toevoeging van extra atoomgroepen. Rechts bijvoorbeeld cysteïne dat een extra zwavelgroep heeft en o.a. in je haren zit.
Aminozuren koppelen (‘rijgen’) op vaste wijze doordat de rechterkant van het ene molecuul (rood) bindt met de linkerkant van het andere molecuul (blauw).
De zwarte assen zijn draaibaar om hun hartlijn.
Sommige nevengroepen, zoals de zwavelgroep, kunnen ook ‘zijwaarts’ koppelen. (Om in de kralensnoer-beeldspraak te blijven: het is of sommige kralen magnetisch zijn). Daardoor gaat het snoer spontaan kronkelen tot de laagste energietoestand bereikt is.  

Als een gewoon kralensnoer in elkaar gefrommeld is, is dat vervelend. Maar het leven op aarde vereist dat het aminozuur-kralensnoer in elkaar gefrommeld is.
Als het spike-eiwit van Corona gewoon een rechte lijn van aminozuren zou zijn, deed het niks. Maar opgefrommeld tot de voor dat eiwit gunstigste vorm heeft het een ruimtelijke structuur die past op een receptor op een longcel, die toevallig een complementaire ruimtelijke structuur heeft.
Cysteinehoudende aminozuren pakken elkaar vast met hun zwavelatomen en vormen zo de vezels waaruit je haren bestaan.

Insuline

   
De aminozuurvolgorde bepalen van een eiwit kan men tegenwoordig min of meer routinematig. Er verschijnen er mondiaal honderden per jaar. Vervolgens moet van die volgordes de ruimtelijke structuur bepaald worden, en dat is hogeschoolwerk.

Het kan experimenteel met bepaalde laboratoriumtechnieken, maar dat kan tonnen en jaren per eiwit kosten.
Het kan ook op de computer, en wel volgens twee strategieën: een klassieke algoritmische en een AI-methode met neurale netwerken.
De klassieke algorithmische is van Mohammed Al Quraishi van Columbia University (de wetenschap is veelkleurig). Die werkt snel (supercomputer, orde van grootte van seconden), maar minder precies. Soms is dat goed genoeg of is dat vanwege de snelheid beter.
De AI-methode is waar nu de spectaculaire vernieuwing zit. Die werkt trager (enkele dagen computertijd), maar is onwaarschijnlijk precies. De onzekerheid in de positie is bij tweederde van de doorgerekende en gecontroleerde eiwitten orde van grootte van 0,16nanometer, orde van grootte van de diameter van een atoom. Preciezer dan dat haalt ook het lab niet, ook al omdat door de warmtebeweging de atomen nooit helemaal stil liggen.

Het AI-programma heet AlphaFold en maakt deel uit van een familie, waarvan een ander lid de wereldkampioen GO versloeg.
De familie is ontwikkeld door de van oorsprong Britse onderneming DeepMind ( https://en.wikipedia.org/wiki/DeepMind ), die nu eigendom is van Google’s moederholdiong Alphabet. Dat roept veel politieke en ethische vragen op.
Een nadere beschrijving van AlphaFold is te vinden op https://en.wikipedia.org/wiki/AlphaFold .

AI-programma’s worden getraind met heel veel, reeds bekende, voorbeelden. AlphaFold heeft er 170.000 toegevoerd gekregen (eiwitten waarvan de volgorde en de structuur dus al eerder bepaald waren). Dat duurde een paar weken.
Vervolgens gebeurt er iets geheimzinnigs in de neurale netwerken wat vooralsnog niemand kan navertellen (AI heeft een replicatieprobleem) , en dan rolt er een oplossing uit die vaak net zo goed is als de beste laboratoriumbepalingen.
Researchers zouden erg graag willen weten hoe dat geheimzinnige proces precies verloopt ‘Dan gaan er duizend bloemen bloeien’ aldus Baker, een bekend onderzoeker op dit gebied.

Van de ongeveer 20.000 menselijke eiwitten is van ongeveer 5000 de ruimtelijke structuur bekend. Die andere 15.000 zijn in principe allemaal potentiële doelwitten voor medicijnen.

DeepMind wil zich gaan toeleggen op de parasitaire ziektes leishmaniasis, malaria en slaapziekte. Daar slingeren nog een heleboel onontdekte eiwitstructuren rond.

Malariaparasiet
SVG-version of Image:Esculaap3.png by Evanherk, GFDL, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=3730168
Malariaparasiet in rode bloedcel
(CDC-VS)