DeepMind behauptet frühe Fortschritte bei der prädiktiven Proteinmodellierung auf KI-Basis.

Der im Besitz des KI-Spezialisten DeepMind befindliche KI-Spezialist DeepMind hat einen „bedeutenden Meilenstein“ erreicht, um die Nützlichkeit der künstlichen Intelligenz zu demonstrieren, die bei der komplexen Aufgabe der Vorhersage von 3D-Strukturen von Proteinen allein auf der Grundlage ihrer genetischen Sequenz hilft.

Das Verständnis von Proteinstrukturen ist wichtig für die Diagnose und Behandlung von Krankheiten und könnte das Verständnis der Wissenschaftler für den menschlichen Körper verbessern und möglicherweise dazu beitragen, Proteindesign und Bioengineering zu unterstützen.

In einem Blogbeitrag über das Projekt, mit dem die KI vorhersagen kann, wie sich Proteine falten – jetzt seit zwei Jahren – schreibt sie: „Die 3D-Modelle von Proteinen, die AlphaFold[DeepMind’s KI] erzeugt, sind viel genauer als alle anderen, die es bisher gab – und machen signifikante Fortschritte bei einer der zentralen Herausforderungen in der Biologie“.

Es gibt verschiedene wissenschaftliche Methoden, um den nativen 3D-Zustand von Proteinmolekülen (d.h. wie sich die Proteinkette faltet, um in den nativen Zustand zu gelangen) aus Rest-aminosäuren in der DNA vorherzusagen.

Aber die Modellierung der 3D-Struktur ist eine sehr komplexe Aufgabe, wenn man bedenkt, wie viele Permutationen es geben kann, da die Proteinfaltung von Faktoren wie Wechselwirkungen zwischen Aminosäuren abhängt.

Es gibt sogar ein Crowdsourced Game (FoldIt), das versucht, die menschliche Intuition zu nutzen, um funktionierende Proteinformen vorherzusagen.

DeepMind sagt, dass sein Ansatz auf jahrelanger Forschung basiert, um mit großen Daten Proteinstrukturen vorherzusagen.

Konkret geht es um die Anwendung von Deep Learning Ansätzen auf genomische Daten.

„Glücklicherweise ist der Bereich der Genomik dank der schnellen Senkung der Kosten für die genetische Sequenzierung recht reich an Daten. Infolgedessen haben sich in den letzten Jahren immer mehr Ansätze des Deep Learning für das Vorhersageproblem, die auf genomischen Daten basieren, durchgesetzt. DeepMind’s Arbeit an diesem Problem führte zu AlphaFold, das wir dieses Jahr bei CASP[Community Wide Experiment on the Critical Assessment of Techniques for Protein Structure Prediction] eingereicht haben“, schreibt es im Blogbeitrag.

„Wir sind stolz darauf, Teil dessen zu sein, was die CASP-Organisatoren als „beispiellosen Fortschritt in der Fähigkeit von Berechnungsmethoden zur Vorhersage der Proteinstruktur“ bezeichnet haben, indem wir den ersten Platz in den Ranglisten der teilnehmenden Teams belegt haben (unser Eintrag ist A7D)“.

„Unser Team konzentrierte sich speziell auf das schwierige Problem, Zielformen von Grund auf zu modellieren, ohne zuvor gelöste Proteine als Vorlagen zu verwenden. Wir haben eine hohe Genauigkeit bei der Vorhersage der physikalischen Eigenschaften einer Proteinstruktur erreicht und dann zwei verschiedene Methoden verwendet, um Vorhersagen über vollständige Proteinstrukturen zu treffen“, fügt sie hinzu.

DeepMind sagt, dass die beiden Methoden, die es verwendet hat, auf der Verwendung von tiefen neuronalen Netzwerken beruhten, die trainiert wurden, um Proteineigenschaften aus seiner genetischen Sequenz vorherzusagen.

„Die Eigenschaften, die unsere Netzwerke vorhersagen, sind. (a) die Abstände zwischen Aminosäurepaaren und (b) die Winkel zwischen chemischen Bindungen, die diese Aminosäuren verbinden. Die erste Entwicklung ist ein Fortschritt gegenüber gängigen Techniken, die schätzen, ob Aminosäurepaare nahe beieinander liegen“, erklärt sie.

„Wir haben ein neuronales Netzwerk trainiert, um eine separate Verteilung der Abstände zwischen jedem Paar von Rückständen in einem Protein vorherzusagen. Diese Wahrscheinlichkeiten wurden dann zu einem Score zusammengefasst, der schätzt, wie genau eine vorgeschlagene Proteinstruktur ist. Wir haben auch ein separates neuronales Netzwerk trainiert, das alle Entfernungen zusammen verwendet, um abzuschätzen, wie nah die vorgeschlagene Struktur an der richtigen Antwort liegt.“

Es benutzte dann neue Methoden, um zu versuchen, Vorhersagen von Proteinstrukturen zu konstruieren, indem es bekannte Strukturen suchte, die seinen Vorhersagen entsprachen.

„Unsere erste Methode basiert auf Techniken, die in der Strukturbiologie üblich sind, und ersetzt immer wieder Teile einer Proteinstruktur durch neue Proteinfragmente. Wir haben ein generatives neuronales Netzwerk trainiert, um neue Fragmente zu erfinden, die verwendet wurden, um den Score der vorgeschlagenen Proteinstruktur kontinuierlich zu verbessern“, schreibt es.

„Die zweite Methode optimiert die Ergebnisse durch Gradientenabstieg – eine mathematische Technik, die im maschinellen Lernen häufig verwendet wird, um kleine, schrittweise Verbesserungen vorzunehmen – was zu hochpräzisen Strukturen führte. Diese Technik wurde auf ganze Proteinketten angewendet und nicht auf Teile, die vor der Montage separat gefaltet werden müssen, was die Komplexität des Vorhersageprozesses reduziert.“

DeepMind beschreibt die bisher erzielten Ergebnisse als „erste Anzeichen für Fortschritte bei der Proteinfaltung“ mit Hilfe von Berechnungsmethoden und behauptet, dass sie „den Nutzen der KI für die wissenschaftliche Entdeckung“ demonstrieren.

Obwohl es auch betont, dass der Deep-Learning-Ansatz noch am Anfang steht und irgendeine Art von „quantifizierbarer Wirkung“ hat.

„Auch wenn noch viel mehr zu tun ist, bevor wir quantifizierbare Auswirkungen auf die Behandlung von Krankheiten, das Umweltmanagement und vieles mehr haben, wissen wir, dass das Potenzial enorm ist“, schreibt sie. „Mit einem engagierten Team, das sich darauf konzentriert, herauszufinden, wie maschinelles Lernen die Welt der Wissenschaft voranbringen kann, freuen wir uns darauf, die vielen Möglichkeiten zu sehen, wie unsere Technologie etwas bewirken kann.“

CMS Forum