10.08.2020 | Künstliche Intelligenz

„Zellen sind quasi biologische Computer“

Wie maschinelles Lernen auf biologischen Netzwerken funktioniert, zeigt eine neue Methode, die von Molekularmedizinern der ÖAW entwickelt und nun in der Fachzeitschrift Genome Biology vorgestellt wurde.

3D-Rendering von Molekülen
Künstliche Intelligenz hält auch in der Biologie Einzug. © Shutterstock

Eine neue Methode verbindet Deep Learning, also maschinelles Lernen auf tiefen neuronalen Netzwerken, mit der Interpretierbarkeit biologischer Netzwerke. Entwickelt wurde sie von einem Team am CeMM - Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften (ÖAW) mit dem Ziel, die Funktion von Zellen im Computer abzubilden und digital zu analysieren. Die Studie wurde jetzt in der Fachzeitschrift Genome Biology veröffentlicht.

Woraus künstliche neuronale Netzwerke bestehen, wie man mit ihnen rechnen kann, und warum sowohl die Biologie als auch die Informatik von dieser Kombination von künstlichen und biologischen Systemen profitieren, erklärt Christoph Bock, Bioinformatiker und Gruppenleiter am CeMM der ÖAW.

Herr Bock, welche Fragestellungen haben Sie bei der Entwicklung dieser Methode begleitet?

Christoph Bock: Maschinelles Lernen ist momentan ein heißes Thema, das eine völlig neue Art von Wissenschaft ermöglicht. Allerdings mit Einschränkungen: Zwar können wir mit Hilfe von riesigen Datensätzen lernen und vorhersagen, wann ein selbstfahrendes Auto bremsen oder beschleunigen sollte, aber wir sind sehr schlecht darin, aus diesen hochkomplexen Algorithmen verständliche Modelle und befriedigende Erklärungen abzuleiten. Dabei ist ein wesentlicher Inhalt der Wissenschaft ja genau das: Wir wollen für die Menschen nachvollziehbare Theorien bilden und die Welt um uns herum verstehen.

Maschinelles Lernen ermöglicht eine völlig neue Art von Wissenschaft.

Was bedeutet das für die Biologie?

Bock: In der Biologie steht eher nicht die Vorhersage im Mittelpunkt, sondern das molekulare Verständnis. Wir wollen verstehen und erklären können, was in der Zelle passiert, wenn wir sie zum Beispiel mit einem Medikament behandeln. Welche Proteine werden aktiv? Wie ändert sich die Genexpression? Wie verändert sich die Funktion der Zelle? Das sind die Fragen, die wir mit unserer neuen Methode adressieren.

Woraus besteht denn das neuronale Netz in der Zelle?

Bock: Zellen sind quasi "biologische Computer“, die auf Signale reagieren und komplexe biochemische Berechnungen durchführen. Dafür hat die Zelle vielfältige Signalrezeptoren auf ihrer Oberfläche. Diese reagieren auf all die Moleküle, die rund um die Zelle vorhanden sind. Der Prozess der biologischen Signalverarbeitung startet meist von den Oberflächenrezeptoren und setzt sich über diverse Proteine, zum Beispiel Kinasen, bis hin zu den Transkriptionsfaktoren und ihren Ziel-Genen fort. Diese Abläufe werden schon seit vielen Jahren durch Netzwerke beschrieben, sogenannte genregulatorische Netzwerke und zelluläre Signalkaskaden. Wir nutzen jetzt die Leistungsfähigkeit von Deep Learning, um auf diesen vielschichtigen und komplexen Netzwerken Berechnungen durchzuführen, welche die biologischen Abläufe der Zelle abbilden und sie damit einerseits vorhersagbar und andererseits erklärbar machen.

Wir wollen verstehen und erklären können, was in der Zelle passiert, wenn wir sie zum Beispiel mit einem Medikament behandeln.

Welchen Weg der Darstellung haben Sie gefunden, damit man damit rechnen kann?

Bock: Wir haben eine Analogie hergestellt zwischen biologischen Netzwerken – auf denen biologische „Berechnungen“ stattfinden wie etwa eine Zelle auf Umwelteinflüsse reagiert – und den künstlichen neuronalen Netzwerken, auf denen das Deep Learning basiert. Darauf aufbauend haben wir eine Methode entwickelt, die wesentliche Vorteile beider Ansätze kombiniert. Wir können mit dieser Methode ein tiefes neuronales Netzwerk erzeugen, das das biologische Wissen von genregulatorischen Netzwerken und Signalnetzwerken im Computer abbildet und das sich mit Hilfe von Deep Learning trainieren lässt.

Wir nutzen die Leistungsfähigkeit von Deep Learning, um auf diesen vielschichtigen und komplexen Netzwerken Berechnungen durchzuführen, welche die biologischen Abläufe der Zelle abbilden und sie damit vorhersagbar und erklärbar machen.

Weil in diesem Netzwerk jeder einzelne Knoten einem Protein oder einem Gen in der Zelle entspricht und jede einzelne Verbindung einer bereits beschriebenen Genregulation oder Signalkaskade, erreichen wir damit eine biologische Interpretierbarkeit der gelernten Modelle. Das bedeutet, man kann sich von diesem Netzwerk nicht nur sagen lassen, was die Vorhersage ist, sondern auch, warum die Vorhersage so ist.

Sie kombinieren experimentelle Biologie mit Informatik. Ein Gewinn für beide Seiten?

Bock: Ja. Die Biologie erhält Interpretationen und neue biologische Erklärungen, mit denen man zurück ins Labor gehen und testen kann. Und die Informatik profitiert von der Verfeinerung des Deep Learning und einer neuen Art von „eingebauter“ Interpretierbarkeit. Wir haben gezeigt, dass es möglich ist, eine Interpretierbarkeit in das Deep Learning hineinzukodieren, indem wir auf anwendungsspezifischen Netzwerken lernen. Der Wert dieses Ansatzes geht möglicherweise weit über die Biologie hinaus.

Inwiefern?

Bock: Wenn man es schafft, Deep Learning mit eingebauter Interpretierbarkeit durchzuführen und mit ähnlicher Vorhersage-Genauigkeit wie die aktuell besten, nicht-interpretierbaren Methoden des maschinellen Lernens umzusetzen, dann ergeben sich mehrere Vorteile. Man versteht, was der Algorithmus macht. Man kann voraussagen, wo es Probleme geben wird. Man kann auch kontrollieren, ob der Algorithmus eventuell „unethisch“ handelt und Regeln verwendet, die diskriminierend oder anderweitig problematisch sind. Man gewinnt also nicht nur inhaltliches Verständnis, sondern auch Verlässlichkeit und Vertrauen.

Bioinformatik und Datenwissenschaften sind schon heute ein essenzieller Teil der Biologie. Allerdings hat die künstliche Intelligenz bisher in der Biologie noch recht wenig Spuren hinterlassen.

Die Biologie wird also längerfristig nicht ohne künstliche Intelligenz auskommen?

Bock: Bioinformatik und Datenwissenschaften sind schon heute ein essenzieller Teil der Biologie. Seit 15 Jahren beschäftigen sich meine Forschungen mit maschinellem Lernen auf biologischen Daten. Allerdings hat die künstliche Intelligenz bisher in der Biologie noch recht wenig Spuren hinterlassen, gerade im Vergleich zu einigen anderen Forschungsgebieten. Ich denke, das liegt zu einem erheblichen Teil daran, dass die „Rückübersetzung“ von Modellen des maschinellen Lernens in biologische Modelle und in ein Verständnis der molekularen Prozesse in Zellen noch nicht gut funktioniert. Hier setzt unsere aktuelle Studie an, und wir hoffen, dass wir damit einen Schritt in die richtige Richtung getan haben.

 

AUF EINEN BLICK

Christoph Bock ist Gruppenleiter am CeMM - Forschungszentrum für Molekulare Medizin der Österreichischen Akademie der Wissenschaften (ÖAW) und am Ludwig Boltzmann Institute for Rare and Undiagnosed Diseases. Er unterrichtet an der Medizinischen Universität Wien und ist Mitglied der Jungen Akademie der ÖAW.

Publikation:

“Knowledge-primed neural networks enable biologically interpretable deep learning on single-cell sequencing data”, Nikolaus Fortelny, Christoph Bock, Genome Biology, 2020.
DOI: 10.1186/s13059-020-02100-5