Startseite
- Perspektiven
Die Daten-Dirigentin
Die Daten-Dirigentin
Um Künstliche Intelligenz (KI) für die Medizintechnik zu entwickeln, brauchen unsere Wissenschaftler*innen vor allem eines: kolossale Mengen an vielseitigen, korrekten und sicheren medizinischen Daten. Ren-Yi Lo, Head of Big Data Office, kümmert sich darum, diese Daten zu beschaffen, aufzubereiten und zu ordnen. Was das alles mit Musik zu tun hat? Das und mehr erfahren Sie in Teil sechs unserer Serie #Futureshaper.
Ein „Data Lake“ – das ist im Prinzip das, was der Name schon sagt: Ein riesiger „See“ aus halbstrukturierten Daten. Einen solchen Data Lake managt Ren-Yi Lo gemeinsam mit ihrem internationalen Team am Siemens Healthineers Standort Princeton im U.S.-Bundesstaat New Jersey.
Der Data Lake der Abteilung „Digital Technology & Innovation“, für den Ren-Yi verantwortlich ist, umfasst rund 1,5 Milliarden Datenpunkte – bestehend aus klinischen Bildern, Berichten und zusätzlich Milliarden Labordiagnosedaten. „Wenn ich diese Zahlen laut ausspreche, finde ich sie selbst unglaublich“, gesteht sie lachend. Das sind wirklich "Big Data"1.
Was ist Big Data?
Große Datenmengen, die zu analytischen Forschungszwecken gespeichert, weiterverarbeitet und ausgewertet werden. Big Data charakterisieren sich u.a. durch ihr Volumen und die Vielfalt der Datentypen und -quellen.

Die wertvollen klinischen Daten können in bahnbrechende Innovationen für das Gesundheitswesen verwandelt werden: Sie dienen den ca. 250 Kolleg*innen aus dem KI-Team, die an verschiedenen globalen Standorten für die Siemens Healthineers Abteilung „Digital Technology & Innovation“ arbeiten, als Basis, um
Künstliche Intelligenz2 für neue Anwendungen im medizinischen Bereich zu entwickeln.
KI ist ein zentraler Pfeiler für die Zukunft der Medizintechnik: Beispielsweise kann sie Routineprozesse entlang des Behandlungspfades automatisieren und damit Gesundheitsfachkräfte bei ihrer täglichen Arbeit entlasten.
Was ist Künstliche Intelligenz (KI)?
„Künstliche Intelligenz bezeichnet die Fähigkeit von Computersystemen, auf sie zugeschnittene Aufgaben selbsttätig zu lösen, die aufgrund ihrer Komplexität bislang menschliche Fähigkeiten erforderten.“
Die Qualität der Daten ist entscheidend
Künstliche Intelligenz basiert auf Algorithmen, die mit einer großen Menge anonymisierter und kuratierter3 Daten aus dem Data Lake trainiert wurden. Erst nach diesem Training können die Algorithmen in der klinischen Routine eingesetzt werden.
Dabei sind Menge und Qualität der Daten, die für Training und Validierung verwendet wurden, entscheidend: Je größer die Menge an Qualitätsdaten, desto besser gelingt es, Verzerrungen zu vermeiden, und desto präziser arbeitet das spätere Rechenmodell.
Was bedeutet Datenkuratierung?
Die aktive und fortlaufende Verwaltung von Daten während ihres Lebenszyklus, die nützlich für die Forschung sind. Kuratierungsaktivitäten erhalten die Datenqualität und generieren Mehrwert aus den gesammelten Daten.
Big Data: unsichtbar – und doch essenziell
Ren-Yi Lo kümmert sich als Head of Big Data Office gemeinsam mit ihrem Team darum, diese riesigen Datenmengen zu beschaffen, aufzubereiten und zu ordnen. Eine Arbeit, die meist unsichtbar im Hintergrund abläuft, und doch so essenziell ist. Metaphorisch gesprochen, könnte man sagen: Ren-Yi und ihr Team sorgen dafür, den „Datensee“ zu befüllen. Sie verhindern, dass er unkontrolliert „ausläuft“, oder dass etwas darin „ertrinkt“.
Werden Sie Teil des Teams Siemens Healthineers
Ebenfalls interessiert, unserem passionierten Team beizutreten?
Manchmal fühle ich mich ein wenig, als wäre ich 'Jill of all trades'*. Aber vermutlich muss ich genau das für meinen Job auch sein.
Ren-Yi Lo
Head of Big Data Office, Siemens Healthineers
* Bedeutung: Eine Frau, die in sehr vielen Bereichen kompetent ist, ohne in einem Bereich über absolutes Expertenwissen zu verfügen.
Ren-Yi, deren Eltern chinesische Wurzeln besitzen und in Deutschland und den USA gelebt haben, hat Informatik mit einem Schwerpunkt in Systemtechnik studiert. „Meine Arbeit heute als Head of Big Data Office ist aber wesentlich vielseitiger als mein Studium“, sagt die 40-Jährige mit einem Lächeln: „Eigentlich ist es mein Job, komplexe Probleme zu lösen.“
Damit das klappt, muss sie unterschiedliche Fachsprachen sprechen, um verschiedene Interessengruppen zu koordinieren: „Medizinisch“ mit klinischen Partnern, von denen die Daten stammen, „Technisch“ und „Software“ mit KI-Forschungsgruppen, Entwickler*innen und ihrem Team vom Big Data Office. „Juristisch“ mit Kolleg*innen der Datenschutz-, Rechts- oder Patent-Abteilung.
Daten werden von Forschenden im Bereich der KI verwendet, um Algorithmen zu trainieren, die grundlegend für unsere Zukunftstechnologien sind. Wenn die Wissenschaftler*innen eine Erfindung bei der Verbesserung der Trainingsmethoden oder der Algorithmen selbst machen, dann kann eine solche Erfindung durch ein Patent geschützt werden. Bei Siemens Healthineers arbeitet ein Team von Patentanwält*innen eng mit den Wissenschaftler*innen zusammen, um wertvolle Erfindungen zu identifizieren und strategisch gegen Nachahmer zu schützen. Siemens Healthineers hält etwa 23.000 technische Schutzrechte, davon mehr als etwa 15.000 erteilte Patente.
Um Probleme von vielen Seiten betrachten zu können, hilft es Ren-Yi auch, dass sie einen vielschichtigen biografischen Hintergrund hat: Durch den internationalen Umzug in der Kindheit spricht sie neben Englisch bis heute perfekt Deutsch. Und nicht nur ihre Sprachkenntnisse sind facettenreich:
Welche Daten brauchen KI-Wissenschaftler*innen für ihre Forschungsarbeit? „Das ist sehr unterschiedlich und hängt vom jeweiligen Forschungsprojekt ab,“ erklärt Ren-Yi. Zum Beispiel arbeiten KI-Wissenschafter*innen aktuell an einem Projekt, bei dem die Labordiagnostik mithilfe von Künstlicher Intelligenz optimiert werden soll.
Wie kann KI Laborabläufe optimieren?
Lernen Sie AI Research Scientist Rayal Raj Prasad kennen, der an der Schnittstelle von Wissenschaft und Technologie arbeitet, um Herausforderungen in der Labordiagnostik zu lösen.
Ein anderes Projekt forscht an einem digitalen Zwilling der Leber. Zu Beginn der Arbeit kommt das Forscher*innenteam auf Ren-Yi zu, um mit ihr gemeinsam zu definieren, welche Daten es benötigt und was potenzielle Quellen dafür sein könnten. Datenarten gibt es unzählige. Grob zusammengefasst sind es fünf unterschiedliche Datentypen, die bei Siemens Healthineers für das Training von KI-Algorithmen verwendet werden:
Wie erstellt man ein Computermodell der menschlichen Leber?
Senior AI Research Scientist Chloé Audigier forscht an einem digitalen Zwilling der menschlichen Leber. Solche Modelle können Mediziner*innen helfen, mehrere Therapieoptionen zu simulieren.
Zu den Daten aus der medizinischen Bildgebung zählen beispielsweise Röntgenaufnahmen, Computertomographie (CT)-Scans, Magnetresonanztomographie (MRT)-Scans oder Ultraschallbilder. Begleitende medizinische Berichte enthalten Hintergrundinformationen zur Krankengeschichte eines*r Patient*in und zur durchgeführten Behandlung. Daten aus der Labordiagnostik umfassen zum Beispiel Ergebnisse aus Laboruntersuchungen von Blut, Urin oder Körpergewebe. Genomische Daten sind Daten aus DNA-Analysen. Betriebsdaten enthalten z.B. Informationen zu betrieblichen Abläufen in Arztpraxen oder Krankenhäusern, aber auch zu Wartungsarbeiten an medizinischen Geräten usw.
Diese unterschiedlichen Datenarten müssen später im Data Lake geordnet abgelegt und wiederauffindbar gespeichert werden.
Die richtigen Datenkohorten
Eine weitere Herausforderung für Ren-Yi und ihr Team: Für die Entwicklung von zuverlässigen, vertrauenswürdigen KI-Algorithmen müssen Daten aus den passenden Kohorten4 für die Tests zur Verfügung stehen: „Das bedeutet, wir brauchen bei der Datengewinnung eine ausgewogene Verteilung zwischen Menschen verschiedenen Geschlechts und Alters, verschiedener ethnischer Zugehörigkeit, zwischen Kranken und Gesunden, und so weiter.“ Die für das jeweilige Projekt herangezogenen Daten müssen die Statistiken der Bevölkerung repräsentieren, für die die späteren KI-Systeme bestimmt sind, und das zu lösende Problem: „Sonst könnte es innerhalb der KI zu einem ,Bias´ kommen“, erklärt Ren-Yi, einer Verzerrung oder Abweichung von der Realität in den Ergebnissen: „Es muss unser Ziel sein, Ungerechtigkeit innerhalb der KI zu verhindern.“
Und woher stammen die Daten? „Wir arbeiten mit einem Netzwerk aus rund 175 Partnern auf der ganzen Welt zusammen, um die passenden Daten zu beschaffen,“ sagt Ren-Yi nicht ohne Stolz. Darunter seien viele renommierte medizinische Zentren, Krankenhäuser und Universitätskliniken.
Was ist eine Kohorte?
„Im medizinischen Sinn handelt es sich bei einer Kohorte um eine Gruppe von Patient*innen mit vergleichbaren Symptomen oder anderen Gemeinsamkeiten, die über eine bestimmte Zeitspanne beobachtet werden.“
Komplexer standardisierter Prozess
Bevor die Daten für KI-Forschungsprojekte verwendet werden dürfen, müssen sie einen komplexen standardisierten Prozess durchlaufen, um für größtmögliche Sicherheit zu sorgen. Immerhin arbeiten wir hier mit den sensibelsten persönlichen Informationen überhaupt, dessen ist sich Ren-Yi bewusst: „Jeder einzelne Datenpunkt, den wir für das KI-Training nutzen, stammt von Patient*innen. Und Patient*innen sind Individuen, deren Rechte wir unbedingt schützen müssen.“
Prozessübersicht des Daten-Lebenszyklus

Daher werden vor dem Datentransfer mit jedem Datenlieferanten detaillierte Verträge geschlossen, an deren Inhalt Ren-Yi gemeinsam mit Kolleg*innen aus der Rechtsabteilung und Collaboration-Manager*innen des jeweiligen Geschäftsbereiches arbeitet. Die Vertragswerke enthalten Informationen wie: Welche gesetzlichen Vorgaben zur Datenspeicherung und -verarbeitung gelten (wie zum Beispiel die DSGVO)5 ? Wie genau werden die Daten genutzt und gespeichert? Wer genau darf sie verwenden?
„Das alles wird ganz individuell geregelt.“ Ren-Yi und ihr Team sorgen bei der Registrierung der Daten beispielsweise mithilfe einer ausgeklügelten digitalen Tool-Landschaft dafür, dass nur die vertraglich festgelegte Personengruppe Zugang zum jeweiligen Datenpool hat.
Was ist die DSGVO?
Die Datenschutz-Grundverordnung ist eine Verordnung der Europäischen Union zum Schutz personenbezogener Daten innerhalb der EU. Sie trat am 25. Mai 2018 in Kraft und ist derzeit das strengste Datenschutzgesetz der Welt.
Anonymisierung ist zwingend notwendig
Noch bevor der sichere Transfer in den Data Lake stattfinden kann, werden die Daten beim jeweiligen Datenlieferanten aus Datenschutzgründen anonymisiert. Das heißt, alle Informationen, die direkte Rückschlüsse auf die Person zulassen, von der sie stammen, werden entfernt. „Zum Beispiel löscht der Datenlieferant Namen, Geburtsdaten und Adressen. Für unsere KI-Trainings sind diese Informationen ohnehin nicht relevant“, erklärt Ren-Yi.
Das Team validiert die bereits anonymisierten Daten nach Eingang gemäß dem Mehraugenprinzip und mithilfe spezieller Tools. Das heißt, es überprüft sie auf verschiedene Qualitäts-Aspekte hin:
Von zentraler Bedeutung ist auch die korrekte Indexierung der Daten im Rahmen der Kuratierung bzw. Verwaltung – sozusagen deren sinnvolle „Ablage“. Den Daten werden dabei unter anderem bestimmte Suchkriterien wie Schlagwörter hinzugefügt. So bleiben sie jederzeit wieder auffindbar, falls sie beispielsweise nachträglich Prüfungen durch Behörden wie der FDA6 unterzogen werden müssen.
Auch wenn ein Partner oder ein*e Patient*in im Nachgang seine*ihre Zustimmung widerruft oder die Daten schlicht nicht mehr benötigt werden, muss es technisch möglich sein, genau diesen Datensatz wieder aus dem Data Lake heraus zu „fischen“ und zu löschen.
Was ist die FDA?
Die U.S. Food and Drug Administration, kurz FDA, ist die Lebensmittelüberwachungs- und Arzneimittelbehörde der USA und dem US-Gesundheitsministerium unterstellt. Sie kontrolliert u.a. die Sicherheit und Wirksamkeit von Arznei- und Medizinprodukten.
Sherlock, der KI-Supercomputer
Und wo sind die Daten physisch gespeichert? Die „Digital Technology & Innovation“-Abteilung in Princeton, der auch Ren-Yi angehört, hat eine eigene Supercomputing-Infrastruktur aufgebaut, in der die Daten für den Data Lake zusammen mit dem KI-Training verwaltet werden: Den Sherlock Supercomputer, einen der leistungsstärksten Supercomputer für die Entwicklung von KI im Bereich der Medizintechnikunternehmen.
Auf dem heutigen Stand hat Sherlock eine Verarbeitungsgeschwindigkeit von 100 Petaflops. Das bedeutet, er schafft 100-mal eine Billiarde Rechenoperationen – pro Sekunde. „Schon wieder so eine Wahnsinns-Zahl“, lacht Ren-Yi.
Und mit großen Zahlen geht es weiter: Der Data Lake hat derzeit eine Speicherkapazität von einem Petabyte, die Sherlock Supercomputing-Plattform verfügt über 13 Petabytes an Speicherplatz. Dabei entspricht ein Petabyte umgerechnet 1024 Terabytes. Und auch hier erfüllt das Big Data Office eine wichtige Aufgabe in Bezug auf Cyber Security und Ausfallmanagement: „Wir stellen zu jeder Zeit sicher, dass wir Backups und Disaster-Recovery-Pläne für die Daten in unserem Data Lake haben“, erklärt Ren-Yi.
Mit den Daten aus dem Data Lake und der Supercomputing-Power von Sherlock können die Forscher*innen rund 1200 KI-Experimente pro Tag durchführen. Ren-Yi ist stolz auf den Beitrag, den sie mit ihrem Team zum Thema Datenmanagement leistet:
Was ist ein Terabyte?
Ein Terabyte (TB) ist eine Einheit zur Benennung von Datenmengen oder Speicherkapazitäten. Es entspricht zehn hoch zwölf = 1.000.000.000.000 Bytes. Ein Byte besteht aus acht Bits. Ein Bit ist die kleinste digitale Speichereinheit.
KI wird im klinischen Alltag künftig unverzichtbar sein, um eine wachsende Datenmenge in entscheidungsrelevantes Wissen zu übersetzen. Bereits heute kann beispielsweise der AI Rad Companion, unsere Familie von KI-gestützten Workflow-Lösungen, medizinisches Personal bei Routineabläufen entlasten.
Sie möchten mehr über den AI RAD Companion wissen?
Hier finden Sie Informationen über unser System zur Entscheidungsunterstützung für die multimodale Bildgebung. Es kann u.a. die diagnostische Präzision bei der Beurteilung medizinischer Bilder erhöhen:
Die großen Möglichkeiten digitaler Modelle
Digitale Modelle auf Basis von KI können helfen, den Gesundheitsstatus von Menschen besser zu verstehen, um Veränderungen vorherzusagen und Therapieoptionen individueller zu planen – für bessere Behandlungsergebnisse.
Um dieses Potenzial nutzen zu können, braucht es Menschen wie Ren-Yi und ihr Team, die meist unsichtbar und im Hintergrund wertvolle und schutzbedürftige Daten „dirigieren“ und behüten – und damit KI und die Forschung daran erst möglich machen.
© Fotografie: Markus Ulbrich
© Video: Markus Ulbrich (Regie, Kamera);
Cagdas Cubuk (Kamera, Ton);
Lisa Fiedler (Schnitt); Katja Gäbelein (Konzept)
© Motion Graphics: Viola Wolfermann
© Grafiken: Stefanie Schubert, Bianca Schmitt
Diese Seite teilen
Katja Gäbelein ist Redakteurin in der Unternehmenskommunikation bei Siemens Healthineers und spezialisiert auf Technologie- und Innovationsthemen. Sie arbeitet als Autorin für Text und Film.
Redaktionsassistenz: Guadalupe Sanchez
- Quellenangaben
Al-Mekhlal, Monerah; Khwaja, Amir Ali (2019): A Synthesis of Big Data Definition and Characteristics. In: IEEE International Conference on Computational Science and Engineering (CSE) and IEEE International Conference on Embedded and Ubiquitous Computing (EUC). S. 314-322. Online verfügbar:
Gethmann, Carl Friedrich; Buxmann, Peter; Distelrah, Julia; Humm, Bernhard G.; Lingner, Stephan; Nitsch, Verena; Schmidt, Jan C.; Spiecker (Döhmann), Indra (2022): Künstliche Intelligenz in der Forschung – Neue Möglichkeiten und Herausforderungen für die Wissenschaft. ("Artificial intelligence in research – New opportunities and challenges for science") Berlin: Springer, S. 8.
- Disclaimer
- Die vorgestellten Informationen basieren auf Forschungsergebnissen und sind nicht kommerziell erhältlich.  
- Die hier aufgeführten Zahlen entsprechen dem Stand Februar 2023.