Im Datenrausch

Von Ralf Keuper

Der Glaube, mit der Erschließung großer Datenmengen könnten viele bislang noch ungelöste Probleme in der Gesellschaft und Wissenschaft gelöst werden, ist seit dem Aufkommen Big Data weit verbreitet. Prominentes Beispiel für diese Denkhaltung, die man durchaus als Datentotalitarismus bezeichnen kann, ist der Beitrag The end of theory von Chris Anderson.

At the petabyte scale, information is not a matter of simple three- and four-dimensional taxonomy and order but of dimensionally agnostic statistics. It calls for an entirely different approach, one that requires us to lose the tether of data as something that can be visualized in its totality. It forces us to view data mathematically first and establish a context for it later. For instance, Google conquered the advertising world with nothing more than applied mathematics. It didn’t pretend to know anything about the culture and conventions of advertising — it just assumed that better data, with better analytical tools, would win the day. And Google was right.

Die Prinzipien der empirischen Wissenschaft, bestehend aus der Formulierung der Thesen und der Überprüfung ihrer Vorhersagen in der Praxis, seien obsolet:

But faced with massive data, this approach to science — hypothesize, model, test — is becoming obsolete. Consider physics: Newtonian models were crude approximations of the truth (wrong at the atomic level, but still useful). A hundred years ago, statistically based quantum mechanics offered a better picture — but quantum mechanics is yet another model, and as such it, too, is flawed, no doubt a caricature of a more complex underlying reality. The reason physics has drifted into theoretical speculation about n-dimensional grand unified models over the past few decades (the „beautiful story“ phase of a discipline starved of data) is that we don’t know how to run the experiments that would falsify the hypotheses — the energies are too high, the accelerators too expensive, and so on.

In dem aktuellen Beitrag Die Medizin im Datenrausch in der FAZ vom 2.01.2018 kritisiert Gerd Antes diese Datengläubigkeit bzw. diesen Datenpositivismus. Er schreibt:

Das .. von Big Data entwickelte Modell ist schnell beschrieben: Die enormen technischen Möglichkeiten in der Datenwelt machen die mühsame Suche nach nützlichen Effekten überflüssig. Wir haben die Ära der Kausalität verlassen und befinden uns bereits mitten im Zeitalter der Korrelation. Das alte Paradigma, dass Theorie und Daten zur Generierung von Hypothesen führen, die wiederum empirisch durch Studien bestätigt werden müssen, gilt nicht mehr. Korrelationen führen aufgrund beliebig erweiterbarer Datenmengen nicht mehr zu Hypothesen, sondern zu bestätigtem Wissen.

Die fundamentalen Defizite von Big Data treten besonders deutlich beim Umgang mit Fehlern hervor.

Der Umgang mit Fehlern hat zentrale Bedeutung für die wissenschaftliche Bedeutung von medizinischer Forschung und Diagnostik, Therapie und Prognose. Die Unvermeidbarkeit von Fehlern erfordert einen sauberen statistischen Umgang mit Daten, um zu validen Aussagen zu gelangen, die jedoch nie über den Status von Wahrscheinlichkeitsaussagen hinauskommen können. Dass damit untrennbar ein gewisses Maß an Unsicherheit verbunden ist, missfällt Ärzten, Patienten und Politikern, ist jedoch unvermeidlich. Höchste Anforderungen an Qualität in allen Phasen der Erkenntnisgewinnung sind Voraussetzung für einen möglichst fehlerfreien Kausalitätsnachweis. Diese Anforderungen, die heute Standard im Wissenschaftsprozess sind, spielen für Big Data-Verfahren jedoch an keiner Stelle eine Rolle. Durch das Wegdefinieren der Kausalität scheinen auch alle damit verbundenen Anforderungen überflüssig.

Eine Diskussion über die Chancen und Risiken von Big Data ist überfällig:

Die Schadens-Risiko-Diskussion ist beschränkt auf die Benutzung von Daten und damit auf die ethische und rechtliche Seite. Eine ernsthafte Diskussion über das Risiko von Big Data ist überfällig, denn die zentrale Begründung für die Versprechungen durch Big Data ist falsch: Mehr Daten bedeuten nicht automatisch mehr Wissen. Im Gegenteil, dieser Tatbestand bedeutet, dass selbst die Hinzunahme weiterer korrekter Daten die Erkenntnissituation verschlechtern kann. Damit ist die Konstruktion, den Wissenszuwachs und damit die Handlungsgrundlage auf wachsende Datenmengen zu gründen, mehr als fragil. Wenn mit zunehmender Datenmenge das störende Rauschen zunimmt, sind echte Effekte weniger leicht zu finden, also der Anteil der falsch identifizierten, also unechten Effekte nimmt zu. Diese Falsch-Positiven sind eines der zentralen Probleme der empirischen Forschung und können durch den Big Data – Ansatz über die Korrelationen zu völler Blüte gelangen.

In seinen diversen Veröffentlichungen, u.a. in Simple Heurisitcs That Make Us Smart, vertritt Gerd Gigerenzer eine ähnliche Position wie Antes.

Ein weiterer Kritiker von Big Data ist Stephen Few, der im Februar sein neues Buch Big Data, Big Dupe veröffentlichen wird.

Big Data, Big Dupe is a little book about a big bunch of nonsense. The story of David and Goliath inspires us to hope that something little, when armed with truth, can topple something big that is a lie. This is the author’s hope. While others have written about the dangers of Big Data, Stephen Few reveals the deceit that belies its illusory nature. If „data is the new oil,“ Big Data is the new snake oil. It isn’t real. It’s a marketing campaign that has distracted us for years from the real and important work of deriving value from data.

Update 14.01.17:

In seiner Replik Medizin im Datenrausch? in der FAZ vom 9.01.17 weist Philip Grätzel von Grätz auf die Vorteile von Big Data in der medizinischen Forschung hin. Big Data könne das Erfahrungswissen der Ärzte sinnvoll ergänzen:

Big Data kann hier helfen, indem dem tradierten Erkenntnisprozess eine Dimension hinzugefügt wird – die Möglichkeit des Vergleichs von Krankheitsverläufen unterschiedlicher Patienten anhand realer Versorgungsdaten. .. Mindestens genauso relevant ist, dass Big Data in Verbindung mit Maschinenlernen empirisches Spezialistenwissen breiter verfügbar machen kann.

Über das Korrelations-Bingo:

Während „Big Data als Methode“ die traditionelle hyptohesengetriebene medizinische Forschung unterstützt beziehungsweise unter modernen Bedingungen überhaupt erst sinnvoll ermöglicht, nimmt „Big Data als Erkenntnisprinzip“ bei der Generierung von Wissen quasi eine Abkürzung und korreliert unterschiedlichste Phänomene miteinander in der Hoffnung, Kausalitäten zu identifzieren und damit Ansatzpunkte für neue Therapien zu finden.

Von Grätzel geht auch auf das Thema Datenschutz bzw. Datensouveränität ein:

Die Frage lautet, wie es jedem Einzelnen ermöglicht werden kann, Entscheidungen über die Verwendung der eigenen medizinischen Daten überhaupt erst praktisch zu treffen, in einer Zeit, in der Forschung wesentlich auf langfristig digital dokumentierten Krankheitsverläufe und Biomaterialsammlungen angewiesen ist.

Wie heikel das Thema ist, zeigt die Behandlung sensibler Daten im Bereich neuro-psychiatrischer Krankheiten, wie in Neurowissenschaftler wollen umfassenden Daten-Schutz für Infos aus dem Hirn berichtet wird:

Das internationale Forscherteam hat Vorschläge dazu unterbreitet, welche Themenkomplexe in der Diskussion über Hirn-Computer-Schnittstellen und Künstliche Intelligenz ihrer Ansicht nach unbedingt berücksichtigt werden müssen (Nature 2017; 551: 159–163). Einziger Forscher in dieser Gruppe aus Deutschland ist der Neurologe Dr. Philipp Kellmeyer vom Medizinischen Zentrum der Uni Freiburg. „Wir brauchen dringend eine gesellschaftliche Debatte, wie Hirndaten genutzt werden dürfen, bevor die Konzerne Fakten schaffen“, wird er in einer Mitteilung der Universität zitiert. Es geht in diesem Aufruf nicht nur um Datenschutz bei der Anwendung solcher Schnittstellen, also um ein Verbot des Handels solcher Daten, sondern etwa auch um das Thema Verantwortung und Identität.

Dass große Datenmengen nicht zwangsläufig zu einer Zunahme des Erkenntnisvermögens führen und Algorithmen keineswegs unfehlbar sind, zeigen u.a. die Defizite bildgebender Verfahren in der Hirnforschung (Vgl. dazu: Die Defizite bildgebender Verfahren am Beispiel der Hirnforschung)

Weitere Informationen:

Machen Daten uns frei?

Big Data im Risikomanagement nur von begrenztem Nutzen

Aberglaube: Von der Korrelation zur Kausalität

Von Störchen und Babys: die partielle Korrelation

Understanding Causality and Big Data: Complexities, Challenges, and Tradeoffs

KI-Forschung: Die Privatisierung der Intelligenz – Kolumne

Medizin im Datenrausch

Die Medizin am Tropf der Industrie

Medizin im Rausch der Daten

Big Data in der Medizin: Mehr Daten, mehr Fehler?