Registrieren
merken
Georgios Chatzoudis | 03.02.2015 | 1209 Aufrufe | Interviews

"Eher datenbasierte als datengesteuerte Wissenschaften"

Interview mit Ramón Reichert über Big Data in der Wissenschaft

Nach einer Studie verdoppelt sich alle zwei Jahre die weltweite Datenmenge. Diese kaum noch fassbaren Datenkomplexe, die mit klassischen Methoden der Datenverarbeitung nicht mehr zu verarbeiten bzw. auszuwerten sind, werden allgemein als Big Data bezeichnet. Doch was genau ist damit gemeint? Wie kann diese Flut an Informationen bewältigt werden? Welchen Nutzen haben sie für die Wissenschaft? Wir haben diese und andere Fragen dem Kultur- und Medientheoretiker Prof. Dr. Ramón Reichert von der Universität Wien gestellt, der dazu auch einen aktuellen Sammelband herausgegeben hat.

Google Maps

"Erwartungen an die Wissenschaft des 21. Jahrhunderts haben sich maßgeblich verändert"

L.I.S.A.: Herr Professor Reichert, Sie haben jüngst einen umfangreichen Band herausgegeben mit dem Titel "Big Data". Ein Begriff, der heute sehr viel Verwendung findet, von den Medien geliebt wird, oft ohne dass dabei klar würde, was er eigentlich meint. Sie bezeichnen ihn als buzzword. Was meinen Sie damit? Und was ist denn nun eigentlich Big Data?  

Prof. Reichert: Das Schlagwort Big Data ist in aller Munde – und beschreibt nicht nur wissenschaftliche Datenpraktiken, sondern steht auch für einen gesellschaftlichen Wandel und eine Medienkultur im Umbruch. Mit der Annahme, dass die digitalen Medien und Technologien nicht einfach nur neutrale Botschaften übertragen, sondern ein kulturelles Gedächtnis etablieren und eine soziale Wirkmächtigkeit entfalten, können sie als Selbstverständigungsdiskurse der Gesellschaft verstanden werden.

Die Forschungsmethoden der Big-Data-Research - wie etwa die Text-, Sediment-, Netzwerk- und Bildanalysen - basieren auf der Erkenntnis, dass sich das Social Web zur wichtigsten Datenquelle bei der Herstellung und Verwendung von Regierungs- und Kontrollwissen entwickelt hat. Die sich dabei verändernden Selbstverständnisse, wie auch die lokalen und globalen Erwartungen an Wissenschaftskulturen und Epistemologien bewirken, dass die der Big-Data-Research zugrundeliegenden fächerübergreifenden Praxisorientierungen eine nuancierte Genealogie, Datenkritik und Medienreflexion der datenintensiven Formen der Wissensproduktion erfordern.

Eine medien- und kulturwissenschaftliche Reflexion der digitalen Großforschung distanziert sich von den normativen Diskursen des Daten- und Informationsmanagements, welche die Ansicht vertreten, dass die Entwicklung der spätmodernen Gesellschaften einerseits von der zunehmenden Verbreitung und alltäglichen Nutzung Sozialer Medien und andererseits von der Nutzung von Großdaten abhängig ist. In diesem Sinne kann man sowohl von datenbasierten als auch von datengesteuerten Wissenschaften sprechen, da die Wissensproduktion von der Verfügbarkeit computertechnologischer Infrastrukturen und der Ausbildung von digitalen Anwendungen und Methoden abhängig geworden ist.

Damit einhergehend haben sich auch die Erwartungen an die Wissenschaft des 21. Jahrhunderts maßgeblich verändert und in diesen Debatten werden zunehmend Forderungen laut, die darauf bestehen, die historisch, kulturell und sozial einflussreichen Aspekte der digitalen Datenpraktiken systematisch aufzuarbeiten – verknüpft mit dem Ziel, diese in den künftigen Wissenschaftskulturen und Epistemologien der Datenerzeugung und -analyse zu verankern. 

"Hilfsmittel bei der Textkritik und eine Erleichterung bei der Quantifizierung"

L.I.S.A.: Wann ist Big Data entstanden? Wo sind seine historischen Ursprünge zu suchen? Was sind Vorläufer?  

Prof. Reichert: Im Vorfeld der Big Data Research haben sich zahlreiche Disziplinen und nicht-philologische Bereiche herausgebildet, wie die Literatur-, Bibliotheks- und Archivwissenschaften, die eine längere Wissensgeschichte im Feld der philologischen Case Studies und der praktischen Informationswissenschaft aufweisen, und sich seit dem Aufkommen der Lochkartenmethode mit quantitativen und informatikwissenschaftlichen Verfahren für wissensverwaltende Einrichtungen befasst haben. So finden sich bereits in den Schriften des Schweizer Archivars Karl Wilhelm Bürer (1861-1917) Modellentwürfe eines mechanisch kombinierungsfähigen Wissensapparates, der als Vorläufer der maschinellen Wissenserfassung großer Datenmengen verstanden werden kann. Diese Denkfigur flexibilisierter und modularisierter Informationseinheiten wurde später zum konzeptionellen Inbegriff der mechanischen Datenverarbeitung.

Die Archiv- und Bibliothekswissenschaften waren auch direkt am historischen Paradigmenwechsel der Informationsverarbeitung beteiligt. Denn es ist der Arzt und spätere Direktor der National Medical Library, John Shaw Billings, der die von Hermann Hollerith im Jahr 1886 entwickelte Apparatur zur maschinellen Verarbeitung von statistischen Daten mitentwickelte. Folglich verdankt die Lochkartentechnik ihre Entstehung also auch teilweise der technischen Pragmatik der bibliothekarischen Wissensorganisation; auch wenn erst später – unter den Vorzeichen der Rationalisierungsbewegung der 1920er Jahre – die bibliothekarischen Arbeitsverfahren gezielt mechanisiert wurden.

Die weiterführenden Projekte der Datenverarbeitung zeigen, dass die maschinelle Erstellung eines Index oder einer Konkordanz für die Lexikographie und für den Katalogapparat der Bibliotheken den Beginn der computergestützten Geistes- und Kulturwissenschaften markiert. Im Zentrum der ersten Anwendungen der maschinellen Methode zur Erschließung großer Textmengen stand bis in die späten 1950er Jahre das Hollerith-Verfahren der Lochkarteisysteme. Das medientechnische Verfahren der Lochkarte veränderte die Lektürepraktiken der Texterschließung, indem es das Medium Buch in eine Datenbank transformierte und die linear-syntagmatische Ordnung des Textes in eine sachliche und begriffliche Systemordnung übersetzte. Die automatischen Auswertungsverfahren von Texten für die literaturwissenschaftliche Editorik wurde in der frühen Phase des „Humanities Computing“ (vorangetrieben durch dessen Teilbereiche „Computerphilologie“ und „Computerlinguistik“) auf der Grundlage von zwei zentralen Diskursfiguren beschrieben, die bis heute gültig sind. Die eine Diskursfigur beschreibt die Errungenschaften des neuen Werkzeuggebrauchs mit der instrumentellen Verfügbarkeit der Daten („Hilfsmittel“), die andere Diskursfigur fokussiert die ökonomische Erschließung der Daten und betont das Effiziente und Effektive der maschinellen Methode bei der Dokumentation. Die mediale Figur der Automatisierung wurde schließlich in beiden Fällen mit der Erwartung zusammengeführt, interpretative und subjektive Einflüsse aus der Informationsverarbeitung und Informationserschließung systematisch auszuschließen.

In den 1970er und 1980er Jahren etablierte sich die Computerlinguistik als ein institutionell verankerter Forschungsbereich inklusive universitärer Einrichtungen, Vereinszeitschriften (Journal of Literary and Linguistic Computing, Computing in the Humanities), Diskussionsforen (HUMANIST) und Konferenzaktivitäten. Das rechnergestützte Arbeiten in der historisch-sozialwissenschaftlichen Forschung erlebte damit einen ersten großen Aufschwung, wurde aber in den Arbeitsberichten weniger als eigenständige Methode, sondern hauptsächlich als ein Hilfsmittel bei der Textkritik und als eine Erleichterung bei der Quantifizierung der jeweiligen Gegenstände angesehen.

Ein nachhaltiger Medienumbruch sowohl im Bereich der Produktion als auch im Bereich der Rezeptionsästhetik ergab sich mit der Verwendung von standardisierten Textauszeichnungen wie der 1986 etablierten Standard Generalized Markup Language und softwarebasierten Textverarbeitungsprogrammen. Sie stellten eine zusätzliche Reihe digitaler Module, analytischer Werkzeuge und Textfunktionen zur Verfügung und transformierten den Text in ein Datenbankmodell. Texte konnten unter diesen Vorzeichen als strukturierte Informationen abgerufen werden und wurden optional als (relationale) Datenbanken verfügbar. In den 1980er und 1990er Jahren wurde die technische Entwicklung und die Textwahrnehmung also weitgehend vom Datenbank-Paradigma beherrscht. 

"Der Gegenstandsbezug der Big Data-Forschung ist heterogen"

L.I.S.A.: Inwieweit verändert Big Data unser bisheriges Verständnis von Wissen bzw. unsere bisherigen Gewissheiten? Stichworte: Muster und Korrelation statt Ursache sowie Unschärfe und Annäherung statt Eindeutigkeit.  

Prof. Reichert: Durch das Internet und die steigende Beliebtheit von Social Media-Diensten gewinnen Forschungsansätze für den Umgang mit digitalen Kommunikationsdaten an Relevanz. Analoge Methoden, die zur Erforschung interpersonaler oder Massenkommunikation entwickelt wurden, können aber nicht einfach auf die Kommunikationspraktiken im Social Net übertragen werden. Richard Rogers, ein einflussreicher Forscher im Bereich der Social Media Research, plädiert dafür, nicht mehr allein digitalisierte Methoden (wie zum Beispiel Online-Fragebögen) zur Erforschung der Vernetzungskultur anzuwenden, sondern sich auf digitale Methoden zu konzentrieren, die in der Lage sind, kulturellen Wandel und gesellschaftliche Entwicklungen zu diagnostizieren und zu prognostizieren.

Als digitale Methoden lassen sich also Ansätze verstehen, die nicht schon bestehende Methoden für die Internetforschung adaptieren, sondern die genuinen Verfahrensweisen digitaler Medien aufgreifen. Digitale Methoden sind nach Rogers Forschungsansätze, die sich einerseits große Mengen digitaler Kommunikationsdaten zunutze machen, welche von Millionen Nutzern tagtäglich im Social Web produziert werden, und die diese andererseits mit computergestützten Verfahren filtern, analysieren, aufbereiten und darstellen. In der Tradition der Akteur-Netzwerk-Theorie gehen zahlreiche Repräsentanten der Internetforschung von digitalen Akteuren aus wie Hyperlinks, Threads, Tags, PageRanks, Protokolldateien, Cookies, die untereinander und mit Datensatzsubjekten interagieren. Die Akteur-Netzwerke können nur mit digitalen Methoden beobachtet, aufgezeichnet und beurteilt werden – auch wenn sie sich oft als instabile und ephemere Ereignisse herausstellen. Dabei entsteht eine neuartige Methodologie, die Aspekte der Informatik, Statistik, und der Informationsvisualisierung mit sozial- und geisteswissenschaftlichen Forschungsansätzen kombiniert.

Der Gegenstandsbezug der Big Data-Forschung ist heterogen und setzt sich aus unterschiedlichen Methoden zusammen. Mit ihren Technologien der Schnittstellen, den Verfahren des Datentrackings, des Keyword-Trackings, der automatischen Netzwerkanalyse, der Sentiment- und Argumentanalysen oder dem maschinenbasierte Lernen ergeben sich daher vielschichtige Perspektivierungen der Datenkonstrukte. Die Daten selbst firmieren in dieser Sichtweise nicht als Rohdaten, sondern können im rechnergestützten Raum der Möglichkeiten als optionale und modulare Konstellationen reproduziert werden. Vor diesem Hintergrund firmieren die digitalen Methoden auch als Hilfsinstrumente zur Aufrechterhaltung der digitalen Kontrollgesellschaft, deren medienkulturelle Dechiffrierbarkeit einer der großen Anliegen der Software Studies und der Critical Code Studies ist, die versuchen, die Dispositive der Informationsvergabe und die damit einhergehenden politischen Regulative von Layermodellen, Netzwerkprotokollen, Zugangspunkten und Algorithmen aufzuzeigen. 

"Von den 'Enhanced Humanities' zu den 'Social Humanities'“

L.I.S.A.: Wo sehen Sie Vorzüge für den Einsatz von Big Data in den sogenannten Digital Humanities? Haben Sie ein oder zwei Beispiele?  

Prof. Reichert: Im Unterschied zu ihren Anfängen in den 1950er Jahren vertreten die Vertreter der Big Data Humanities heute auch den Anspruch, das gesellschaftliche Wissen neu zu organisieren und verstehen sich daher sowohl als wissenschaftliches wie auch als sozialutopisches Projekt. Mit dem Einzug der Social Media in die Geistes- und Kulturwissenschaften haben sich nicht nur die technologischen Möglichkeiten und die wissenschaftlichen Praktiken der Digital Humanities weiterentwickelt, sondern sie haben auch neue Phantasmagorien wissenschaftlicher Distribution, Qualitätsprüfung und Transparenz im World Wide Web angeregt.

Die Entwicklung der Humanities 1.0 zu den „Humanities 2.0“ markiert den Übergang von der digitalen Methodenentwicklung im Bereich der „Enhanced Humanities“ zu den „Social Humanities“, welche die Möglichkeiten des Web 2.0 zum Aufbau vernetzter Forschungsinfrastrukturen nutzen. Die „Social Humanities“ nutzen zur Vernetzung und Interdisziplinarität des wissenschaftlichen Wissens Open-Access-, Social-Reading-Angebote und Open-Knowledge-Software, indem sie die Möglichkeiten kooperativer und kollaborativer Forschungs- und Entwicklungsarbeit für die Wissenschaft nutzbar machen und online zur Verfügung stellen. Auf der Basis der neuen digitalen Infrastrukturen des Social Web (Hypertextsysteme, Wikitools, Crowdfunding-Software u.ä.) überführen diese Projekte die rechnergestützten Verfahren der früheren Entwicklungsgeschichte der Digital Humanities in die digitale Vernetzungskultur der „Social Humanities“.

Heute sind es die Blogging Humanities (digitale Publikations- und Vermittlungsarbeit in Peer-to-Peer-Netzwerken) und die Multimodal Humanities (Wissensinszenierung- und repräsentation in multimedialen Softwareumgebungen), die für die technische Modernisierung des akademischen Wissens eintreten und dafür gesorgt haben, dass die Digital Humanities beanspruchen, eine paradigmatisch alternative Form der Wissensgenerierung darzustellen. Vor diesem Hintergrund ist es angebracht, die kultur-und medientechnischen Grundlagen der computergesteuerten Erkenntnisverfahren in der geistes- und kulturwissenschaftlichen Forschung datenkritisch, wissensgenealogisch und medienhistorisch zu reflektieren, um ihr Rollenverständnis unter den Vorzeichen der digitalen Wissensproduktion und -distribution angemessen beurteilen zu können. 

"Die asymmetrische Anordnung von Frontend und dem Backend"

L.I.S.A.: Wo liegen die gesellschaftspolitischen Gefahren von Big Data? Wer sind die Mächtigen in der digitalen Daten-Gesellschaft? Wo liegen aber auch die Potentiale?  

Prof. Reichert: Einflussreiche Theoretiker wie Lev Manovich und Danah Boyd warnen vor einem „Digital Divide“, der das kollektive Wissen respektive die Metadaten der Kollektive einseitig verteilt und zu Machtasymmetrien zwischen Forschern innerhalb und außerhalb der Netzwerke führen könnte. Manovich kritisiert den limitierten Zugang zu sozialstatistischem Daten, der von vornherein eine monopolartige Regierung und Verwaltung von Zukunft schafft. Dieses ungleiche Verhältnis festigt die Stellung der sozialen Netzwerke als computerbasierte Kontrollmedien, die sich das kollektive Wissen und das kollektive Gedächtnis entlang einer vertikalen und eindimensionalen Netzkommunikation aneignen: (1) Sie ermöglichen einen kontinuierlichen Fluss von Daten (digitale Fußabdrücke), (2) sie sammeln und ordnen diese Daten und (3) sie etablieren geschlossene Wissens- und Kommunikationsräume für Experten und ihre Expertisen, welche die kollektiven Daten zu Informationen verdichten und interpretieren.

Das rechnerbasierte Wissen der kollektiven Gedächtnisräume durchlaufen folglich unterschiedliche mediale, technologische und infra-strukturelle Schichten, die hierarchisch und pyramidal angeordnet sind. Hier zeigt sich aber ein Grundwiderspruch. Einerseits werden die Beiträger/innen in Open-Call-Strukturen zur Teilnahme aufgefordert, andererseits werden sie weitreichend von der entscheidungsrelevante Teilhabe ausgeschlossen, weil ihnen die technische Infrastruktur eine vertiefende Mitgestaltung versagt. Hier ist also die Mächtigkeit in die technische Struktur und die asymmetrische Anordnung von Frontend und dem Backend verlagert.

Prof. Dr. Rámon Reichert hat die Fragen der L.I.S.A.Redaktion schriftlich beantwortet.

Kommentar erstellen

LATF1