"Fehler in Zitationsdatenbanken sind nicht zufällig verteilt"

Georgios Chatzoudis | 05.12.2017 | Interviews |

Interview mit Terje Tüür-Fröhlich über Fehler in Datenbanken

Maschinen, Automaten oder Computerprogramme, die für eine konkrete Tätigkeit beziehungsweise für einen bestimmten Prozessablauf erschaffen worden sind, arbeiten stupide und monoton, aber dafür fehlerfrei. Das gilt beispielsweise in der Wissenschaft auch für Zitationsdatenbanken, denen heute bei der Bewertung von wissenschaflticher Reichweite und Bedeutung eine große Rolle zugeschrieben wird. Wer häufig in anderen wissenschaftlichen Publikationen zitiert wird, ist wichtig. Die Datenbank erlaubt da keine Tricksereien, der Output ist objektiv. Die Netzwerkforscherin Dr. Terje Tüür-Fröhlich von der Johannes Kepler Universität Linz hat Zweifel an dieser allgemein angenommenen Objektivität von Zitationsdatenbanken - mit erheblichen Folgen für die Rezeption von Wissenschaft. In ihrer Dissertation hat sie sich mit Indexierungsfehlern in Zitationsdatenbanken, also Falschschreibungen von Autorennamen, beschäftigt. Dabei untersuchte sie die Auswirkungen und Probleme, die diese scheinbar trivialen Fehler mit sich bringen. Im Interview erläutert sie, warum die Auswirkungen einer falschen Indexierung keineswegs belanglos sind, welche Folgen die Ökonomisierung von Wissenschaft hat und wie sie über dieses außergewöhnliche Thema "gestolpert" ist.

Google Maps

"Interkulturelle Missverständnisse"

L.I.S.A.: Frau Dr. Tüür-Fröhlich, Sie haben im Rahmen Ihres Dissertationsprojekts zur Wissenschaftskommunikation über Fehler in Datenbanken, genauer über Indexierungsfehler in Zitationsdatenbanken geforscht.[1] Wie kamen Sie zu diesem recht nüchtern klingenden Thema? Welche Beobachtung ging Ihrem Thema voraus?

Tüür-Fröhlich: Es geht mir um Fehler in oder Falschschreibungen von AutorInnennamen und anderen bibliographischen Angaben in Zitationsdatenbanken und deren Auswirkungen. Ein interessantes kulturwissenschaftliches Thema ist dabei auch der Umgang mit Fehlern und mit Kritik in verschiedenen Kulturen (Galtung).

Ich bin über mein Thema einfach "gestolpert". Wenn Sie so wollen, habe nicht ich mir mein Thema gesucht, sondern mein Thema mich. Beruflich bin ich bei Datenbankrecherchen über viele seltsame Fehler gestolpert und habe mich gewundert: Warum schreibt niemand darüber, warum ist das ein Nicht-Thema? Nachdem ich meinen Lebensmittelpunkt von Estland nach Österreich verlegt hatte, wurde das Thema auch privat virulent, aufgrund meines typisch estnischen Nachnamens Tüür, mit Doppel-Ü. Häufig unterstellen mir deutschsprachige Personen, ich könne meinen Namen nicht richtig schreiben, denn das Wort „Tür“ (in deutscher Sprache) schreibe man ja bekanntlich nur mit einen „ü“. Mein Vorname Terje ist in Estland ein Frauenname, in Skandinavien jedoch ein gängiger Männername. Auch im deutschsprachigen Raum werde ich aufgrund der Endung laufend als Mann eingestuft. So waren und sind verschiedene interkulturelle Missverständnisse vorprogrammiert. Verschiedene Probleme, da bin ich ganz beim tschechischen Kulturphilosophen Vilém Flusser, der vor den Nazis nach Brasilien flüchten musste, können wir fast nur als MigrantInnen erkennen, weil uns die „Watte der Gewohnheit“ (Flusser) abhandengekommen ist. Daher habe ich mir als Migrantin die Freiheit genommen, dieses Thema zu meinem Forschungsthema zu deklarieren.

L.I.S.A.: Sie haben Ihre Dissertationsarbeit „The Non-trival Effects of Trival Errors in Scientific Communication and Evaluation” genannt. Können Sie uns das Wortspiel rund um “trival” auflösen? Was ist mit “non-trival effects” und mit „trival errors“ gemeint? Haben Sie ein oder zwei Beispiele für uns?

Tüür-Fröhlich: Alles hat in den Hierarchien der Wissenschaften einen Status (Pierre Bourdieu). Es gibt honorige Fehler, über die Wissenschaftstheoretiker und -historiker honorige Studien geschrieben haben. Es gibt „andere“ Fehlerkategorien wie z.B. Materialfehler und menschlich verursachten Fehler, wie z.B. Beobachtungsfehler, Kalibrierungsfehler oder unsaubere Petrischalen. Aufgrund der hochgradigen Digitalisierung der Wissenschaftspraxis habe ich mein Augenmerk auf EDV-induzierte Fehler gelegt. In den Informationswissenschaften werden Fehler in bibliographischen Angaben oder Datenbankeinträgen als triviale bzw. banale eingestuft. Aufgrund des hohen Stellenwerts von Zitationsdatenbanken als Datenlieferanten für Uni-Rankings und andere Evaluationen ist die Bezeichnung „trivial“ in diesen Kontext irreführend, denn sie verniedlicht, sie lässt diese Fehler als klein und bedeutungslos erscheinen.

In meiner Studie habe ich das „Indexierungsschickschal“ des weltberühmten französischen Philosophen und Soziologen Pierre Bourdieu in der Zitationsdatenbank SSCI (Social Sciences Citation Index) analysiert. Das Resultat: Es zeigten sich mehr als 85 Mutationen, Verstümmelungen, Namensverluste. Ich habe eine sechsstufige Typologie erstellt, beginnend mit Fehlern eher banalerer Art („Bordieu“ ohne „u“, „Boudieu“ ohne „r“) über den Fehlertyp 3: Substitution durch andere Autorennamen (z.B. fand sich der Leistungspsychologe Rowland Atkinson als Autor von Bourdieus Hauptwerk „La distinction“) bis zum Fehlertyp 6: Verwechslung von Vor- und Nachnamen bei der Indexierung, d.h. anstatt Bourdieu P war entweder Pierre B oder sogar Pierri B. (zusätzlicher OCR-Fehler) indexiert. Diese Fehler sind aber keineswegs irrelevant (trivial), weil die Datenbank-Software Zeichenketten (strings) vergleicht, und hier sind bereits kleine Abweichungen folgenschwer. Sinkt die Zahl richtig indexierter Publikationen und damit gezählter Zitationen aufgrund fehlerhafter Daten hat dies negative Auswirkungen für einzelne WissenschaftlerInnen, Journale, Universitäten in Evaluierungen. Das meine ich mit nicht-trivialen Effekten.

„Ping-Pong“- und „Schneeball“-Methode

L.I.S.A.: Sie haben im Zuge Ihrer Arbeit zwei Methoden angewendet – die „Ping-Pong“- Methode und die „Schneeball“-Methode. Könnten Sie beide Methoden erläutern? Wie trifft man auf die Fehler in einer Unmenge an Daten?

Tüür-Fröhlich: Vom Mainstream (automatische Analyse möglichst großer Datenmengen) abweichend, habe ich folgende methodische Vorgangsweisen gewählt: Ich habe mich für die – für den normalen wissenschaftlichen Hausverstand – naheliegende Herangehensweise entschieden: den Vergleich zwischen den Literaturlisten der Original-Publikation mit den Datenbank-Einträgen in den SSCI-Records (in der Folge: Original-Record), so wie sie bei einer Zitationsrecherche in der Datenbank (lizensierter Zugriff über die JKU Linz) sichtbar sind. Diese Methode wurde bislang zwar bei der Suche von bibliographischen Fehlern in Journalen, nicht jedoch bei der Fehlersuche in Datenbanken eingesetzt.

Ausgangspunkte der Schneeballmethode waren die Fehlschreibungen, Mutationen, Verstümmelungen des Namens des französischen Philosophen und Soziologien Pierre Bourdieu als zitierter Autor im SSCI (d.h. im Datenfeld „cited author“). Die Auswahl dieses Autors erfolgte aus pragmatischen Gründen: Um Fehlern in Zitationsdatenbanken mit Hilfe der Ping-Pong-Methode auf die Spur zu kommen, ist die Kenntnis des Gesamtwerkes eine/r AutorIn inklusive Übersetzungen, Neubearbeitungen etc. unverzichtbar. Bei Pierre Bourdieu konnte auf eine an der JKU Linz seit vielen Jahren aufwändig erstellte Hypertext-Rekonstruktion des Gesamtwerkes von Pierre Bourdieu zurückgegriffen werden (www.hyperbourdieu.jku.at ). Pierre Bourdieus Vor- wie auch Familienname enthält nur ASCII (American Standard Code for Information Interchange)-Zeichen, daher müsste die Verarbeitung seines Namens durch einen nordamerikanischen Datenbankproduzenten keine Schwierigkeit darstellen. Auf Grundlage des Vergleichs Original-Record kann nach endogenen Datenbankfehlern gesucht werden: Die Feststellung Originalangaben richtig - Referenzen im SSCI-Record fehlend oder falsch lässt nur einen Schluss zu: Die gefundenen Fehler müssen bei der Dateneingabe bzw. –verarbeitung bei der Produktion des SSCI entstanden sein.

Ping-Pong-Methode heißt: Fehlte im Datenfeld „Cited Author“ ein Eintrag, bin ich über das Datenfeld Titel (Titelwörter wie „La Distinction“) vorgegangen. So kam ich zu neuen SSCI-Einträgen, die ich wiederum mit den Original-Literaturlisten vergleichen konnte. Fast immer zeigte sich: Original vollständig und richtig (fehlerfrei, inkl. korrekter Autorenangabe), SSCI-Eintrag unvollständig (verstümmelt). Schneeballmethode heißt: Die Vergleiche Original-Record wurden nicht an willkürlich ausgewählten Journalartikeln vorgenommen (es wurden also nicht einzelne SSCI-Records mit schwerwiegenden Fehlern herausgegriffen). Bei der Auswahl der Fallstudien bin ich vom Fehlertyp Verwechslung von Vor-und Nachnamen ausgegangen und habe betroffene SSCI- Records mit den Originalen verglichen. Auch hier zeigte sich fast immer: Original fehlerfrei, im SSCI-Eintrag jedoch wurden nicht nur Bourdieus Vor- und Nachname, sondern auch die Vor- und Nachnamen der übrigen zitierte AutorInnen (z.B. Thorstein V statt Veblen, T.) verwechselt. Sehr einfach ausgedrückt: die Suche nach Werken von Veblen, mit der richtige Suchstrategie (Cited Author=Veblen T) erbringt nur einen Teil aller Zitationen, alle falsch indexierten Zitationen gehen bei der Zitationsanalyse verloren.

"Zahlen wecken den Anschein von Objektivität"

L.I.S.A.: Rechnergestütztes Indizieren gilt als besonders fehlerfrei und arbeitszeitsparend. Sind da ein paar wenige Fehler nicht zu vernachlässigen?

Die Fehlerfreiheit von EDV-systemen müssen natürlich die Verkäufer von EDV-Systemen behaupten, aber dem stehen ebenfalls zahlreiche ernüchternde Studien von Computerwissenschaftlern entgegen. Auf eine Formel gebracht: EDV ist eine fast unerschöpfliche Quelle an Fehlern. Die Zitationsdatenbank SSCI verwendet in ihrer Produktion noch immer Techniken wie Scannen oder OCR (Optical Character Recognition) und Parsing, weil sie die Printausgaben der Journale als autoritativ erachten. Diese antiquierten Methoden führen zu horrenden Fehlerraten, auch mangels sprachlicher und kulturwissenschaftlicher Kompetenzen bei der Produzenten von SSCI (und deren Geschwister-Datenbanken z.B. AHCI für die Kulturwissenschaften): dem Anspruch nach globale Datenbanken werden nur mono-lingual (Englisch) aufgebaut. Dies mag bei den Naturwissenschaften ein geringeres Problem sein, nicht jedoch in den Sozial-, Geistes- und Kulturwissenschaften [2]. Ob EDV Arbeitszeit spart, darüber streiten sich die ExpertInnen ebenfalls. Sind Fehler „zu vernachlässigen“? Wenn die Fehler zufällig verteilt wären, könnten wir darüber reden. Aber die Fehler in Zitationsdatenbanken sind keineswegs zufällig verteilt. z.B. trifft es Sozial- und KulturwissenschaftlerInnen mit nicht-anglo-sächsischen Namen und nicht-englischsprachigen Publikationen stärker. Warum? Noch immer sind Bücher bzw. Buchbeiträge zu Sammelbänden ein wichtiger Publikationstyp in den Sozial- und Kultur- bzw. Geisteswissenschaften. Diese werden von den Zitationsdatenbanken wie SSCI und AHCI nicht direkt und in Originalsprache aufgenommen, sondern nur indirekt über die Literaturlisten der erfassten Journalartikel. Die Übersetzung und Abkürzung dieser zitierten Werke erfolgt höchst inkonsistent und fehlerhaft.

L.I.S.A.: Sie warnen letztlich in Ihrem Buch davor, automatisierten und mit Big Data gefütterten Datenbanken blind zu vertrauen. Welche Folgen sind denn für die Wissenschafts-kommunikation und für einzelne Wissenschaftlerinnen und Wissenschaftler zu befürchten? In seinem Buch „Die bezifferte Welt“ thematisiert der britische Politologe Colin Crouch unter anderem auch die Auswirkungen, die die Übertragung von Finanzmarktlogiken (wie „Ranking“, Impact-Messungen, der Einzug nachfrageorientierter Faktoren, …) auf die universitären Wissenschaften haben. Was bedeuten Ihre Ergebnisse für eine wissenschaftliche Welt, die zunehmend am Kriterium der Messbarkeit ausgerichtet wird?

Tüür-Fröhlich: Zahlen wecken bei uns allen den Anschein von Objektivität. Wenn wir nicht verstehen, wie die zustande kommen (aufgrund willkürlicher Selektion und fehlerhafter Prozeduren), sind wir quantitativen Evaluationsergebnissen und heute so beliebten Rankinglisten (z.B. Top Cited Scientists) kritiklos ausgeliefert. Doch selbst wenn es bei Dateneingabe und -verarbeitung fehlerfrei zugehen würde, müssen wir uns die Frage stellen: was bedeuten rasche Zitationserfolge? Nicht wenige ExpertInnen sind der Überzeugung, dass das Schielen auf raschen „Impact“ (= viele Zitationen) Forschung und Literatur in eine Richtung kanalisiert: in Richtung Mainstream, mit Thomas Kuhn gesagt: in Richtung Normalwissenschaft. Mit anderen Worten: Alles was sofort häufig zitiert wird, kann nicht wirklich neu sein, denn auch WissenschaftlerInnen sind gegenüber theoretischen und methodischen Neuerungen skeptisch, sie betreiben Innovation Resistance.

Die Ökonomisierung von Wissenschaften, d.h. die Anwendung betriebswirtschaftlicher Methoden auf die Bewertung wissenschaftlicher Tätigkeiten hat fatale Auswirkungen: z.B. werden die Fächer gelobt und finanziell belohnt, die große Mengen von Drittmittelgelder aus der Privatwirtschaft „anlocken“, z.B. Pharmaforschung. Ich lehre an einem Institut für Philosophie und Wissenschaftstheorie und alljährlich müssen auch wir ein Formular ausfüllen, wie viele Patente unser Institut angemeldet hat. Universitätsmanager interessieren sich neben ertragreichen Geldquellen primär für Fächer, die viele Publikationen in High Impact Journalen veröffentlichen. Einerseits erwartet dies zumindest in Österreich das Wissenschaftsministerium, anderseits dient es Public Relations-Zwecken. Nur wenige wagen es, den Evaluationszirkus zu kritisieren, denn sie fürchten, als „schlechte Verlierer“ diffamiert zu werden, während die Evaluationsgewinner das angebliche so „objektive“ System, die sie bevorteilt, natürlich überschwänglich loben. Gerade auch für die Naturwissenschaften stellt sich die Frage: Wie können wir den künftigen Impact von Forschung messen? Die Wahrheit ist eine Tochter der Zeit. Zahlreiche wissenschaftliche Studien sind „Sleeping Beauties“: Erst Jahrzehnte nach ihrer Erstveröffentlichung wurde ihre Bedeutung für den Erkenntnisgewinn erkannt und anerkannt. Wirklich innovative Forschung ist „blindes Tasten“ (Popper), Umwege und Irrwege sind unvermeidlich. Es besteht die große Gefahr, dass wir durch zu kurzsichtige Belohnungsmechanismen das Entdecken des Neuen behindern.

Dr. Terje Tüür-Fröhlich hat die Fragen der L.I.S.A.Redaktion schriftlich beantwortet.

Nachweise

[1] Tüür-Fröhlich, Terje (2016). The Non-trivial Effects of Trivial Errors in Scientific Communication and Evaluation. Schriften zur Informationswissenschaft; Bd. 69. Glückstadt/D: vwh. http://www.vwh-verlag.de/vwh/wp-content/uploads/2016/08/titelei_tuur-frohlich.pdf

[2] Tüür–Fröhlich, Terje (2014): "Needless to say my proposal was turned down". The early days of commercial citation indexing, an "error-making" (Popper) activity and its repercussions till today. Theory of Science 36 (2), 155-180. http://sammelpunkt.philo.at:8080/2426/1/Tuur_NeedlessToSay_RevisedFinalVersion.pdf

Leserbrief oder Brief an Autor/Autorin schreiben

Sicherheitscode bitte in das Feld eintragen: 0JKQQW

Ich willige ein, dass zur Veröffentlichung meines Leserbriefs mein Name an den Server des Wissenschaftsportals übertragen, dort verarbeitet sowie ggf. über dem veröffentlichten Leserbrief eingeblendet wird.

Ich bestätige, dass ich die näheren Informationen unter https://lisa.gerda-henkel-stiftung.de/datenschutz zur Kenntnis genommen habe.

L.I.S.A. Services
- RSS
- Facebook
- X
- Instagram
- Spotify
- iTunes
- Wikipedia
Newsletter abonnieren

Sicherheitscode: BXEQDY

Archiv