a) Datensätze dokumentieren

pfeilDen eigenen Datensatz sinnvoll zu dokumentieren sollte dem Datenproduzenten in Hinblick auf die gute wissenschaftliche Praxis sowie aufgrund von Reproduzierbarkeit und Transparenz gegenüber Dritten eine Herzensangelegenheit sein. Leider sind Fragen der Dokumentation von Forschungsdaten in den Sozial- und Wirtschaftswissenschaften noch zu wenig in der akademischen Lehre verankert. Dieser Wegweiser soll nicht zuletzt dazu dienen, in die Curricula entsprechender Studiengänge einzugehen.

Da eine gute Dokumentation Zeit erfordert, wird sie leider oft kurzfristig zugunsten vermeintlich wichtigerer Aufgaben vernachlässigt. Datenproduzenten sollte freilich klar sein: Eine gute Dokumentation macht es externen Datennutzern einfacher, die Daten zu re-analysieren und die vom Datenproduzenten geleistete Arbeit mit einer Referenz, also einem Zitat, zu honorieren. Fehlt die Dokumentation, verschenkt der Datenproduzent eine mögliche Anerkennung seiner Arbeit („credit“) durch Dritte.

Eine Dokumentation kann in Form eines simplen Dokuments, eines Working Papers oder auch in speziellen Fachzeitschriften (z.B. in der Rubrik „European Data Watch“ der Fachzeitschrift „Schmollers Jahrbuch“) zitierbar veröffentlicht werden (vgl. Wagner, 2010). Die echte Veröffentlichung in einer Fachzeitschrift ist bislang allerdings nur „großen“ Datensätzen vorbehalten, die eine breite(re) Nachnutzung erwarten lassen. Zum Zwecke einer möglichst umfangreichen Nachnutzung ist zudem ein guter Zugang zur Dokumentation über eine Projektwebsite hilfreich (vgl. z.B. die Dokumentationsseite des SHARE-Projekts).

Hauptziel einer Dokumentation ist es, die Entstehung des Datensatzes nachvollziehbar zu machen und ihn so zu beschreiben, dass Dritte damit arbeiten können. Der Aufwand, der dafür nötig ist, hängt zum einen vom Umfang des Datensatzes selber ab. Andererseits bestimmt auch der Umfang der eigenen Arbeiten, wie ausführlich eine Dokumentation sein muss. So kann z.B. schon der Berechnungscode (z.B. do-file, sps-file) ausreichen, um einem Nachnutzer zu zeigen, wie ein Datensatz auf Basis frei verfügbarer und gut dokumentierter Primärdaten erstellt wurde. Zudem gibt es einige übergeordnete Informationen zu Datensätzen, die pauschal zur Verfügung gestellt werden sollten. Diese Informationen helfen den möglichen Nachnutzern bei der Entscheidung, ob die Daten relevant sein können. Folgende Punkte lassen sich darunter fassen:

1. Inhalt

Potentielle Nachnutzer eines Datensatzes werden im Allgemeinen versuchen, Angaben und Informationen über den Inhalt eines Datensatzes zu finden. Hilfreich dafür sind schlagwortartige Beschreibungen (z.B. „Arbeitsmarkt“, „Partnerschaften“, „Wahlen“, „Xenophobie“, „Investitionsgüter“) ebenso wie die Angabe von standardisierten inhaltsbezogenen Codes, z.B. JEL-Codes (ein Klassifikationsschema für Forschungsinhalte der US-Ökonomenvereinigung American Economic Association),kreispfeil die eine Einordnung in bestimmte Forschungsfelder erlauben. Der Nachteil dieser spezifischen Codes ist allerdings, dass ein Datenproduzent manchmal nicht abschätzen kann, in welchen ihm unbekannten bzw. wenig vertrauten Forschungsfeldern seine Daten für andere nutzbar sein könnten – beispielsweise wurde eine Studie der ALLBUS (Allgemeine Bevölkerungsumfrage der Sozialwissenschaften) mit Wetterdaten verknüpft (Mutz & Kämpfer, 2011). Daher empfiehlt es sich, ein Abstract zu schreiben, das den Dateninhalt genauer spezifiziert als es ein einzelnes Schlagwort kann. Hier findet sich ein gutes Beispiel für das Abstract eines Datensatzes.

2. Beobachtungseinheit

Die Beobachtungseinheit ist die kleinste Ebene, die im Datensatz vorhanden ist. Sie muss in der Dokumentation klar benannt und beschrieben werden. Im sozial- und wirtschaftswissenschaftlichen Kontext können dies Länder, Personen oder Güter sein. Wenn man sich einen Datensatz in einem beliebigen Tabellenkalkulationsprogramm vorstellt, mit Variablen bzw. Untersuchungsgegenständen in Spalten und Beobachtungseinheiten in Zeilen (auch als „rechteckiges Format“ bezeichnet), dann befindet sich die Information der kleinsten Ebene in der Regel in einer Zeile. Mehrere Beobachtungseinheiten können zusammengefasst werden, z.B. mehrere Personen zu einem Haushalt, mehrere Haushalte zu einem Bundesland etc. Zusätzlich wird häufig eine zeitliche Dimension berücksichtigt, beispielsweise können Datensätze von Personen, die über mehrere Jahre beobachtet werden, in der Einheit „Personen-Jahre“ abgelegt werden.

3. Datengrundlage

Als Nächstes muss der potenzielle Nutzer informiert werden, ob es sich bei den Daten um eine Vollerhebung oder um eine Stichprobe aus einer Grundgesamtheit handelt. Hierdurch erhält er im Idealfall direkt die Information darüber, welche Aussagen aufgrund der Daten überhaupt möglich sind. Beispielsweise kann es sich um eine Vollerhebung der Kinder einer Schule, deren Essgewohnheiten in der Mittagspause erfragt werden, handeln. Diese Daten können dann nicht herangezogen werden, um allgemein Aussagen über Essgewohnheiten von Kindern außerhalb dieser einen Schule zu treffen.

Bei Stichproben ist eine Definition der Grundgesamtheit tortesowie die Frage, wie versucht wurde, die Stichprobe aus der Grundgesamtheit abzuleiten, essentiell. Man könnte z.B. Privathaushalte in Deutschland als Grundgesamtheit definieren. Dann aber ist es schwer, die Stichprobe zu realisieren, weil es in Deutschland (wie in den meisten Ländern) keine offizielle Liste aller Haushalte gibt, aus der man eine Stichprobe bilden könnte. Bei einer Stichprobe stellt sich deswegen immer die Frage, wie sie erhoben wurde. Handelt es sich um eine Zufallsstichprobe, um eine Quotenstichprobe oder um eine Ziehung ohne Vorgaben (vgl. auch Schnell, 2012)?

Die Art der Stichprobe hat wiederum Einfluss auf die Aussagekraft der Daten – und somit auch auf die Breite der Fragestellungen, für die eine Nachnutzung der Daten sinnvoll ist. Zur Einschätzung der Validität der Daten sind Angaben zum Prozess der Erhebung essentiell. So sollte z.B. dokumentiert werden, wie viele Einheiten (etwa Personen oder Betriebe) ursprünglich befragt werden sollten („Bruttosample“) und wie viele letztendlich teilgenommen haben („Nettosample“).

4. Erhebungsmethode

Daten können ganz unterschiedlich gewonnen werden und in verschiedenen Formen vorliegen. Dies genau darzulegen ist wichtig, um die Daten richtig interpretieren sowie deren Reliabilität (Messgenauigkeit) und Validität (Aussagekraft) einschätzen zu können. Beispielsweise lassen sich Zeitungsauschnitte zu einem Thema als Daten erfassen, Interviews mit Personen (die quantitativ oder qualitativ sein können) oder Suchanfragen auf Internetseiten können dabei eine Datengrundlage bilden. Insbesondere durch die fortschreitende Digitalisierung unseres Alltags lassen sich immer mehr Wege finden, an Daten zu kommen und diese zu wissenschaftlichen Zwecken zu nutzen. Umso wichtiger wird in diesem Zusammenhang die Dokumentation der Erhebungsmethode (für Standarderhebungsmethoden in persönlichen Interviews, siehe z.B. Schnell, 2012), so dass zusätzliche Informationen auch aus Fragebögen, Skalenhandbüchern, Testbeschreibungen, Kodierungsvorschriften, Übersetzungshilfen, oder Anschreiben gezogen werden können – kurzum alles, was den Prozess der Datenerstellung für den Nutzer konkretisiert.

5. Umfang

ListeDer Umfang der Daten ist wesentlich, wenn über den weiteren Gebrauch entschieden wird. Dabei geht es zum einen um die Anzahl an Beobachtungen: Wie viele Schüler wurden in einer Befragung erfasst? Wie viele Länder sind enthalten? Usw.

Wesentlich wichtiger ist aber, wie der in Punkt 1 angegebene Inhalt erfasst wird, also wie viele Variablen im Datensatz enthalten sind und was sie konkret messen. Hier kann eine veröffentlichte Aufsatz-Dokumentation, die den Lesern einen ersten Überblick geben soll, in der Regel nicht weit ins Detail gehen (die Vorstellungen der Datensätze in „Schmollers Jahrbuch“ haben beispielsweise nur einen Umfang von bis zu 15 Seiten). Weiterführende Dokumentationen sind dann für die tatsächlichen Nutzer gedacht, die Genaueres über die Erhebung erfahren möchten, z.B. wie das Bruttosozialprodukt eines Landes erhoben wurde oder in welchem Format Jahresdaten abgelegt wurden. Hierfür ist die Erstellung eines so genannten Codebuches bzw. Datenhandbuches sinnvoll. Ein Beispiel für ein sehr ausführliches Codebuch findet sich beim SOEP: „Codebook: Household level questionnaires“.

6. Zugang

Zu guter Letzt ist es wichtig, anzugeben, ob und wie ein Nachnutzer an die betreffenden Daten gelangen kann. Zunächst muss dabei ein Ansprechpartner oder eine Institution genannt werden, der oder die verantwortlich für den Zugang und den Vertrieb der Daten ist (falls dies vorgesehen ist). Die meisten Datensätze können nicht einfach öffentlich zur Verfügung gestellt werden, denn auch bei selbst erstellten Daten müssen datenschutzrechtliche Bestimmungen eingehalten werden. Beispielsweise müssen personenbezogenen Daten für eine Weitergabe anonymisiert werden, d.h. sämtliche Möglichkeiten zur Identifikation von Individuen müssen entfernt werden (vgl. Statistisches Bundesamt – Forschungsdatenzentrum, 2013). Dies bedeutet unter Umständen auch, bestimmte seltene Merkmale bzw. Kombinationen von Merkmalen zu entfernen. Erste Ansprechpartner für Fragen in diesem Zusammenhang sind die Datenschützer der jeweiligen Institution, die im Zweifel immer vor einer Studie mit selbst erhobenen Daten kontaktiert werden sollten.
Immer häufiger ist es möglich, Daten per Download bereitzustellen und dafür besondere Zertifikate auszugeben (in der Regel auf Basis eines Nutzungsvertrags). Dabei ist der Unterschied zwischen kommerziellen und wissenschaftlichen Nutzern, für die meist unterschiedliche Bedingungen gesetzt werden, zu beachten. Auch Kosten der Nachnutzung, die selbst bei grundsätzlich kostenfreien Daten allein durch den Versand entstehen können, sind zu benennen. Besonders im universitären Umfeld ist es wichtig, ob es eine Version der Daten für die Lehre gibt, die datenschutzrechtlich weniger sensibelpfeil ist (CAMPUS-File) und die ggf. für Studierende verbilligt oder vollständig kostenfrei abgegeben wird (z. B. per Downloadmöglichkeit).

Die Punkte 1 bis 6 geben einen Überblick, der den potentiellen Nachnutzern relativ schnell eine Entscheidung darüber erlaubt, ob die Daten für sie relevant sind. Je nach Art des Datensatzes gibt es dabei noch weitere Qualitätskriterien, die angegeben werden können. So kann (und sollte) zum Beispiel bei Umfragen der Anteil an fehlenden Antworten (Item-Nonresponse) oder der Anteil der Nicht-Teilnehmer (Unit-Nonresponse) dokumentiert werden. Je ausführlicher diese Dokumentation ist, desto wahrscheinlicher wird es, dass die Dokumentation und der Datensatz zitiert werden – nicht zuletzt dadurch, dass man den Nachnutzern in der Dokumentation auf die (bereits oben erwähnte) persistente Identifizierung (DOI) hinweist und einen Zitationsvorschlag für den Datensatz macht.

button_gelb

Verwendete Icons:
Alle auf dieser Webseite verwendeten Icons stammen von Freepik.com und sind unter einer CC-BY 3.0 Lizenz lizensiert.