SOEP-Einführung: Erste Schritte mit dem SOEP
Vorbemerkung
Diese kleine Einführung in den SOEP-Datensatz wurde ausgelagert
und
gehört eigentlich zum Seminar: Datenanalyse mit SPSS für
Fortgeschrittene:
Das Sozio-oekonomische Panel - Sommersemester
2003
oder Multivariate Datenanalyse - Das
Sozio-ökonomische
Panel (SOEP) - Wintersemester
2006/2007
Die Seiten sind somit keine offiziellen SOEP-Seiten. Es können
somit Fehler oder Ungenauigkeiten enthalten sein. Bitte schreiben Sie
in
diesem Fall eine E-Mail (Adresse siehe www.hinner.com).
Der SOEP-Datensatz ist nicht frei erhältlich. Um ihn zu
erhalten,
müssen Sie ein konkretes Forschungsprojekt durchführen und
die
Datenschutzerklärung unterschreiben. Näheres finden Sie unter
http://www.diw.de/de/diw_02.c.222829.de/nutzung_des_soep.html
Achtung: Viele Informationen und Textsequenzen stammen direkt von
der
WWW-Seite des DIW - die Zitate sind nicht immer kenntlich gemacht
worden.
Der Datensatz...
Das Sozio-oekonomische Panel (SOEP) ist eine repräsentative
Wiederholungsbefragung
privater Haushalte in Deutschland. Sie wird im jährlichen Rhythmus
seit 1984 bei denselben Personen und Familien in der Bundesrepublik
durchgeführt.
Bereits im Juni 1990, also noch vor der Währungs-, Wirtschafts-
und
Sozialunion, wurde die Studie auf das Gebiet der ehemaligen DDR
ausgeweitet.
Zur adäquaten Erfassung des gesellschaftlichen Wandels in den
Jahren
1994/95 wurde die »Zuwanderer-Stichprobe« eingeführt.
Die Stichprobe umfaßte im Erhebungsjahr 2004 fast 12.000
Haushalte mit mehr als 22.000 Personen.
Das SOEP zeichnet sich durch eine hohe Kontinuität aus. 1984
beteiligten
sich im SOEP-West 5921 Haushalte mit 12290 Personen an der Befragung;
nach 19 Wellen im Jahre 2002 sind es noch 3889 Haushalte mit 7175
Personen.
Im SOEP-Ost wurden 1990 2179 Haushalte mit 4453 Personen befragt; 2002
gaben 3466 Personen in 1818 Haushalten Auskunft über ihre
Lebenssituation.
Die Zuwanderer-Stichprobe der Jahre 1994/95 behielt mit 402 Haushalten
und 780 Personen im Jahre 2002 einen nahezu stabilen Umfang.
Von den 1932 Personen in 1067 Haushalten der Ergänzungsstichprobe
E aus dem Jahre 1998 konnten im Jahre 2002 1373 Personen in 773
Haushalten
wiederholt befragt werden.
Im Jahre 2000 wurde eine Erweiterungsstichprobe F gezogen, um auf Basis
einer großen Fallzahl bessere Analysen kleiner Teilgruppen der
Bevölkerung
zu ermöglichen. Für das Jahr 2002 stehen dafür
Informationen
zu 8427 Personen in 4586 Haushalten zur Verfügung.
...für die Lehre
Die SOEP-Daten werden als Rohdaten sowie in SPSS-, SAS- und
STATA-Format
mit ausführlichen Arbeitsunterlagen auf CD-ROM weitergegeben.
Der Lehre-File des SOEP ist eine 50%-Zufallsstichprobe, das
heißt,
50% der befragten Haushalte der jeweils ersten Welle einer Stichprobe
wurden
nachträglich zufällig aus dem Datensatz entfernt.
Längsschnittanalysen
können somit unproblematisch durchgeführt werden. Das
Verfahren
verzerrt die Ergebnisse nicht; selbstverständlich ist der
Stichprobenfehler
aufgrund der geringeren Fallzahl größer als im
100%-Datensatz.
Dokumentation
Kernstück der SOEP-Dokumentation ist das Desktop Companion
(DTC).
Das DTC (Herausgeber: J. Haisken-DeNew und J. Frick) ist die
Hauptreferenz
für die meisten Fragen zum SOEP. Es ist aus vielerlei Artikeln,
Diskussionspapieren,
und Seminar-Handouts gewachsen, um zentral an einer Stelle das SOEP zu
dokumentieren. Die Basisstruktur der SOEP Daten, sowie die
verschiedenen
Daten-Extensions werden hier beschrieben. Sie
können das DTC als pdf-Dokument online abrufen.
SOEPinfo ist ein Datenbank-gestütztes
Informationssystem,
über das man online die Variablen des SOEP heraussuchen kann.
Außerdem
lassen sich einfache Häufigkeitsauszählungen und
Syntax-Scripts
für die Variablen-Selektion einfach online erzeugen. Sie
können SOEPInfo hier online starten.
Häufige Fragen und Antworten finden Sie in einer entsprechenden
FAQ-Liste
beantwortet. Diese
läßt sich ebenfalls direkt beim DIW online abrufen.
Beispiele
Im folgenden einige Analysebeispiele, aufbereitet als
Schritt-für-Schritt-Anleitungen.
Zufriedenheit mit der Gesundheit - Entwicklung seit 1984
- Starten Sie SOEPInfo,
wählen
Sie die neue Version und die Deutsche Sprache.
- Klicken Sie links oben bei Main Actions auf Word
Search.
Tippen Sie "zufriedenheit gesundheit" ein. Starten Sie die Suche mit
einem
Klick auf "Search" - die Eingabetaste funktioniert zumindest mit
Netscape 4.x
nicht. Die Suche dauert eine Weile, also nicht noch einmal klicken. In
der Antwortliste finden Sie nach längerem Scrollen (die Suche
läßt
sich mit Strg-F und "Zufriedenheit mit der Gesundheit" abkürzen)
eine
Rubrik "Zufriedenheit mit der Gesundheit". Klicken Sie die einzelnen
Variablen
(AP0301 für 1984, BP0101 für 1985 etc.) einzeln in den Korb
oder
klicken Sie auf "xP", um alle auf einmal zu übernehmen.
- Sie sehen, daß für die Jahre 1991 Ost, 2003, 2004 und
2005
keine Einträge
zu finden sind - ein Fehler in dieser SOEPinfo Rubrik. Um die fehlenden
Variablen zu finden, klicken Sie auf eine der Variablen im Basket
(z.B. AP0301) und wählen dann unter [Basket Actions] den
Befehl
"Items". Sie sehen zwei Rubriken, "5.1.1 Gesundheitliches
Wohlbefinden"
und "8.1.1 Bereichszufriedenheiten". Hier finden Sie die
entsprechenden
Variablen für 2003 bis 2005 (TP0101, UP0101, VP0101).
Übernehmen
Sie alle drei durch Anklicken in den Basket.
- Der entsprechende Wert für 1991 Ost fehlt immer noch.
Deshalb
klicken
wir jetzt bei [SOEPinfo Main Actions] links oben auf Questionnaires
und lassen uns die Fragebögen anzeigen. Wir wählen den
für
die Personen von 1991 Ost, davon die neue Version. Der Fragebogen ist
etwas
lang, deshalb suchen wir über Strg-F nach "Gesundheit" und finden
die Variable HP1001. Wir wundern uns, weil das offenbar die
gleiche
wir 1991 West ist - diese ist bereits im Basket. Das Problem
stellen
wir erst einmal zurück und prüfen anhand des Datensatzes, ob
sich hier nur Westdeutsche finden oder ob hier auch schon Ostdeutsche
enthalten
sind und der Variable Label nicht stimmt.
- Wir benötigen noch die Hochrechnungsfaktoren. Dazu klicken
wir
auf
[SOEPinfo Main Actions] und wählen Topics. In der
Rubrik
10.5 werden wir fündig, unter "Hochrechnung Person" finden wir
fast
alle benötigten Faktoren und übernehmen sie (für 1990
Ost
und 1991 Ost sind diese in den entsprechenden Jahres-Variablen mit
enthalten (Hinweis: siehe auch "*" etwas weiter unten).
- Über Varname Search suchen wir noch nach "sex" und
übernehmen
diese Variable in den Basket.
- Nun können Sie sich eine Liste aller Variablen im Basket
über
"List" (vorher Select all) ansehen und mit
dieser vergleichen.
- Die Syntax für die Erstellung des Datenfiles kann man
über
"SPSS"
(vorher Select all) anfordern:
- Data Files Path: Der Pfad zu den SOEP-sav-Dateien,
hängt von
der Installation ab. Für den SOEP-Kurs an der Universität
Mainz
muß hier "o:\soep\lehre\" eingetragen werden.
- Temp Path: Speichermöglichkeit für
temporäre Dateien,
hängt ebenso von Ihrer Installation ab. Für den SOEP-Kurs an
der Universität Mainz muß hier "u:\temp\" eingetragen
werden.
Vorher muß dieses Verzeichnis im Explorer angelegt werden
(Rechte Maustaste über Start, Explorer mit der linken Maustaste
anklicken,
auf Laufwerk u: wechseln, mit "Datei/Neu-Ordner" einen neuen Ordner
anlegen
und diesen nach temp umbenennen). In den meisten Fällen
ist
die Voreinstellung (c:\temp\ oder c:\windows\temp\) empfehlenswert.
- Level: Personen oder Haushalte. Uns interessiert hier
die
Personenebene.
- Panel Data Design: Balanced oder Unbalanced.
Hier
wird ausgewählt, ob wir nur Befragte auswerten wollen, die an
allen
fraglichen Wellen teilgenommen haben (balanced) oder ob wir auch
mit Befragten zufrieden sind, die nicht an allen fraglichen Wellen
dabei
waren (unbalanced). Wir wollen eine möglicht große
Zahl
von Befragten und wählen unbalanced.
- Unit of Analysis: Erwachsene oder Alle - wir
wählen All.
- Gender: Both
- Original Sample: Alle anklicken.
- Geographic Region: Both.
- Mit Klick auf "Generate SPSS Code" wird die Syntax erzeugt.
Über
Strg-A
oder "Edit/Select all bei Netscape" bzw. "Bearbeiten/Alles markieren"
kopieren
wir diese in die Zwischenablage. Sie können die erzeugte Syntax hier
vergleichen. Sie finden hier zudem als Service eine angepaßte
Syntax mit relativen Pfaden [diese Methode wurde seit 2004
allgemein für die von SOEPinfo generierte SPSS-Syntax
übernommen, insofern können Sie die Standard-Ausgabe
verwenden], die Sie nur in zwei Zeilen anpassen müssen,
damit der Datensatz auf Ihrem System erzeugt wird.
- Anschließend SPSS starten und "Datei/Neu-Syntax" anklicken.
In
dieses
Fenster wird die Zwischenablage mit Strg-V oder Rechte
Maustaste/Einfügen
oder Bearbeiten/Einfügen übertragen. Mit Strg-A und
Klick
auf "Aktuellen Befehl ausführen" oder Strg-R wird der Datensatz
erzeugt.
- Prüft man diesen Datensatz new.sav, sieht man bei
den
Personen
aus dem psample 3 (Deutschland-Ost), daß die
Hochrechnungsfaktoren
für die Jahre 1990 und 1991 mit enthalten sind und ihre
Zufriedenheiten
für das Jahr 1991 auch unter HP1001 gespeichert sind [*
Ostdeutsche sind im SOEP etwas überrepräsentiert, es gibt
für sie aber
keine separaten Hochrechnungsfaktoren, um z.B. auf das Gebiet der
ehemaligen DDR hochrechnen zu können. Dank an Stefanie Zunder
für
diesen Hinweis]
- Auswertungsmöglichkeit 1: Querschnitt über
alle
Wellen
- jeweils gewichtet mit dem Wellen-Hochrechnungsfaktor und dann eine
Mittelwertsberechnung
der Zufriedenheit.
- Auswertungsmöglichkeit 2: Querschnitt über
alle
Wellen
- gewichtet mit dem Gesamt-Hochrechnungsfaktor und dann eine
Mittelwertsberechnung
der Zufriedenheit.
- Im Unterschied zur obigen Möglichkeit 1 gewichten wir
über
den
Längsschnitt, d.h. wir berechnen eine Gewichtungsvariable nach dem
Muster
compute arphrf = aphrf*bpbleib*cpbleib* ... * rpbleib .
- Damit bricht unsere Fallzahl drastisch ein, wir haben nun nur
noch
Personen
in der Auswertung, die immer auf diese Frage bei jeder Welle
geantwortet
haben. Also diejenigen, die seit 1984 ununterbrochen dabei sind. Damit
ist auch klar, daß die gesundheitliche Zufriedenheit stärker
abnimmt als bei der vorigen Querschnittsanalyse, denn die betreffenden
Personen werden kontinuierlich älter und es gibt einen
Zusammenhang
zwischen Alter und gesundheitlicher Zufriedenheit. Sie können die
Syntax hier herunterladen.
- Wenn Sie sich von SPSS die Entwicklung der Zufriedenheit
ausgeben
lassen,
könnte man dazu verleitet werden, daß sich die Zufriedenheit
mit der Gesundheit kontinuierlich verschlechtert hat und sich in den
letzten
Jahren wieder leicht "erholte" (wie bei den Aktien):
-
- Allerdings darf man sich davon nicht irritieren lassen:
Paßt man
die Y-Achse an das Spektrum der Antwortmöglichkeiten an (Eigenschaften Achse, Skala:
Intervall
von 1 bis 10), sieht die Entwicklung schon wesentlich
unspektakulärer
aus:
-
- Und wohlgemerkt: Diese Graphen betreffen die "kollektiv
alternde"
Population,
die diese Frage seit 1984 immer beantwortet hat. Es gibt, bei
näherer
Untersuchung, nur eine schwache Korrelation zwischen Zufriedenheit und
Geschlecht.Insgesamt erstaulich, wie zufrieden die (West-)Deutschen mit
ihrer Gesundheit sind.
Haushaltseinkommen - Probleme bei der Erzeugung des Datensatzes
- Starten Sie SOEPInfo,
wählen
Sie die neue Version und die Deutsche Sprache.
- Klicken Sie links oben bei Main Actions auf Word
Search.
Tippen Sie "einkommen" ein. Starten Sie die Suche mit einem Klick auf
"Search"
- die Eingabetaste funktioniert zumindest mit Netscape 4.x nicht. Die
Suche
dauert eine Weile, also nicht noch einmal klicken. In der Antwortliste
finden Sie nach längerem Scrollen (die Suche läßt sich
mit Strg-F und "Heutiges monatliches" abkürzen) eine Rubrik
"Heutiges
monatliches Haushalts-Netto-Einkommen". Klicken Sie die einzelnen
Variablen
(AH46 für 1984, BH39 für 1985 etc.) einzeln in den Korb oder
klicken Sie auf "xH", um alle auf einmal zu übernehmen.
- Als nächstes suchen wir nach "HH-Typologie" und
übernehmen
alle
Variablen (z.B. ATYPHH1 für 1984) mit Klick auf "xHGEN" (für
die 1-Steller) in den Basket.
- Nun können Sie sich eine Liste aller Variablen im Basket
über
"List" (vorher Select all) ansehen und mit
dieser vergleichen.
- Die Syntax für die Erstellung des Datenfiles kann man
über
"SPSS"
(vorher Select all) anfordern:
- Data Files Path: Der Pfad zu den SOEP-sav-Dateien,
hängt von
der Installation ab. Für den SOEP-Kurs an der Universität
Mainz
muß hier "o:\soep\lehre\" eingetragen werden.
- Temp Path: Speichermöglichkeit für
temporäre Dateien,
hängt ebenso von Ihrer Installation ab. Für den SOEP-Kurs an
der Universität Mainz muß hier "u:\temp\" eingetragen
werden.
Vorher muß dieses Verzeichnis im Explorer angelegt werden
(Rechte Maustaste über Start, Explorer mit der linken Maustaste
anklicken,
auf Laufwerk u: wechseln, mit "Datei/Neu-Ordner" einen neuen Ordner
anlegen
und diesen nach temp umbenennen). In den meisten Fällen
ist
die Voreinstellung (c:\temp\ oder c:\windows\temp\) empfehlenswert.
- Level: Personen oder Haushalte. Uns interessiert hier
die
Haushaltsebene.
- Panel Data Design: Balanced oder Unbalanced.
Hier
wird ausgewählt, ob wir nur Befragte auswerten wollen, die an
allen
fraglichen Wellen teilgenommen haben (balanced) oder ob wir auch
mit Befragten zufrieden sind, die nicht an allen fraglichen Wellen
dabei
waren (unbalanced). Wir wollen eine möglicht große
Zahl
von befragten Haushalten und wählen unbalanced.
- Unit of Analysis: Erwachsene oder Alle - wir
wählen All.
- Gender: Both
- Original Sample: Alle anklicken.
- Geographic Region: Both.
- Mit Klick auf "Generate SPSS Code" wird die Syntax erzeugt.
Über
Strg-A
oder "Edit/Select all" bei Netscape bzw. "Bearbeiten/Alles markieren"
kopieren
wir diese in die Zwischenablage.
- Anschließend SPSS starten und "Datei/Neu-Syntax" anklicken.
In
dieses
Fenster wird die Zwischenablage mit Strg-V oder Rechte
Maustaste/Einfügen
oder Bearbeiten/Einfügen übertragen. Mit Strg-A und
Klick
auf "Aktuellen Befehl ausführen" oder Strg-R wird der Datensatz
erzeugt.
[Das folgende ist inzwischen korrigiert, die Zeilen habe ich aus
historischen Gründen nicht entfernt und damit evtl. ähnliche
Fehler einfacher behoben werden können. K.H., 14.1.2007]
- Das Problem ist, daß der Datensatz nicht richtig erzeugt
wird. Es
kommen viele Fehlermeldungen zu fehlenden Variablen, z.B. "persnr",
"sex",
"gebjahr", "psample" etc. - alles fehlt bzw. wird angemahnt. Sie
können
die erzeugte fehlerhafte Syntax hier
vergleichen.
- Gehen wir die Fehler der Reihe nach durch:
- Der erste select if (balanced/unbalanced) prüft
nicht auf
Haushalts-
sondern auf Personenebene. Alle "anetto" "bnetto" etc. müssen in
"ahnetto",
"bhnetto" etc. geändert werden. Ganz offensichtlich ein Fehler in
der Routine der Syntax-Erzeugung. Beim Laden der hpfad-Datei
sind
die entsprechenden Einträge hinter /keep auch falsch
(statt anetto
ahnetto etc.). Man muß sie aber nicht ändern, sondern
kann
die ganze Liste einfach entfernen (arbeitet also weiter mit allen
Variablen
und verkleinert den Datensatz nicht mit /keep).
- In der Rubrik "[ automatically pull hhrf ]" stimmt die
Sortierung
nicht. Statt nach persnr - einer Variablen, die es in diesem
Kontext
gar nicht gibt - muß nach hhnrakt sortiert werden.
- Am Anfang der Sektion "merge together by household: Wave"
vor
dem
ersten "sort cases by hhnr ahhnr." fehlt der richtige
Datei-Laden-Befehl: get
file = 'c:\temp\hpfad.sav'. Der darauf folgende Match (match
files
file = 'u:\temp\hmaster.sav') schlägt fehl, weil die Datei hmaster
vorher falsch sortiert wurde. Also muß man ganz am Anfang, in der
Sektion "automatically create hmaster" den Sort in sort
cases
by hhnr ahhnr. ändern.
Sie können die korrigierte Syntax hier
vergleichen. Sie finden hier zudem als Service eine angepaßte
Syntax mit relativen Pfaden, die Sie nur in zwei Zeilen anpassen
müssen,
damit der Datensatz auf Ihrem System erzeugt wird.
Mit der korrigierten Syntax kann die Datei fehlerfrei erzeugt
werden
- die weitere Auswertung wird hier nicht ausgeführt.
Letzte Änderung: 23.10.2012
Vielen Dank an Dorthe Michel für die Zusendung der aktualisierten Links zum DIW.
This text is (c) 2003-2012 by Dr. Kajetan Hinner. You have to email and
ask for my acceptance, if you want to use any information provided
here commercially.
Follow this Link to get to my
homepage.