Praxisseminar: Räumliche Visualisierung statistischer Daten
Klassenbildung
Klassenbildung ist "Bauchsache", die nur teilweise klare Regeln zugrunde liegen hat. Letztlich muss jede/r selbst entscheiden, welche Klassen zu bilden sind, welche Aussage wichtig ist, welche Daten aufgrund der Häufigkeitsverteilung zu betonen oder zu "vernachlässigen" sind. Die Gefahr der Manipulation ist immer gegeben, die Versuchung, durch die Datendarstellung absichtlich oder auch ungewollt Tatsachen zu verfälschen, ist groß. Deshalb hier einige Handreichungen, die dabei helfen können, dies zu vermeiden.
Klassierung bzw. Gruppierung von Daten:
Die Anzahl der zu bildenden Klassen ist abhängig von der Zahl der gültigen Fälle.
Zur Berechnung empfiehlt sich als Faustformel die "Sturges-Formel" aus dem Jahr 1926:
[k = 1+3,32 x log n]
wobei k=Anzahl der zu bildenden Klassen und n=gültige Fälle/Datensätze.
(auf dem Windows-Taschenrechner - wissenschaftliche Ansicht - ist die Taste [log] die Richtige!)
Trotz der Logarithmierung wächst natürlich die Zahl der Klassen mit n. Da muss man einen Deckel einbauen, der für Übersichtlichkeit sorgt. Außerdem wird die Streuung der Verteilung nicht berücksichtigt. Wer dazu noch schmökern will: auf Wikipedia gibt's einige Artikel dazu. Dort wird auch die Relevanz der Formel diskutiert und auf alternative Berechnungsweisen eingegangen.
Zur Bestimmung der Klassen geht man von einem Intervall aus, das alle Werte umfaßt.
Dabei sollte(n) / dürfen:
- sich die verschiedenen Klassen nicht überdecken
- das gesamte Werteintervall von den Klassen überdeckt werden
- die Klassenintervalle möglichst gleich groß sein, d.h. die Klassenbreiten gleich bzw. äquidistant sein
- die Klassenmitten und -grenzen möglichst einfache Zahlen sein
- sich keine Nullklassen ergeben, und
- das niedrigste und das höchste Intervall können notfalls jeweils nach unten oder nach oben offen sein, v.a. bei starker Streuung der Werte oder bei Außreißern.
PcMap bietet bei der Flächenfarben-Darstellung Methoden an, mit denen die Klasseneinteilung automatisch erfolgen kann:
Mit den Methoden "äquidistant" und "Standardabweichung" kann man sich gut an eine genehme Klassenbildung herantasten, letzlich sollte man den Feinschliff (ganze Zahlen!) dann aber frei eingeben.
Hier noch eine Abbildung (verändert, nach Olbrich 1996), die ebenfalls einige sinnvolle Herangehensweisen zeigt:
Eine Überprüfung der Klasseneinteilung kann außerhalb von PcMap durch die Anzeige geeigneter Histogramme mit SPSS oder anderen Programmen erfolgen.
Eine rechnerische Gütekontrolle der gewählten Klasseneinteilung ist durch den Vergleich der Gesamtsumme [SUMME n] der Originalwerte mit der SUMME (Klassenbelegung*Klassenmitte) der gewählten Klasseneinteilung möglich (Abweichungen bis zu 5 Prozent sind im Allgemeinen tolerierbar).
Kontakt:
Bernhard Jakob
Dipl.- Geogr.Akademischer Mitarbeiter