Original von SRS_Speci
Mathematisch korrekt ist nur die n-1... Wenn man sich mal die genaue Herleitung anschaut.. an den Schulen wird nur häufig n unterrichtet, frag mich nur bitte nicht warum.
ohoh Oli, und das aus deinem Munde.
Zuerst einmal ist die Standarabweichung nichts anderes als die Quadratwurzel der Varianz, damit man wieder bei der urspünglichen Skalendimension ist. Letzlich genügt es also, nur über die verschiedenen Arten von Varianzen zu sprechen.
Die Variante mit n im Nenner ist die Varianz der Grundgesamtheit. Diese nimmt man, wenn man alle Elemente des zuuntersuchenden Gegenstandes kennt und diese Elemente nicht selbst nur aus einem stochastischen Prozess hervorgegangen sind. Ich hoffe das war verständlich so.
Die Variante mit (n-1) im Nenner ist die Varianzformel für Stichproben, sie wird auch oft empirische Varianz genannt. Letzlich hat man es in der Realität immer mit dieser zu tun - das mag Oli zur gewiss physikernahen aber mathematisch etwas seltsammen obigen Formulierung veranlasst haben.
Der Grund für die Korrektur liegt daran, daß mit (n-1) anstatt n eine Verzerrungskorrektur vorgenommen wird. Nur der Schätzer mit (n-1) ist unverzerrt für Stichproben.
Heuristisch köntne man es folgendermaßen begründen: Zur Berechnung der Varianz muss zuerst einmal der Mittelwert bekannt sein oder berechnet werden. In der Realität ist der Wahre Mittelwert einer Verteilung praktisch nie bekannt und muss ebenfalls erst einmal aus den selben Daten geschätzt werden. Genau hier liegt ds Problem. Man benutzt ein- und denselben Datensatz zuerst zum Schätzen des Mittelwertes, um anschließend daraus die Varianz (Summe der quadrierten Entfernung jeder Ausprägung zum Mittelwert) zu berechnen.
Nehmen wir mal kurz an, wir haben eine Stichprobe mit nur 4 Beobachtungen: 1, 2, 3 und 4
Daraus kann ich den Mittelwert mit 10/4 = 2,5 berechnen.
Nehmen wir mal an ich weiß den Mittelwert von 2,5 und 3 der Beobachtungen (welche 3 sind egal). Die vierte und letzte beobachtung ergibt sich immer aus dem Mittelwert und den anderen dreien.
Weiß ich den Mittelwert = 2,5 und 1, 3 und 4, so kann ich mir überlegen:
(1+3+4+x)/4 = 2,5
1+3+4+x = 10
x = 10-8 = 2
Dies ist heuristisch das Konzept der Freiheitsgrade. Ich benötige für die Varianzberechnung den Mittelwert. Wenn ich diesen allerdings berechne, so habe ich nur noch n-1 "freie Beobachtungswertauswahl", der letzte Wert lässt sich immer berechnen. Deshalb stehen für die Varianz nicht mehr n, sondern nur noch (n-1) Werte zur Verfügung.
Ich hoffe, das war so heuristisch genug und damit verständlich. Man kann leicht mit Mitteln der linearen Algebra zeigen, wenn man obige Konzepte verallgemeinert, daß man bei höherdimensionalen Statistiken von Zufallsvariablen um mehr Freiheitsgrade korrigieren muss. Dann steht da nicht mehr (n-1) sondern (n-p).
€dit: So, jetzt auch mal gelesen, um was es eigentlich ging.
Banshee, du weißt schon, daß das keinen Sinn macht, was du da vorhast?
Man kann zwar mathematisch viele schöne Dinge machen und sie oft noch einfacher rechnen als verstehen - nur den Sinn muss man scih schon selbst überlegen. Nur weil etwas rechenbar ist heißt dies nicht, daß es auch Sinn macht.
Alleine schon der Mittelwert aus Noten macht keinen Sinn. Damit unterstellt man ja implizit, daß die Noten gleichweit entfernt liegen (die Noten eine metrische Variable sind) - also daß es gleichschwer ist von einer 6 auf eine 5 zu kommen wie von einer 2 auf eine 1. Damit hätte ich schon deswegen meine Probleme, weil die Definition der Noten ja auf einen bestimmten Prozentsatz an Punkten von der erreichbaren Gesamtpunktzahl beruht. Die Abstände sind schon unterschiedlich, die Schweirigkeitsgrade der einzelnen Aufgaben auch, aber im ungefähren Verhältnis festgeschrieben. Die Verteilung über das alles schaut sicher sehr komisch aus - und es sollte großer Zufall sein, wenn sie genau der des überprüfbare Wissens der Kinder entspricht.
Auch eine Standartabweichung macht nicht so viel Sinn bei ordinalen Zufallsvariablen. Es gibt spezielle Verfahren, welche speziell für diese Art von Daten konzeptioniert wurden und dann bei einem Mindestmaß an Vorraussetzungen auch einen wirklichen Aussagegehalt haben.