Statistik - Standardabweichung - Tips, Ratsch & Tratsch

Statistik - Standardabweichung

Lieber Besucher, herzlich willkommen bei: MastersForum. Falls dies Ihr erster Besuch auf dieser Seite ist, lesen Sie sich bitte die Hilfe durch. Dort wird Ihnen die Bedienung dieser Seite näher erläutert. Darüber hinaus sollten Sie sich registrieren, um alle Funktionen dieser Seite nutzen zu können. Benutzen Sie das Registrierungsformular, um sich zu registrieren oder informieren Sie sich ausführlich über den Registrierungsvorgang. Falls Sie sich bereits zu einem früheren Zeitpunkt registriert haben, können Sie sich hier anmelden.

GWC_Banshee_

Erleuchteter

Beiträge: 7 672

04.05.2007, 11:31

Statistik - Standardabweichung

Bei der Berechnung der Standardabweichung musste man doch manchmal n-1 rechnen und manchmal nicht. Hab schon ewig kein Statistik mehr gemacht und kann mich zum verrecken nicht mehr dran erinnern nach welchen Kriterien man da unterscheiden musste.

Zum Seitenanfang

SRS_Speci

Profi

Beiträge: 916

Beruf: GER

04.05.2007, 11:39

Mathematisch korrekt ist nur die n-1... Wenn man sich mal die genaue Herleitung anschaut.. an den Schulen wird nur häufig n unterrichtet, frag mich nur bitte nicht warum.

Zum Seitenanfang

DRDK_TaCtaR__

Fortgeschrittener

Beiträge: 252

Wohnort: Lustenau

Beruf: AUT

04.05.2007, 11:41

ich kann mich noch dunkel dran erinnern - ich glaub das war wenn es nur ne stichprobe ist mit n-1 und sonst normal

Zum Seitenanfang

OLV_TRuNKs_

Meister

Beiträge: 2 709

Beruf: GER

04.05.2007, 11:45

wir hams im Studium immer so gemacht:

Standardabweichung s = Wurzel aus der Varianz s² - logisch

Zur Berechnung der Varianz berechnest du das arithmetische Mittel und guckst dir an wie hoch die Abweichung vom arithmetischen Mittel bei jeder einzelnen Zahl der Reihe ist.

Diese Abweichungen nimmst du jeweils zum Quadrat und addierst sie.

Die Summe teilst du jetzt durch die Anzahl der Werte = Varianz.

Jetzt Wurzel ziehen und du hast die Standardabweichung. Hoffe ich verwechsel das nich, is auch schon n bisschen her ;-)

Zum Seitenanfang

SRS_Speci

Profi

Beiträge: 916

Beruf: GER

04.05.2007, 11:46

für große Stichproben ist es egal, da 1/n einfach sehr klein wird.. also der Unterschied.. Aber mathematisch korrekt ist die -1.

Zum Seitenanfang

_Wanderer_Xen

Profi

Beiträge: 845

Wohnort: BeRLiN

Beruf: GER

04.05.2007, 12:33

Wenn du 1/n nimmst, hast Du die z²-Funktion, deren Erwartungswert nur (n-1)/n * sigma² ist. Benutzt du 1/(n-1) hast Du S² und deren Erwartungswert ist genau sigma².

Zum Seitenanfang

GWC_Banshee_

Erleuchteter

Beiträge: 7 672

04.05.2007, 15:10

Ok, ich komme nicht weiter. Ich habe folgendes gemacht:

*fünf Noten, diese Noten haben den Wert 1-5. Diese 5 "Klassen" wurden unterschiedlich oft angekreuzt. Ich habe den Mittelwert daraus gebildet, indem ich:

Anzahl der Kreuze*Note und alle aufaddiert. Anschließend durch die Anzahl der verteilten Noten geteilt= Notendurchschnitt (=a. Mittel?).

Davon möchte ich jetzt eine Art Standardabweichung erstellen. Ich bin mir nicht klar darüber, was n und was x ist, da ich die Werte der Tabelle ja durch die Noten gewichtet habe.

Mein konkretes Beispiel:

Note/Häufigkeit 1/29 2/8 3/7 4/3 5/3

1*29+2*8+3*7+4*3+5*3
--------------------------------- = 1,86
50

Davon hätte ich nun gerne die Standardabweichung.

Zum Seitenanfang

[AA]Hawk

Erleuchteter

Beiträge: 6 250

Beruf: GER

04.05.2007, 15:38

du addierst 29mal (1,86 - 1)^2, 8mal (2-1,86)^2, 7mal (3-1,86)^2, 3mal (4-1,86)^2 und 3mal (5-1,86)^2, teilst die Summe durch 49 (50 - 1) und ziehst daraus die Wurzel

1,229...

oder du nutzt die Statistikfunktion des Windows-Taschenrechners o.ä. ^^

Zum Seitenanfang

GWC_Banshee_

Erleuchteter

Beiträge: 7 672

04.05.2007, 15:49

Danke. Ich stand echt auf dem Schlauch.

Zum Seitenanfang

AtroX_Worf

Erleuchteter

Beiträge: 11 461

Wohnort: Hamburg

Beruf: GER

04.05.2007, 16:06

Zitat

Original von SRS_Speci
Mathematisch korrekt ist nur die n-1... Wenn man sich mal die genaue Herleitung anschaut.. an den Schulen wird nur häufig n unterrichtet, frag mich nur bitte nicht warum.

ohoh Oli, und das aus deinem Munde.

Zuerst einmal ist die Standarabweichung nichts anderes als die Quadratwurzel der Varianz, damit man wieder bei der urspünglichen Skalendimension ist. Letzlich genügt es also, nur über die verschiedenen Arten von Varianzen zu sprechen.

Die Variante mit n im Nenner ist die Varianz der Grundgesamtheit. Diese nimmt man, wenn man alle Elemente des zuuntersuchenden Gegenstandes kennt und diese Elemente nicht selbst nur aus einem stochastischen Prozess hervorgegangen sind. Ich hoffe das war verständlich so.

Die Variante mit (n-1) im Nenner ist die Varianzformel für Stichproben, sie wird auch oft empirische Varianz genannt. Letzlich hat man es in der Realität immer mit dieser zu tun - das mag Oli zur gewiss physikernahen aber mathematisch etwas seltsammen obigen Formulierung veranlasst haben.

Der Grund für die Korrektur liegt daran, daß mit (n-1) anstatt n eine Verzerrungskorrektur vorgenommen wird. Nur der Schätzer mit (n-1) ist unverzerrt für Stichproben.

Heuristisch köntne man es folgendermaßen begründen: Zur Berechnung der Varianz muss zuerst einmal der Mittelwert bekannt sein oder berechnet werden. In der Realität ist der Wahre Mittelwert einer Verteilung praktisch nie bekannt und muss ebenfalls erst einmal aus den selben Daten geschätzt werden. Genau hier liegt ds Problem. Man benutzt ein- und denselben Datensatz zuerst zum Schätzen des Mittelwertes, um anschließend daraus die Varianz (Summe der quadrierten Entfernung jeder Ausprägung zum Mittelwert) zu berechnen.

Nehmen wir mal kurz an, wir haben eine Stichprobe mit nur 4 Beobachtungen: 1, 2, 3 und 4
Daraus kann ich den Mittelwert mit 10/4 = 2,5 berechnen.
Nehmen wir mal an ich weiß den Mittelwert von 2,5 und 3 der Beobachtungen (welche 3 sind egal). Die vierte und letzte beobachtung ergibt sich immer aus dem Mittelwert und den anderen dreien.
Weiß ich den Mittelwert = 2,5 und 1, 3 und 4, so kann ich mir überlegen:
(1+3+4+x)/4 = 2,5
1+3+4+x = 10
x = 10-8 = 2

Dies ist heuristisch das Konzept der Freiheitsgrade. Ich benötige für die Varianzberechnung den Mittelwert. Wenn ich diesen allerdings berechne, so habe ich nur noch n-1 "freie Beobachtungswertauswahl", der letzte Wert lässt sich immer berechnen. Deshalb stehen für die Varianz nicht mehr n, sondern nur noch (n-1) Werte zur Verfügung.

Ich hoffe, das war so heuristisch genug und damit verständlich. Man kann leicht mit Mitteln der linearen Algebra zeigen, wenn man obige Konzepte verallgemeinert, daß man bei höherdimensionalen Statistiken von Zufallsvariablen um mehr Freiheitsgrade korrigieren muss. Dann steht da nicht mehr (n-1) sondern (n-p).

€dit: So, jetzt auch mal gelesen, um was es eigentlich ging.
Banshee, du weißt schon, daß das keinen Sinn macht, was du da vorhast?
Man kann zwar mathematisch viele schöne Dinge machen und sie oft noch einfacher rechnen als verstehen - nur den Sinn muss man scih schon selbst überlegen. Nur weil etwas rechenbar ist heißt dies nicht, daß es auch Sinn macht.

Alleine schon der Mittelwert aus Noten macht keinen Sinn. Damit unterstellt man ja implizit, daß die Noten gleichweit entfernt liegen (die Noten eine metrische Variable sind) - also daß es gleichschwer ist von einer 6 auf eine 5 zu kommen wie von einer 2 auf eine 1. Damit hätte ich schon deswegen meine Probleme, weil die Definition der Noten ja auf einen bestimmten Prozentsatz an Punkten von der erreichbaren Gesamtpunktzahl beruht. Die Abstände sind schon unterschiedlich, die Schweirigkeitsgrade der einzelnen Aufgaben auch, aber im ungefähren Verhältnis festgeschrieben. Die Verteilung über das alles schaut sicher sehr komisch aus - und es sollte großer Zufall sein, wenn sie genau der des überprüfbare Wissens der Kinder entspricht.

Auch eine Standartabweichung macht nicht so viel Sinn bei ordinalen Zufallsvariablen. Es gibt spezielle Verfahren, welche speziell für diese Art von Daten konzeptioniert wurden und dann bei einem Mindestmaß an Vorraussetzungen auch einen wirklichen Aussagegehalt haben.

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »AtroX_Worf« (04.05.2007, 16:14)

Zum Seitenanfang

GWC_Banshee_

Erleuchteter

Beiträge: 7 672

04.05.2007, 16:56

Um das klarzustellen. Die Noten sind keine Noten, die auf einer Punktezahl (z.B. einer Arbeit beruhen), sondern Noten, die Probanden einem Gegenstand zuordnen mussten (Wie gefällt ihnen dieses Bild etc.), sprich die noten sind in der tat gleich weit auseinander.
Sinn "meiner" Standardabweichung soll es sein, eine Aussage darüber zu treffen, wie sehr sich der Mittelwert dadurch ergibt, dass die Leute sich einig waren (alle Note 3 gegeben) oder eben ob es einigen außergewöhnlich gut gefallen und anderen außergewöhnlich schlecht ( Hälfte der Leute Note 2, andere Hälfte der Leute Note 4). In beiden Fällen wäre das Mittel aber 3, die Interpretation der Ergebnisse müsste aber durch die unterschiedliche Standardabweichung entsprechend unterschiedlich ausfallen. Korrigiere mich bitte, wenn ich den Sachverhalt falsch beurteilen sollte.
Das mit den Noten konntest du natürlich nicht wissen, weil ich es vorher nicht erläutert habe. Das Beispiel mit den Noten habe ich gewählt, weil es meinem Fall am nächsten kommt.

Da ich eine Umfrage (und damit eine Stichprobe) habe, habe ich mich für die Variante mit n-1 entschieden. Müsste meines erachtens ebenfalls richtig sein.

Zum Seitenanfang

AtroX_Worf

Erleuchteter

Beiträge: 11 461

Wohnort: Hamburg

Beruf: GER

04.05.2007, 18:21

Ja ist richtig so.

Ok, es geht also im weitesten Sinne um Marketing.

Das mit den Punktezahlen ist ähnlich wie mit den Noten zu sehen - nur in der Realität hält weiß das niemand, und wenn doch, hält man sich nicht dran. Du bist also in bester Gesellschaft.

Für das was du möchtest ist es ganz gut, wenn man da die Standardabweichung als Maß für die mittlere Streuung oder Unordnung angibt.

Wenn man ganz genau sein wöllte, so könnte man es trotzdem nicht machen, weil die Variabel immer noch nur ordinal (1 ist besser als 2 ist besser als 3 usw.) ist, aber metrische Interpretationen noch keinen Sinn machen. Ist zweimal die 2 genauso gut wie einmal die eins? Wenn ich einmal 1 und 5 und einmal 2 und 3 habe, ist dies dann gleich gut? Mit solchen Interpretationen würde ich mich schwer tun. Jeder macht es, außer ein paar Profs und Assistenten an Statistik-Lherstühlen. Also darfst du es auch und brauchst niemand von etwaigen Unsinnigkeiten erzählen.

btw, besser wäre es doch noch, wenn man noch zusätzliche Informationen über die Leute hätte, welche das Objekt bewerten haben. Dann könnte man schauen, ob man nach bestimmten Merkmalen diskriminieren kann - ob also z.B. Männer anders als Frauen bewerten oder jüngere anders als ältere.
Ganz klasssich würde man soetwas mit der Varianzanalyse machen, und die wäre dann sogar methodisch richtig.

Zum Seitenanfang

Erg_Raider

Meister

Beiträge: 1 823

Wohnort: GER

05.05.2007, 17:31

danke für die erklärung worf! ich hatte das problem auch schon mal und fand dafür keine anschauliche lösung.

Zum Seitenanfang