Der p-value ist ein Quantil der Verteilung der Teststatistik unter H_0. Um diesen berechnen zu können muss man folglich die komplette Vereteilung wissen. Wenn eine konkrete Verteilung (bspw. des Störterms) gegeben ist, dann ergibt sich daraus meist die Verteilung der Teststatistik unter H_0 und einigen zusätzlichen Annahmen an die Daten.
Ohne Verteilungsannahme des Störterms oder wenn zusätzlich andere Größen stochastisch sind bleibt oftmals nur eine asymptotische Betrachtung für die Verteilung der Teststatistik unter H_0. Bei der Berechnung des p-values vernachlässigt man dann, dass diese Verteilung nur asymptotisch gilt und nimmt die asymptotische Verteilung als wahre Verteilung.
Mit schwächeren Annahmen, komplizierten Verteilungen oder kompliezierten Teststatistiken kennt man die Verteilung der Teststatistik nicht. Wenn man jedoch weiß/annimmt, dass alle auftauchenden und resultierenden verteilungen endliche 2. Momente haben, dann kann man die Enden der Verteilung der Teststatistik auch mit diesen beiden Momenten abschätzen, á la Chebyshev-Ungleichung oder, bei unimodalen Verteilungen, mittels der Vysochanskij–Petunin Ungleichung. Allerdings wird dies nur selten benutzt.
Im landläufigen Sprachgebrauch verwendet man die Aussage "Signifikant bei k*sigma" im Bezug auf die Normalverteilung.
+/- 1*sigma korrespondiert ungefähr zu 68,2% Überdeckungswahrscheinlichkeit, +/- 2*sigma zu ca. 95,4% und +/- 3*sigma zu ca. 99,7%. Kürzlich bei der "Entdeckung" des Higgs-Boson sprachen die Physiker von "5 sigma".
Dies impliziert einen p-value von ca. 3*10^-7. Anders ausgedrückt, nur in 3 von 10.000.000 Fällen würde man durch puren Zufall eine so extreme Stichprobe ziehen, dass man H_0 (keine Signifikanz) ablehnt und auf H_1 (Signifikanz = es gibt das Higgs-Boson) entscheidet, obwohl in Wahrheit H_0 richtig ist.
Es gibt Gründe für und gegen die Vereinfachung mittels der Normalverteilung.
Pro: Die Normalverteilung taucht als Grenzverteilung (Zentraler Grenzwertsatz) häufig auf.
Contra: Mit der Normalverteilung unterschätzt man häufig die sog. Tail-Probabilities, d.h. die W'keit für seltene Ereignisse. Das schlägt natürlich bei den p-values voll durch, da sie definitionsgemäß von seltenen Ereignissen abhängen (extremen Stichproben, so dass man auf H_1 entscheidet, obwohl H_0 gilt).
Wieso bei euch ausgerechnet 3*sigma gilt, kann ich nicht sagen. Es ist wohl eine Konvention, die noch "Entdeckungen" in ausreichend großer Zahl erlaubt, ohne dass "false positive", d.h. Entdeckungen, die es eigentlich gar nicht gibt, zu viel werden.
Zu dieser Problematik bspw. der sehr bekannte Aufsatz
Why Most Published Research Findings Are False von John Ioannidis.