Luottamusväli
Oletetaan, että satunnaismuuttuja noudattaa normalisoitua normaalijakaumaa. Voidaan etsiä väli \([-L,L]\) siten, että satunnaismuuttuja on todennäköisyydellä \(C\) välillä \([-L,L]\).
Olkoon jonkin suureen tarkka arvo \(x_t\). Suuretta voidaan tutkia tekemällä \(n\) mittausta, joiden arvot ovat \(x_i\) Näiden perusteella saadaan suureelle arvio mittaustulosten keskiarvona, niin sanottu otoskeskiarvo
$$
\bar{x}=\frac{\sum_{i=i}^nx_i}{n}.
$$
Voidaan laskea mittausten otoshajonta
$$
s=\sqrt{\frac{\sum_{i=i}^n(x_i-\bar{x})^2}{n-1}}.
$$
Miten lähellä otoskeskiarvo \(\bar{x}\) on tarkkaa arvoa \(x_t\)? Miten etäisyyttä voidaan tutkia, jos tarkka arvo \(x_t\) ei ole tiedossa? Tähän vaikuttaa moni asia. Luvut \(\bar{x}\) ja \(x_t\) ovat sitä lähempänä toisiaan
- mitä pienempi \(s\) on, koska jakauma on tällöin "kapea";
- mitä suurempi \(n\) on, koska sitä enemmän dataa ilmiöstä saatiin.
Voidaan valita luottamustaso, esimerkiksi \(C=95~\%\) ja määrittää luottamusväli \([-a,b]\), jolla \(x_t\) on todennäköisyydellä \(C\). Valitaan
$$
(a,b)=\left(\bar{x}-z^*\frac{s}{\sqrt{n}},\bar{x}+z^*\frac{s}{\sqrt{n}}\right),
$$
missä
$$
z^*=\Phi^{-1}\left(1-\frac{1-C}{2}\right).
$$
Tässä \(\Phi\) on normaalijakauman kertymäfunktio.
Alla on suurpiirteinen havainnollistus, jossa voit säätää lukuja \(n\) ja \(C\).
Virheitä
- Funktioita \(\Phi\) ja \(\Phi^{-1}\) ei käytetty. Käytettiin surkeita arvioita
- \(\Phi(x)=\frac{1}{2}+\frac{1}{\pi}\arctan(x)\)
- \(\Phi^{-1}(x)=\tan\left(\pi (x-\frac{1}{2})\right)\)
- tulisi ottaa \(\Phi\) JavaScriptikirjastosta, esimerkiksi https://mathjs.org/
- jos \(n\) on pieni, niin normaalijakauman sijasta tulisi käyttää Studentin t-jakaumaa.
Puutteita
- kaksi jakaumaa samaan kuvaan
- annettuun dataan perustuvat \(\bar{x}\) ja \(s\)
- olisi mukava verrata normaalijakaumaa ja Studentin t-jakaumaa tässä tilanteessa