Statistikat
Ettevaatust, matemaatika! Nõrganärvilistele järgnevat kirjatükki ei soovita. Eelkommentaarina nii palju, et algselt kirja panduna oli teine mitu korda pikem ja manitsevam :)
Täna oli teine päev kolmeosalisest statistikakursusest, ja teemaks hüpoteeside testimine. Mulle kogu see '5% olulisusnivoo juures aktsepteerime nullhüpoteesi' kraam ei istu, ei ole nagu intuitiivne. Bioloogidele sobib ta paremini, ja ma ei hakanud virisema ka.
Tore juudi taat väitis, et hüpoteesi vastu võtmiseks või ümber lükkamiseks arvutatakse andmete tõenäosus antud hüpoteesi kehtivuse korral p(data | H), aga intuitiivselt tuleks seda mõista kui hüpoteesi tõenäosust p(H | data).
Siis ta tõi sellise näite: oled kaua peo peal, jääd magama pikaks pikaks ajaks, ärkad üles, väljas sajab lund. Nii, püstitad hüpoteesi, et on talv. Näite mõte oli, et p(lumi | talv) on väike (Cambridge's, kus lund sajab kord aastas), aga p(talv | lumi) on suur (sest kui sajab, sajab talvel).
Inglismaal sajab lund kord-paar aastas: p(lumi | talv) ~ 0.02. Seega traditsioonilise 5% usaldusnivoo juures peaks me hüpoteesi 'talv' ümber lükkama! Samamoodi ka kevade ja suve ja sügise. Selle koha peal hakkas taat puterdama, kõigil tekkis hämming, ja paari minuti pärast kuulutati lõuna.
Tegelikult on ju palju loomulikum kirjeldada kõigepealt kõikvõimalikud hüpoteesid, ja nende algsed tõenäosused, ja leida nende tõenäosus peale andmete nägemist. Ise ka ei oleks osanud paremat näidet välja mõelda, et miks statistilised testid ikkagi ebaintuitiivsed on. Kasutage Bayesi meetodeid, kui võimalik.
Disclaimer: klassikalistel statistilistel testidel on oma aeg ja koht ka olemas, aga see koht pole nii suur, kui eelmise sajandi kirjanduse järgi võiks arvata.
2 Comments:
Hüptoteeside testimine on kasulik katsete planeerimisel. Kui sul oleks vaja mõelda välja kuidas üldjuhul testida, kas väljas on talv või mitte, siis on atribuudi lumi mõõtmine väheinformatiivne, sest p(lumi|talv)=0.02.
Oletame, et sa tahad veenduda, kas väljas on talv. Siis protseduur, mis aksepteerib talve ainult siis kui lund sajab, annab valenegatiivse tulemuse 98% juhtudest, samas on valepositiivsete hulk 0%.
Kui sul on olemas protseduur, mille valenegatiivsete on x%, siis kasutades informatsiooni, et lumi==>talv, on valepositiivsete hulk minimaalselt (x-2)%.
Seega lumi kui tegur pole katseplaneerimisel oluline. Samas kui see siiski mingi ime läbi juhtub, siis saad sa sa loomulikult seda kasutada.
Teisisõnu katseplaneerimine (experiment design), mida bioloogias vaja on, on hoopis teine asi kui katse tulmustest järelduste tegemine
Oletame, et sul
Kuna see asi juhtub talvel tõenäosusega 0.02 ja mitte talvel veel väiksema tõenäosusega, siis võib katse
Seega kui sa pead otsustama kas väljas on talv või mitte teades ainult seda kas lund sajab või mitte. siis on
on usaldusniivool 5% mõistlik alati öelda, et hypotees talv ei kehti isegi siis kui lund
Kahjuks katseplaneerimist vähemalt meie kursakaaslastele ei ole rõhutatud - alati antakse ette mingi protokoll mida järgida, tehakse paar kordust, ja pannakse keskmine +- standardväärtus, ning p-value peale.
Suurel osal juhtudest sellest piisab, et aru saada mis toimub, aga mitte alati. Ühe korra soovitasin kaudselt mõõdetava parameetri posterioorse jaotuse välja rehkendada, ja pilt oli kohe hoopis selgem. Alati pole seda muidugi võimalik teha, aga mulle tundub see sisukam kui jah/ei vastus - eksperimendis on ikkagi rohkem infot sees.
Postita kommentaar
<< Home