kolmapäev, märts 21, 2007

Statistikat

Ettevaatust, matemaatika! Nõrganärvilistele järgnevat kirjatükki ei soovita. Eelkommentaarina nii palju, et algselt kirja panduna oli teine mitu korda pikem ja manitsevam :)

Täna oli teine päev kolmeosalisest statistikakursusest, ja teemaks hüpoteeside testimine. Mulle kogu see '5% olulisusnivoo juures aktsepteerime nullhüpoteesi' kraam ei istu, ei ole nagu intuitiivne. Bioloogidele sobib ta paremini, ja ma ei hakanud virisema ka.

Tore juudi taat väitis, et hüpoteesi vastu võtmiseks või ümber lükkamiseks arvutatakse andmete tõenäosus antud hüpoteesi kehtivuse korral p(data | H), aga intuitiivselt tuleks seda mõista kui hüpoteesi tõenäosust p(H | data).

Siis ta tõi sellise näite: oled kaua peo peal, jääd magama pikaks pikaks ajaks, ärkad üles, väljas sajab lund. Nii, püstitad hüpoteesi, et on talv. Näite mõte oli, et p(lumi | talv) on väike (Cambridge's, kus lund sajab kord aastas), aga p(talv | lumi) on suur (sest kui sajab, sajab talvel).

Inglismaal sajab lund kord-paar aastas: p(lumi | talv) ~ 0.02. Seega traditsioonilise 5% usaldusnivoo juures peaks me hüpoteesi 'talv' ümber lükkama! Samamoodi ka kevade ja suve ja sügise. Selle koha peal hakkas taat puterdama, kõigil tekkis hämming, ja paari minuti pärast kuulutati lõuna.

Tegelikult on ju palju loomulikum kirjeldada kõigepealt kõikvõimalikud hüpoteesid, ja nende algsed tõenäosused, ja leida nende tõenäosus peale andmete nägemist. Ise ka ei oleks osanud paremat näidet välja mõelda, et miks statistilised testid ikkagi ebaintuitiivsed on. Kasutage Bayesi meetodeid, kui võimalik.

Disclaimer: klassikalistel statistilistel testidel on oma aeg ja koht ka olemas, aga see koht pole nii suur, kui eelmise sajandi kirjanduse järgi võiks arvata.

2 Comments:

At 5:57 PM, Anonymous Anonüümne said...

Hüptoteeside testimine on kasulik katsete planeerimisel. Kui sul oleks vaja mõelda välja kuidas üldjuhul testida, kas väljas on talv või mitte, siis on atribuudi lumi mõõtmine väheinformatiivne, sest p(lumi|talv)=0.02.

Oletame, et sa tahad veenduda, kas väljas on talv. Siis protseduur, mis aksepteerib talve ainult siis kui lund sajab, annab valenegatiivse tulemuse 98% juhtudest, samas on valepositiivsete hulk 0%.

Kui sul on olemas protseduur, mille valenegatiivsete on x%, siis kasutades informatsiooni, et lumi==>talv, on valepositiivsete hulk minimaalselt (x-2)%.

Seega lumi kui tegur pole katseplaneerimisel oluline. Samas kui see siiski mingi ime läbi juhtub, siis saad sa sa loomulikult seda kasutada.

Teisisõnu katseplaneerimine (experiment design), mida bioloogias vaja on, on hoopis teine asi kui katse tulmustest järelduste tegemine

Oletame, et sul

Kuna see asi juhtub talvel tõenäosusega 0.02 ja mitte talvel veel väiksema tõenäosusega, siis võib katse


Seega kui sa pead otsustama kas väljas on talv või mitte teades ainult seda kas lund sajab või mitte. siis on

on usaldusniivool 5% mõistlik alati öelda, et hypotees talv ei kehti isegi siis kui lund

 
At 10:41 PM, Blogger Leopold said...

Kahjuks katseplaneerimist vähemalt meie kursakaaslastele ei ole rõhutatud - alati antakse ette mingi protokoll mida järgida, tehakse paar kordust, ja pannakse keskmine +- standardväärtus, ning p-value peale.

Suurel osal juhtudest sellest piisab, et aru saada mis toimub, aga mitte alati. Ühe korra soovitasin kaudselt mõõdetava parameetri posterioorse jaotuse välja rehkendada, ja pilt oli kohe hoopis selgem. Alati pole seda muidugi võimalik teha, aga mulle tundub see sisukam kui jah/ei vastus - eksperimendis on ikkagi rohkem infot sees.

 

Postita kommentaar

<< Home