Dalius Daro

2014 m. liepos 31 d., ketvirtadienis

OpenIntro Statistics

Nusprendžiau šiek tiek pagilinti statistikos žinias ir radau rekomendaciją, kad OpenIntro Statistics yra tikrai gera knyga. Knyga nemokama ir ją galima parsisiųsti iš http://www.openintro.org/ - galima ją atsispausdinti, o jei norite galite nusipirkti atspausdintą iš Amazon’o (mokėsite tik už spausdinimo kainą).

Visos neperskaičiau, nes nuo informacijos kiekio (ir temperatūros lauke?) išsilydė smegenys. Galbūt neperskaitytas dalis pažiūrėsiu vėliau, jeigu man prireiks tos informacijos. Knyga labai patiko, nes viskas paaiškinta labai paprastai, suprantamai, daug pavyzdžių ir dar yra papildomų užduočių, kur savo žinias galima pasitikrinti. Teorinių įrodinėjimų yra, bet nedaug, tai knygą dėl to skaityti tik dar lengviau. Žinoma, pakartota sena statistinė tiesa, kad koreliacija nereiškia priežastingumo ir knygoje tas pakartojama ne kartą, pvz.: užduotyse turite atsakyti ar galima daryti iš turimos informacijos priežastingumą nurodančias išvadas.

Taip pat prie knygos gaunate R (statistikos paketas) pamokėles. Šiaip reikėjo skaityti ir mokytis R vienu metu. Būtų buvę daug paprasčiau, nes aš pirma perskaičiau knygos kiek man pasirodė naudinga, o tada šokau žiūrėti užduočių.

Praktinis pritaikymas

Taigi koreliacija nereiškia priežastingumo ir pažaiskime su tuo. Tarkime paimkime grafiką iš “The China Study” rodantį storosios žarnos vėžio susirgimų skaičiaus tarp moterų ir mėsos suvartojimo šalyje sąryšį.

Na jei skaitome knygas, tai kodėl jų kartais nepatikrinus? Šioje knygoje tokių grafikų ne vienas ir jie tikriausiai kai kuriems žmonėms palieka didelį įspūdį. Pirma problema, kad iš šio grafiko negalima daryti jokių rimtų išvadų, nes tai stebėjimų rezultatai (t.y. tiesiog surinkta statistika), kur rezultatą gali paveikti daugybę kitų faktorių, o ne kontroliuojamas eksperimentas, kur visi faktoriai suvienodinami (dažniausiai per atsitiktinį atrinkimą).

Kuo mokslas yra gerai? Nes jį galima pakartoti. Taigi aš atsitiktinai atrinkau 25 valstybes ir surinkau apie jas informaciją apie mėsos suvartojimą, storosios žarnos vėžį, BVP vienam gyventojui ir populiaciją (šito parametro nenaudojau). Valstybės nebūtinai tos pačios kaip knygoje, nes tai neturėtų keisti statistikos. Iš šios informacijos galiu sukonstruoti analogišką grafiką.

crc - storosios žarnos vėžio kaip mirties priežasties skaičius 100000 gyventojui (metai nežinomi). meat - mėsos suvartojimas kg / metus gyventojui (2002 metai). Koreliacijos koeficientas 0.602858 (gan nebloga koreliacija). Taigi lyg ir galima šiek tiek pasidžiaugti, kad nors grafikas nors ir ne toks tikslus kaip iš knygos ir koreliacija akivaizdžiai mažesnė, bet kažkoks sąryšis tarp mėsos suvartojimo yra. Aišku, jei pažiūrėsime į individualias atvejus, tai rasime įdomių dalykų (R failas pridėtas apačioje, jei norite patys pasižaisti). Pvz.: mongolai, kurie mėsos suvalgo maždaug dukart daugiau negu lietuviai, storosios žarnos vėžiu serga ganėtinai mažai (tris kart mažiau negu lietuviai). Arba Naujosios Zelandijos skaičiai yra gerokai mažesni negu knygoje, nors turiu pastebėti, kad mano atveju jie irgi per maži, nes kitame šaltinyje jie gerokai didesni (bet vistiek mažesni negu knygoje). Grafiką iš knygos kritikuoti darosi dar sudėtingiau, nes neaišku ar mėsos suvartojimas paimtas konkretiems metams ar kažkokiam laikotarpiui ar tai kaip nors susieta su susirgimais vėžiu (tikriausiai ne, nors yra duomenų, kur vėžio susirgimų informaciją galima gauti susieta su amžiumi) ir t.t. Taigi peršasi išvada, kad knygoje šalys parinktos tikslingai norint pagąsdinti mėsos mėgėjus.

Kita problema, kad mėsos vartojimas susijęs su gerove. Tarkime jautiena pasaulyje stipriai brangsta dėl to, kad Kinijoje ir kitose besivystančiose šalyse atsiranda daug turtingų žmonių, kurie nori valgyti skanią ir įvairesnę mėsą. Taigi kaip atrodytų storosios žarnos vėžio sąryšis su BVP vienam gyventojui (tai deja nėra pats geriausias rodiklis, bet pakankamai geras).

crc - storosios žarnos vėžio kaip mirties priežasties skaičius 100000 gyventojui (metai nežinomi). ppp - BVP vienam gyventojui. Koreliacijos koeficientas 0.5779183 - labai panašus į tą, kuris susijęs su mėsa. Ar tai reiškia, kad reikia ne tik valgyti mažiau mėsos, bet ir mažiau uždirbti (o gal dirbti)? Tikrai ne. Tai tiesiog grafikai rodantys, kad šie parametrai yra susiję, bet reiktų gerai paieškoti kokia yra tikroji priežastis. Tai deja gali būti bet kas: cukraus dalis maiste, fizinis aktyvumas / sėdimas darbas, stresas, oro kokybė, nė vienas iš išvardintų, jų visų ar kai kurių kombinacija. Žodžiu, kai kitą kartą jums rodys, kad tarp kažkokių dviejų dalykų yra koreliacija žiūrėkite giliau. Gal ji ir yra, bet tikriausiai ji nieko nereiškia. Beje čia galite surasti linksmų koreliacijų: http://www.tylervigen.com/.

Mano surinkti duomenys:

#
# Population: http://en.wikipedia.org/wiki/List_of_countries_by_population
# PPP: http://en.wikipedia.org/wiki/List_of_countries_by_GDP_(PPP)_per_capita
# Cancer information taken from http://www.worldlifeexpectancy.com/country-health-profile/cote-d-ivoire
# Meat consumption taken from: https://docs.google.com/spreadsheet/ccc?key=0AonYZs4MzlZbdFFxckhmUGJGZEw3bnBiR3pXVzBuc1E#gid=0
#
fun <- structure(list(
pop = c(23202000, 52981991, 42825883, 2113077, 19942642, 6783374, 86894000, 2931300, 80716000, 187820, 393162, 3791622, 5634437, 6401240, 1315819, 17265000, 3012900, 11202066, 7398500, 10378267, 1247350000, 33334700, 10477800, 4543760, 1882450),
ppp = c(1818, 12504, 7423, 8191, 13396, 6823, 6579, 5885, 40007, 6210, 53431, 8280, 37900, 7515, 23144, 14391, 6191, 37881, 2834, 9911, 4077, 5456, 23068, 30493, 1962),
crc = c(2.55, 13.18, 17.30, 3.05, 15.48, 8.10, 3.92, 4.94, 16.69, 3.65, 12.53, 11.70, 21.76, 3.46, 16.01, 13.29, 12.74, 14.54, 6.45, 6.78, 3.18, 6.19, 20.08, 20.43, 3.03),
meat = c(11.3, 39, 32.3, 34, 54.5, 70.3, 22.5, 108.8, 82.1, 82.6, 56.4, 21.4, 145.9, 21.4, 67.4, 44.8, 27.7, 86.1, 73, 37.8, 5, 20.6, 91.1, 142.1, 5.2)),
.Names = c("pop", "ppp", "crc", "meat"), class = "data.frame", row.names = c("Cote d'Ivoire (Ivory Coast)", "South Africa", "Ukraine", "Namibia", "Romania", "Paraguay", "Egypt", "Mongolia", "Germany", "Samoa", "Brunei", "Bosnia and Herzegovina", "Denmark", "El Salvador", "Estonia", "Kazakhstan", "Armenia", "Belgium", "Papua New Guinea", "Dominican Republic", "India", "Morocco", "Portugal", "New Zealand", "Gambia"))

Pastaba: Jeigu ieškote konkrečios informacijos apie žarnyno vėžį rekomenduoju apsilankyti https://www.iveikvezi.lt/zarnyno-vezys