Dar vieno analitiko svetainė

Petras Kudaras

Jorge Luis Borges – „Smėlio knyga“

Pažvelgus į savo perskaitytų knygų sąrašą ir suskaičiavus pastaraisiais metais skaitytas grožinės literatūros knygas vargiai priskaičiuočiau iki dviženklio skaičiaus: gal tik kas dešimtą galima būtų priskirti šiai kategorijai. Keletą metų prioritetą teikiau negrožinėms knygoms apie ekonomiką, skaičius ir istoriją, apie sąsajas, ryšius ir priežastis, apie tai, kaip pasaulis veikia ir kaip yra sudėliotas, nuvertindamas ištisus išminties klodus, sudėtus į grožinius kūrinius. Šiemet bus kitaip: labai džiaugiuosi, jog keletas draugų įtraukė mane į knygų skaitymo klubą, kuriame kas mėnesį perskaitome po ne pačią lengviausią grožinę knygą. Skaityti toliau…

Robotas irgi žmogus

Iš pažiūros duomenų analizė yra labai nešališkas ir objektyvus reikalas: paimi krūvą duomenų, perleidi per sudėtingą statistinių algoritmų mėsmalę ir gauni kažkokias įžvalgas. Mūsų produktą labiau mėgsta Marijampolėje, brangesnius produktus moterys perka savaitgaliais, socialiniuose tinkluose sekantys veikėją X skaito portalą Y, bent tris kartus gavę labai didelę mėnesinę sąskaitą yra linkę perbėgti pas konkurentus. Su regresijomis (ar sudėtingesnėmis analizėmis) ginčytis sunku, nes duomenys lyg ir kalba už save. Nebereikia spėlioti ir remtis dažnai mus pavedančia intuicija. Skaityti toliau…

Dear Data,

Vieną Kalėdų senelio dovanotų knygų surijau per vieną vakarą. Dvi profesionalios duomenų dizainerės (net nesu tikras, kaip teisingai vadinti duomenų atvaizdavimu užsiimančiuosius) – viena Londone, o kita Niujorke – ištisus metus kas savaitę viena kitai siųsdavo ranka pieštus atvirukus su duomenų schemomis, diagramomis ir grafikais. Kiekvieną savaitę jos pasirinkdavo vis naują temą – kiek kartų pasakei „ačiū“, kiek kartų per savaitę nusijuokei, kas kabo tavo spintoje, kas yra tavo geriausi draugai, kiek kartų nusikeikei ar kiek išgėrei alkoholio. Skaityti toliau…

Zylių stebykla

Man patinka vis ką nors naujo išmokti, o mokytis geriausia ką nors darant. Taip visai netyčia užgimė Rube Goldbergiško stiliaus zylių stebėjimo projektas, kuris savyje sujungė norą išsibandyti python kalbos bibliotekas konvoliuciniams neuroniniams tinklams su idėja viską padaryti Amazon AWS debesies infrastruktūroje be jokių dedikuotų serverių vien tik su Lambda funkcijomis. Suprantu, kad tiems, kas su tokiais dalykais nesusiduria tai skamba lygiai tiek pat įdomiai kiek man skambėtų nauja variklio vožtuvo modifikacija paskutiniame BMW modelyje (tikiuosi nesuklydau, kad vožtuvai kažkaip susiję su varikliais, non? Skaityti toliau…

Kol visi stebi JAV rinkimus – netikėta pinigų reforma Indijoje

Tokios dienos, kai žinai, kad žiniasklaida bus užsiėmusi JAV prezidento rinkimais yra ypač puikios atskleisti kokią nors ne itin skanią žinią ar netikėtai padaryti kokią drastišką reformą. Tarkim, energetikos bendrovė E.ON tuo pasinaudodama šiandien per nurašymus pripažino 6.1 milijardo eurų nuostolių. Bet tai smulkmė, palyginus su staigia valiutos reforma Indijoje: vakar vėlai vakare paskelbta, jog nuo šiandien nebebus galima atsiskaityti dviem stambiausiais 500 ir 1000 Indijos rupijų banknotais (jų vertė maždaug atitinkamai 6. Skaityti toliau…

Sociologinės apklausos apie politiką – vėluojantis indikatorius

Šiandien delfi.lt pateikdamas naujausius apklausų duomenis rašo: Apklausa buvo atlikta spalio 19-27 dienomis, vadinasi, dalis žmonių apklausta iki antrojo rinkimų turo spalio 23 dieną, dalis – po jo. Per tą laiką labai išaugo S. Skvernelio populiarumas: nuo 5,4 proc. iki 13,4 proc. Tai tikriausiai nenuostabu, nes Valstiečių ir žaliųjų sąjunga būtent šį politiką siūlo užimti premjero pareigoms. Paūgėjo ir Tėvynės sąjungos-Lietuvos krikščionių demokratų pirmininko Gabrieliaus Landsbergio reitingas nuo 9,3 proc. iki 12,6 proc. Skaityti toliau…

Kelionė su trijų mėnesių kūdikiu

Julijai tik sukakus trims mėnesiams išsiruošėme į savaitės kelionę po Italiją: kelios dienos draugų vestuvėms Venecijoje ir penkios kiek ramesnės dienos prie Gardos ežero, pasivaikščiojimams po nedidelius miestelius ir grožėjimuisi kalnų panorama. Iki tol trise niekur toliau Kauno nebuvom keliavę, o ir kelionės tuos šimtą kilometrų greitkeliu buvo nelengvos: Julija labai nuoširdžiai nekenčia važiuoti automobiliu ir visai nesikuklina to parodyti visais savo mažais plaučiais klykdama tėvams į ausis vos įsėdus į mašiną. Skaityti toliau…

Ką perskaičiau spalį

Kadangi dukra jau kiek paaugo ir miega ramiau, spalį perskaitytų knygų sąrašas kiek trumpesnis nei rugsėjo. Tiesa, čia dar įsiterpia ir savaitės atostogos Italijoje, kurioms tikriausiai reiktų paskirti atskirą įrašą: keliauti su trijų mėnesių kūdikiu yra visai įdomi patirtis. Kevin Bloom – „Continental Shift: A Journey into Africa’s Changing Fortunes“. Jau nepamenu, kas rekomendavo šią knygą, bet tikėjausi tikrai nemažai. Nemažai iš jos ir gavau, nors iki pilnos laimės kažkiek pritrūko aiškesnės vientisos minties: knyga yra dviejų Pietų Afrikos žurnalistų kelionių po Afrikos šalis aprašymų rinkinys, o kadangi šalys gana skirtingos, su skirtingomis problemomis (kai kur didžiausia vis dar bėda yra apsirūpinimas maistu, kitur – siekiama gyventi taikoje ir ramybėje, o trečiur – noras būti panašiu į išsivysčiusais šalis), tai ir knygos skyriai apima gana skirtingas temas. Skaityti toliau…

Ką turi mokėti analitikas

Neseniai iš skaitytojo gavau klausimą: ką turi mokėti analitikas? Klausimas ne toks jau paprastas, nes neužtenka išvardinti kelias programavimo kalbas ar paminėti kelias technologijas: negali būti jokio baigtinio sąrašo prie kurio sudėliojus varneles galėtum sakyti, kad, va, šitas analitikas tikrai yra geras. Juk tai tėra tik įrankiai. Nors daugelis analitiko negali įsivaizduoti be matematikos ar statistikos žinių, manau, kad pati svarbiausia sritis, kurią turi išmanyti analitikas yra verslas, kuriame jis dirba. Skaityti toliau…

Antro rinkimų turo prognozė pasitelkiant neuroninius tinklus

Pirmiausia turiu įspėti: nemanau, kad reikėtų į gautus rezultatus žiūrėti labai rimtai. Neuroninio tinklo mokymui naudojau tik 2012-ų metų Seimo rinkimų apygardų duomenis, tad imtis labai nedidelė, o tai turėtų lemti ir gana nemažą paklaidą prognozėse. Galbūt tikslesnių rezultatų būtų galima tikėtis naudojant apylinkių, o ne apygardų duomenis.

Prognozuoti šių metų rezultatus iš 2012-ų metų duomenų nelengva ir dėl stipriai pasikeitusio partijų populiarumo: žalieji valstiečiai prieš ketverius metus nebuvo labai patrauklūs rinkėjams, o ir Skvernelio atsiradimas labai šią partiją pakeitė. Įdomu tai, kad Darbo partijos bei tvarkiečių kritimas iš aukštumų gana gerai atsispindi neuroninio tinklo rezultatuose: jiems prognozuojama laimėti mažiau apygardų nei jie šiuo metu pirmauja.  Kad ir kaip ten būtų, gavau tokį rezultatą:

Prognozė Dabar pirmauja
LVZS 24 21
TSLKD 24 22
LSDP 9 10
LRLS 5 4
LLRA 3 3
TT 2 4
KITI 1 2
DP 1 3
NEP 2 2

Neuroninis tinklas „išmoko“, jog stiprus lenkų pirmavimas apygardoje dažniausiai lemia ir pergalę antrame ture. Algirdui Paleckiui pergalė neprognozuojama, nes istoriniai pernai metų duomenys rodo, jog „Frontui“ ne itin sekėsi – bet jo puikus pasirodymas pirmame ture tikriausiai buvo netikėtas ir daugeliui politikos analitikų. Keisčiausia prognozė, kuria sunku patikėti yra 52-oje Visagino-Zarasų apygardoje, kurioje antrame ture kausis Darbo partija su tvarkiečiais (pergalė prognozuojama Darbo partijai, nors stipriai pirmauja tvarkietis Dumbrava). Keistoka, bet gal ir logiška 40-osios Telšių apygardos prognozė, kur stipriai pirmaujantis darbietis turi mažai šansų atsilaikyti prieš valstietį Martinkų. Kaip jau minėjau, Darbo partijai šis modelis daug šansų nepalieka. Visas apygardų sąrašas su prognozuojamais nugalėtojais ir tikimybėmis, kad nugalės pirmaujantis.

Turint nedaug istorinių duomenų tikriausiai labiau pasitikėčiau politikos ekspertų prognozėmis konkrečioje apygardoje arba modeliuočiau tikimybes kiek kurios partijos rėmėjų ateis į antrą turą bei palaikys ne savo partijos kandidatą: būtent tokį modelį ruošia WebRobots komanda, kuri leido man pasinaudoti jų surinktais iš VRK duomenimis. Idėja patreniruoti neuroninį tinklą ir kilo susidūrus su problema ar nebūtų galima kaip nors statistiškai išskaičiuoti tikimybių, kiek, tarkim, socialdemokratų palaikytų konservatorių kandidatą jei jis būtų likęs prieš darbietį. Taip pat galima pažiūrėti į Vaidoto Zemlio prognozes.

Post Mortem

Rezutatai buvo stipriai kitokie, nei buvo tikimasi: daugiausiai prašauta (tikriausiai dėl to, kad 2012-aisias valstiečiai pasirodė ne itin įspūdingai) su LVŽS ir TSLKD. Tam tikros tendencijos buvo teisingos – Darbo partija, Tvarka ir Teisingumas bei Socialdemokratai iš tiesų gavo mažiau mandatų nei buvo pirmaujama po pirmo turo, tuo tarpu liberalai sugebėjo laimėti daugiau apygardų nei pirmavo po pirmo turo, tačiau šių pokyčių mastas buvo žymiai (žymiai žymiai) didesnis. Iš viso, neuroniniai tinklai sugebėjo atspėti 48 apygardas (67% tikslumas). Palyginimui – rankomis dėliotas Webrobots komandos modelis pasiekė 80% tikslumą. Tiesa, atmetus kai kuriuos nelogiškus neuroninio tinklo siūlymus, kurie plika akimi atrodė keisti ir pataisius prognozę Dainavos apygardoje dėl Vinkaus skandalo (ko iš 2012-ųjų duomenų niekaip nebuvo galima žinoti), buvo galima pasiekti maždaug 75% procentų tikslumą. Ne kažką, bet šis tas.

Skaičiuojant modelio patikimumą, dažnai žiūrimas plotas po Receiver Operating Characteristic (ROC) kreive (kuo gerenis modelis, tuo jis turėtų artėti link vieneto). Štai modelių palyginimai:

Area under ROC curve
Neuroninis tinklas (tikimybės) 0.597143
Webrobots modelis 0.708095
Neuroninis tinklas (binarinis) 0.549048
Laimės pirmaujantis 1 ture 0.500000
Laimės pirmaujantis daugiamandatėje 0.487619

O čia pačios ROC kreivės:

Skirtingų modelių ROC kreivės
Skirtingų modelių ROC kreivės
Skaityti toliau…