tiistai 3. heinäkuuta 2012

Alkoholinmyyntitiedon visualisointia

Julkaisimme n. kuukausi sitten Eva Koskisen ja Radar:n kanssa jutun alkoholin myyntitiedoista. Ajattelin hieman valaista taustoja tarinan takaa, koska kyseessä oli lukijoita ja kuulijoita kiinnostanut datajournalistinen juttu, joka levisi myös muihin tiedostusvälineisiin.

Datan hankinta


Tilastojen ja datan hankkimisen ei useinkaan tarvitse poiketa luonteeltaan ns. normaalista tiedon hausta (kuten piirakkareseptien etsiminen) eikä alkoholinmyyntitilastojen etsiminen tehnyt tähän poikkeusta. Google on erinomainen työkalu ja hakulauseella "alkoholijuomien kulutus" löytää nopeasti Tilastokeskuksen sivuille, josta käy ilmi, että alkoholijuomien myyntitilastoa ylläpitää Terveyden ja hyvinvoinnin laitos (THL).

THL kerää erinäisiä terveyteen ja ihmisten hyvinvointiin liittyviä tilastoja, joihin kuuluvat mm. alkoholinmyyntitilastot. Tilastot pitävät sisällään kunnittaiset alkoholinmyyntimäärät litroittain juomatyyppikohtaisesti, puhtaana alkoholina sekä suhteutettuna asukasta kohden. Tilastot löytyvät THL:n sivuilta vuositasolla vuosittaisten raporttien yhteydestä (Valvivan sivut antavat ymmärtää, että tilastoja kerättäisiin myös kuukausitasolla).

Ainoa ongelma THL:n sivuilta saatavassa datassa oli, että se on .pdf-muodossa. PDF-muotoista dataa ei usein mielletä koneluettavaksi tai helposti automaattisesti käsiteltäväksi, mutta myös .pdf-dokumenttien käsittely on mahdollista. Mm. Acrobat Readerin Pro -versiosta löytyy toiminnallisuus, jonka avulla .pdf-muotoinen dokumentti on mahdollista muuntaa Excel-muotoiseksi, mutta saatavilla on myös ilmaisia työkaluja kuten esimerkiksi Cometdocs-palvelu, jota itse käytin. Vaikka muunnos ei ollutkaan täydellinen oli yksittäiset virheet helppo korjata käsin.

Myöhemmin ottaessani yhteyttä THL:ään sain myös selville, että THL ylläpitää Sotkanet-nimistä palvelua, josta on mahdollista hakea kaikkia THL:n tuottamia tilastoja monipuolisten rajaustyökalujen avulla ja datat ovat ladattavissa tietokoneluettavassa muodossa. Palvelu mahdollistaa myös suoraan yksinkertaiset datan visualisoinnit mm. karttojen muodossa. Tämänkaltaisten loistavien palveluiden markkinointiin voisi panostaa enemmänkin aikaa ja rahaa.

Kokeilut Google Fusion Tables -työkalulla


Google Fusion Tables on datan visualisointityökalu, joka on osa, nykyisin Google Drive nimellä, tunnettua palvelua (aiemmin Google Docs). Fusion Tablesiin on mahdollista ladata omia datataulukoita tai palvelusta on mahdollista hakea käyttöönsä muiden käyttäjien julkisia taulukoita. Fusion Tables mahdollistaa datan näyttämisen mm. kartta-, verkosto-, viiva-, piirakka- sekä pylväsvisualisulisoinnin muodossa. Kaikki komponentit ovat muutaman hiiren klikkauksen ulottuvissa.

Alkoholinmyyntitietodata oli kuntakohtaista, joten mielekästä oli kuvata data kunnittain Suomen kartalle. Fusion Tables:ssa kuntiin (ja yleensäkin paikkatietoon) perustuvan visualisoinnin toteuttaminen on helppoa, koska palvelusta on mahdollista hakea kuntanimiin perustuen paikkojen sijainnit. Sijainnin merkitään oletuksena ns. "täpillä" (marker), joille on dataan perustuen mahdollista esimerkiksi määrittää arvoa kuvaava väri.

Google Maps -komponentti, jota käytetään kartan piirtoon osaa kuitenkin tulkita myös kuntarajoja (maantieteellisiä alueita) kun ne syötetään KML-muodossa. Näin on mahdollista käyttää yksittäisten täppien sijaan kunnan pinta-alaa datan esittämiseen. Lopputulos on myös paljon miellyttävämmän näköinen visuaalisesti kuin käytettäessä täppiä. Toki tässä tapauksessa datan luonne ei myöskään tue täppien käyttöä, koska ilmiö ei tapahdu spatiaalisesti yhdessä pisteessä vaan data kuvaa suuremman pinta-alan käyttäytymisen keskiarvoa. Toisissa datoissa tietysti taas täpät ovat luontevia datan kuvaamiselle. (Kuva 1)

Google Fusion Tables:ssa hypoteesien erilaisten testaaminen on lähtökohtaisesti näppärää. (Kuva 1)

Google Fusion Tablesissa erilaisten hypoteesien kokeileminen on helppoa, koska mm. värivalintojen tekeminen onnistuu suoraan käyttöliittymäkomponenttien avulla. Tämä mahdollistaa isojenkin muutosten tekemisen nopeasti, joka esimerkiksi omassa toteutuksessa vaatii aina koodaustyötä. Fusion Tables:n ongelmia ovat, että tuotokset eivät erotu, koska ne näyttävät Google:n tuotteilta ja toisaalta, että datan joutuu luovuttamaan Google:lle, joka voi olla arkaluontoisten datojen kohdalla ongelma.

Goole Maps:n ja Google Fusion Tables:n ymmärtämä KML-muotoinen Suomen kuntarajat vuodelta 2011 sisältävä data on ladattavissa täältä.

Lopullinen toteutus HS:n kuntakoneella


Kuten olen tässä blogissa aikaisemminkin maininnut on Helsingin Sanomat ollut aktiivinen toimija suomalaisen datajournalismin saralla. Tähän toimintaan on kuulunut mm., että HS julkaisi toukokuussa toteuttamansa kuntakoneen avoimena lähdekoodina HS Next -blogissa. Kuntakonetta hyödynnettiin laajasti seuranneessa HS Open -tapahtumassa, jossa se näytti toimivuutensa erilaisten datojen esittämiseen.

Alkuperäinen HS:n toteutus kuntakoneesta oli tehty kuntaliitoksia silmällä pitäen, joten karttaa käyttääksemme jouduimme hieman muuntamaan sitä tarpeeseemme. Poistimme kartasta mahdollisuuden yhdistellä kuntia keskenään, mutta mahdollistimme samalla helpomman kunnan uudelleenvalitsemisen. Lisäksi teimme kartan kaksikielisenä sekä toteutimme siihen mahdollisuuden rajata piirron pelkkiin ruotsinkielisiin kuntiin. (Kuva 2)

Kartan värit perustuivat YLE:n uuteen ilmeeseen. Toteutus mahdollisti kartan näkökulman muokkauksen. (Kuva 2)

Toteutimme siis lopullisen ja julkaistun karta Helsingin Sanomien kuntakarttaan perustuen Google Fusion Tables toteutuksen sijaan, koska kuntakarttaan perustuva toteutus osoittautui visuaalisesti paremman näköiseksi ja lisäksi näimme, että omassa toteutuksessa pystyimme paremmin hallitsemaan sitä miten karttaa käytetään. Pyrkimys riippumattomuuteen ulkopuolisesta toimijasta ei sinällään ollut merkittävä tekijä päätöstä tehtäessä.

Jälkipyykki; mitä näimme, mitä opittiin


Radar teki keväällä useampia alkoholiin liittyviä juttuja radioon sekä nettiin ja siten tämä alkoholinmyyntikartta oli osa suurempaa juttujen kokonaisuutta. Lisäksi on huomioitavaa, että Radar:ssa päätuote on radio-ohjelma, jolle netti pyrkii tarjoamaan täydentävää sisältöä. Tässä tapauksessa nähtiin, että nettiin tehty uutinen keräsi hyvin paljon sivulatauksia ja että sisällöt tukivat hyvin toisiaan, koska radiossa pystyttiin keskittymään tiettyihin toimittajan valitsemiin näkökulmiin kun taas netissä pystyttiin tarjoamaan kohdennettua sisältöä kaikille siitä kiinnostuneille.

Saman alkoholinmyyntitiedon uutisointia nähtiin myös muilta suomalaisilta media-alan toimijoilta ja myös YLE Uutiset julkaisi oman uutisensa asiasta rikastettuna samalla kartalla, jota me olimme käyttäneet.

Risuja saimme lähinnä siitä, että kuntakartassa oli otettu huomioon vuoden 2013 kuntaliitokset, jotka eivät kuitenkaan olleet vielä varmistuneita. Esimerkiksi Siuntio oli liitetty Lohjaan ennenaikaisesesti, koska prosessi on vielä kesken. Pyrimme kuitenkin palvelemaan myös heitä, jotka olivat kokeneet itsensä väärin kohdelluiksi antamalla heille THL:n tarjoaman datan keskustelussa.

Yhteenvetona todettakoon, että kyseessä oli erittäin suosittuun aihealueeseen tehty datan karttavisualisointi, joka toi tehdylle jutulle huomattavaa lisäarvoa. Toteutus tuki päätuotetta eli radio-ohjelmaa ja toi myös sille lisäkuuntelijoita.

Ei kommentteja:

Lähetä kommentti