tiistai 26. kesäkuuta 2012

Twiittien kertomaa: #Juhannusjuna

Päivitys 28.6. klo 20:30: Twiittien aikaleimatietoja oli tulkittu väärin, koska ne olivat GMT+0 aikaa eivätkä Suomen aikaa. Tämä on korjattu tekstiin, mutta jaettu data on edelleen GMT+0.

Sain hyvää palautetta edellisestä viestistäni #SuomiTop100-ilmiö ja osittain sen myötä päädyin tällä kertaa tutkimaan #juhannusjuna Twitter-keskustelua.

Juhannusjuna oli Yleisradion tuotanto, joka seurasi juhannusyönä 2012 Helsinki-Rovaniemi-junan matkaa suorana televisiossa, radiossa ja netissä. Lähestys oli 13 tunnin mittainen ja se televisioitiin Suomen lisäksi myös Saksaan, Ranskaan sekä Norjaan. Tuotanto noudatti ns. Slow TV -formaattia, joka määritelmänsä mukaan seuraa maratoonin omaisesti arkipäiväistä tapahtumaa suorana alusta loppuun.

Tarkoituksenani oli ilmentää Juhannusjunan tekijöille heidän pyynnöstään #juhannusjuna-hashtagin alla käytyä keskustelua.

Teknisen toteutuksen kuvaus


Twitter-rajapinta eli API on hyvin monipuolinen ja helppokäyttöinen. Rajapinnan kautta on mahdollista hakea kaikki Twitter:ssä muutenkin julkisesti saatavilla oleva data (tietyin rajoituksin). Esimerkiksi search-metodi mahdollistaa viimeisimpien twiittien hakemisen hakuehtoihin perustuen. Rajapinta on laajasti dokumentoitu ja tarjolla on myös runsaasti esimerkkejä siitä miten rajapintaa kutsutaan.

Normaalisti rajapintoja käytetään ohjelmallisesti, mutta koska Twitter:n osalla kyse on REST-rajapinnasta on kyselyitä mahdollista tehdä myös suoraan selaimen avulla. Esimerkiksi yksittäinen #juhannusjuna-hashtagin sisältävä twiitti ja sen tiedot on mahdollista hakea syöttämällä selaimen osoiteriville kysely:
http://search.twitter.com/search.json?q=%23juhannusjuna&rpp=1,

missä q=%23juhannusjuna rajaa hakua niin, että haetaan vain twiitit joissa on sana #juhannusjuna ja rpp=1 rajaa tulosten määrän yhteen sivua kohden (results per page). Kuten huomataan erotellaan useat parametrit osoiterivillä &-merkillä. Huomioitavaa on myös, että risuaita (#) on merkittävä osoiterivillä sen koodatussa muodossa "%23", koska sillä on erityismerkityksensä URL-osoitteissa.

Rajapinta palauttaa JSON-muotoista dataa, jota on helppo tulkita koneellisesti. Ihmiselle Twitter:n palauttama vaste on hankalalukuista etenkin, koska tietoja ei ole rivitetty. Vaste on kuitenkin mahdollista kopioida esimerkiksi JSONLint-nimiseen palveluun, joka muuntaa datan helpommin luettavaan muotoon (joskin edelleen on kyse koodista).

Kuten sanottua on rajapintoja usein mielekästä käsitellä ohjelmallisesti. Itse kirjoitin yksinkertaisen, n. 10 riviä pitkän, Python-koodipätkän, jonka avulla hain kaikki #juhannusjuna sekä #midsummertrain -aiheiset twiitit Twitter-rajapinnasta (n. 1600 kpl) ja tallensin ne MondoDB -tietokantaan. Lokiikaltaan kyse on siis hyvin suoraviivaisesta ohjelmasta, joka hakee twiittejä rajapinnasta yksi kerrallaan ja tallentaa uudet vielä hakemattomat twiitit lokaaliin tietokantaan, josta niiden käsittely ei enää riipu Twitter:stä.

Tulokset


#SuomiTop100-hashtagin tapauksessa kiinnostavia näkökulmia olivat se ketkä asiasta keskustelivat ja miten he linkittyivät toisiinsa sekä toisaalta millaisia lopulliselle listalle päässeet olivat Twitter-käyttäjinä. #Juhannusjuna:n tapauksessa kiinnostavia kysymyksiä taas olivat etenkin se milloin twiittejä lähetettiin, koska kyse oli suorasta lähetyksestä sekä se ketkä olivat aktiivisimpia keskustelijoita. Slow TV:n luonteesta johtuen (pitkä yön yli kestävä lähetys) erityisen kiinnostavaa ajallisesti oli se miten twiitit jakautuivat tunneittain yön aikana.

Onnistuin tallentamaan twiittejä ajalta 18.6. - 26.6. yhteensä hieman vajaa 1600 kpl:tta. Tässä luvussa olivat mukana #juhannusjuna ja #midsummertrain hashtagin sisältäneet twiitit. Yhteensä hashtagejä käytti 318 käyttäjää ja heitä oli kaikilta kielialueilta, joilla lähetys näkyi (FR: 2, EN: 150, NO: 5, DE: 5, SV: 18, DE: 3, IN: 2, FI: 1388). Huomioitavaa on, että kielialue määritellään siitä mitä kieltä käyttäjä käyttää palvelussa eli suuri osa EN-kielikoodin omaavista twiittaajista on varmasti suomalaisia.

Aktiivisin twiittausjakso koettiin juhannusjunan lähdön aikaan kun 19:00-20:00 välisenä aikana Twitter:iin lähetettiin yhteensä 401 juhannusjuna-aiheista twiittiä. Iltaa ja yötä myöden twiittien määrät tippuivat ensin 268:een tunnissa ja sitten 171:een tunnissa. Kuitenkin vielä aamulla klo 01:00-02:00 välillä hashtagit keräsivät 86 twiittiä, joka on keskimäärin enemmän kuin yksi twiitti minuutissa. Koko data on saatavilla tästä .csv-muodossa (avattavissa Excelissä).

Aktiivisimmaksi twiittaajaksi ylsi @MikaPirhonen 173:lla juhannusjuna-aiheisella twiitillään. Kakkoseksi kipusi @digikim ennen Juhannusjunan virallista Twitter-tiliä @Juhannusjuna. Lähetettyjen twiittien keskiarvo käyttäjää kohden oli 4.9 (1573/318). Twiittimäärien mediaani oli 1 eli suurin osa käyttäjistä lähetti vain yhden #juhannusjuna tai #midsummertrain -aiheisen twiitin. Koko data on saatavilla tästä .csv-muodossa.

Lisäys 27.6.2012 klo 11:30:

Twitterissä heräsi kysymys siitä ovatko mukana myös retwiitit. Tutkittuani dataa selvitin, että kyllä ovat ja eniten retwiittejä eli 12 sai @Iirorantala:n twiitti:
@IiroRantala: Spread this link of #juhannusjuna #midsummertrain. The show is available world wide live from a night train in Finland. Starts in one hour.
Kakkoseksi twiittien suosituimmuudessa retwiittien osalta pääsi @TuomasEnbuske, jonka twiittiä:
@TuomasEnbuske: Don't tell mamassa on kuulemma tänä iltana todellinen #juhannusjuna.
jaettiin edelleen 6 kertaa. Suurin osa twiiteistä aiheilla #juhannusjuna ja #midsummertrain ei saanut yhtään retwiittiä, koska vain 82 twiittiä 1573:sta jaettiin eteenpäin kerran tai useammin ja suurin osa näistäkin twiitattiin uudelleen vain kertaalleen.

Ps. jos sinä olet kiinnostunut oman hashtagisi takana käytävästä keskustelusta, mutta tämän toteuttaminen tuntuu ylitsepääsemättömältä ota yhteyttä esimerkiksi Twitterissä niin katsotaan mitä voimme tehdä. Kannattaa kuitenkin ottaa huomioon, että Twitteristä on mahdollista hakea vain n. 1500 viimeisintä twiittiä ja maksimissaaan 6-8 päivän takaa.

Tässä viestissä jaetut datasetit ovat lisensoitu Nimeä-Tarttuva (CC BY-SA) ja data on tarkoituksenmukaisesti jätetty visualisoimatta, jotta datan käyttöönottaminen olisi siten mielekkäämpää kun pääsee tekemään tyhjältä pöydältä.

maanantai 25. kesäkuuta 2012

#SuomiTop100-ilmiö

Keskiviikkona 20.6. suomalaisessa Twitterissä alkoi kuohua (Kuva 1). Niku Hooli ja Antti Hirvonen olivat Foreign Policy -lehden esimerkin innoittamina ryhtyneet joukkoistamalla keräämään listaa 100:sta suomalaisesta tai Suomessa vaikuttavista Twitter-aktiivista.

@suomitrendit on suosittuja suomalaisia hashtageja twiittaava Twitter-tili. (Kuva 1) 

Nopeasti, aiheesta hashtagilla #SuomiTop100 keskustelleiden keskuudessa, kasvoi tarve ilmentää ilmiötä visualisoinnin keinoin ja keskiviikkoiltapäivällä sainkin useampia vihjailuja (1, 2, 3) asiaa koskien. Sinällään ongelma oli, etten ennen ollut kerännyt Twitteristä dataa hashtageihin perustuen, joten jouduin hieman improvisoimaan lähtiessäni toteuttamaan tarvetta täyttävää visualisointia. Aikaisemmat Twitter-pohjaiset visualisointini ovat perustuneet yksittäisten Twitter-tilien seuraajien ja seurattavien visualisointiin. Sain kuitenkin nopeasti aikaan ensimmäisen version #SuomiTop100-hashtagin maininneiden käyttäjien keskinäisestä verkostosta (Kuva 2).

Verkostossa on 66 solmua (keskustelijaa) ja 744 yhteyttä (seuraa tai on seurattavana). (Kuva 2)

Verkostossa ovat siis mukana #SuomiTop100-hashtagin Twitterissä maininneet henkilöt, eivät listalla olleet tai sinne päätyneet, joskin toki osa asiasta keskustelijoista listalle myös päätyi. Toteutus oli kuitenkin siinä määrin nopeasti kasattu, että en ehtinyt huomioimaan mm., että versioon tulivat mukaan vain hashtagin 100 viimeisintä twiittiä eikä data siten ollut täydellistä.

Mitä tästä kuvassa 2 näkyvästä verkostosta pystyttiin kuitenkin jo näkemään oli, että aiheesta keskustelleiden verkosto on hyvin tiheä. Näytti siis siltä, että asiasta keskusteltiin ns. kaveriporukassa toisensa tuntevien ihmisten kesken. Sain kuitenkin siinä määrin palautetta ihmisiltä, jotka olivat asian maininneet, mutta eivät verkostosta löytyneet, että keskiviikkoiltana toteutin twiittien hakuskriptistä parannetun version.

Torstaina 21.6. aamulla julkaisin päivitetyn toteutuksen #SuomiTop100-hashtagin maininneiden verkostosta. Tällä kertaa luulen saaneeni mukaan todella kaikki asiasta keskustelleet ja heidän väliset yhteydet. Ainakin datan määrä kasvoi merkittävästi ja näytti oikeammalta twiittien määrään nähden (>500). Verkoston rakenteeseen tämä päivitys ei kuitenkaan juuri tuonut muutosta. Edelleen näytti siltä, että asiasta kiinnostuneet eli asiasta keskustelleet ovat myös kiinnostuneet keskenään toisistaan (Kuva 3).

Verkostossa on 284 solmua (keskustelijaa) ja 10556 yhteyttä (seuraa tai on seurattavana).  (Kuva 3)

Kuvissa 2 ja 3 näkyvien verkostojen rakenteen ja värityksen merkitystä on kuvattu mm. aikaisemmassa viestissäni: "Twitter-verkostoanalyysia Gephi:llä". Lyhyesti kuvattuna ihmiset asettuvat verkostossa lähelle niitä ihmisiä, jotka seuraavat toisiaan ja värit on asetettu verkostosta matemaattisesti tunnistettujen ryhmittymien mukaan. Solmun eli henkilöä kuvaavan pallon koko määräytyy sen mukaan miten keskeinen hän on verkoston kannalta. Latasin myöhemmin torstaina myös interaktiivisen version kuvassa 3 nähtävästä verkostosta ja annoin hakemani datan verkostomuodossa (.gexf) jatkokäsiteltäviksi siitä kiinnostuneille.

Torstaina iltapäivällä lopullinen lista julkistettiin YLE Uutisten toimesta. Laskin, että listalle päätyneistä ihmisistä 13% (37/284) osallistui aiheeseen liittyvään keskusteluun. Aiheesta keskustelleet löytyvät oheisesta .csv-tiedostosta, joka on mahdollista avata esimerkiksi Excelissä. Keskustelleet, jotka päätyivät myös listalle löytyvät tästä Google Fusion Tables -taulukosta.

Myös muut olivat aktivoituneet asian tiimoilta ja tehneet analyysia ilmiöstä. Mm. MikroPC:stä tuttu Ossi Jääskeläinen oli rakentanut PHP-ohjelman, jolla hän oli hakenut listalle päätyneiden numeeriset metatiedot (twiittejä, seuraajia, seurattavia, listojen jäsenyyksiä, omia listoja). Ossi tarjosi datan .csv-muodossa vapaasti käytettäväksi ja tästä innoittuneena aktivoiduin myös tämän osalta tekemään hieman visualisointityötä.

Toteutin D3.js kirjaston tarjoamaan Parallers Coordinates esimerkkiin perustuen visualisoinnin, jonka avulla on mahdollista tutkia korreloivatko #SuomiTop100-listalla olevien numeeriset ominaisuudet, jollain tavalla. Onko esimerkiksi niin, että twiittauksien määrä on suoraan verrannollinen käyttäjän seuraajien määrään tai ovatko käyttäjät, jotka itse käyttävät listoja todennäköisimpiä myös itse päätymään niille. (Kuva 4)

Suurin hajonta lopullisen #SuomiTop100 listan jäsenissä syntyy numeerisesti twiittien määrässä. Avaa visualisointi. (Kuva 4)

Kuten kuvasta 4 nähdään muutamat käyttäjät sokaistavat visualisoinnin melko tehokkaasti. Esimerkiksi Heikki Kovalaisen yli 150 000 seuraajaa on Suomen tasolla siinä määrin poikkeuksellinen määrä, että muut vain n. 1000 seuraajaa omaavat eivät erottaudu akselilla. Olisi ollut mahdollista toteuttaa hieman monipuolisemmat ominaisuudet omaava toteutus visualisoinnista, mutta päädyin helpompaan ratkaisuun ja poistin datasta manuaalisesti nämä muumat käyttäjät (@Haloefekti, 94 502 twiittiä @H_Kovalainen, 154 445 seuraajaa; @ptarkkonen, 108 793 seurattavaa), jotka omaavat suurimmat ääriarvot. Tällä ei kuitenkaan merkittävää vaikutusta ollut vaan data ilmentyi edelleen visualisoinnissa samankaltaisesti eikä kovinkaan merkittäviä korrelaatioita numeeristen ominaisuuksen välillä löytynyt. Listalle päätyneet suomalaiset Twitter-vaikuttajat ovat numeroiden valossa hyvin samankaltaisia. (Kuva 5)

Vaikka listalta poistetaan äärimmäisimmät käyttäjät ei data esiinny juurikaan erilaisempana. Avaa visualisointi. (Kuva 5) 

Toteuttamani verkostovisualisoinnit #SuomiTop100-hashtagin maininneista keskustelijoista aiheutti myös muutamia epäselvyyksiä. Visualisoinnin luultiin olevan tehty lopulliselle listalle päätyneiden keskinäisestä verkostosta (1, 2, 3). Tätä väärinkäsitystä jouduin oikomaan muutamaankin otteeseen ja lisätäkseni hämmennystä toteutin nyt jälkikäteen myös verkoston tästä listalle päätyneiden keskinäisestä verkostosta (Kuva 6). Verkosto löytyy myös interaktiivisena versiona ja data on saatavilla .gexf-muodossa.

Listalle päätyneet ovat keskenään tiiviisti verkostoituneita Twitterissä. (Kuva 6)

Kuten kuvassa 3 nähtävä #SuomiTop100-aiheesta keskustelijoiden verkosto on kuvassa 6 nähtävä lopulliselle listalle päätyneiden verkosto hyvin tiivis. Ainoastaan, pääosin urheilijoista ja urheiluvaikuttajista koostuva, joukko vasemmalla erottuu selkeästi omaksi saarekkeekseen. Yhteensä kuvassa 6 nähtävässä verkostossa on 100 solmua ja 3296 yhteyttä. Verkoston keskeisin henkilö on Tuija Aalto, joka myös seuraa eniten verkostossa olevia henkilöitä (96). Tuija myös kiinnostaa, koska 99:stä mahdollisesta häntä seuraa 64 verkoston jäsentä. Muut verkoston keskeisimmät henkilöt ovat järjestyksessä Mikael Jungner, Jyrki Kasvi ja Mikko Hyppönen.

Tässä oma näkökulmani #SuomiTop100-ilmiöön, joka vavisutti mielipiteitä näin juhannuksen alla puolesta ja vastaan.

Tässä viestissä jaetut datasetit ovat lisensoitu Nimeä-Tarttuva (CC BY-SA).

maanantai 18. kesäkuuta 2012

Näkökulma: Datajournalismi ennen, nyt ja tulevaisuudessa

Käsittelen tällä kertaa blogille epätyypillisesti datajournalismia konseptuaalisesti ilman konkreettista käyttötapausta. Motivaationa tähän on, etten mielestäni ole nähnyt tarpeeksi useita datajournalismia käsitteenä selittäviä kirjoituksia tai datajournalismin taustoja avaavia tekstejä.

Ja kuten hyvän draamankaareen kuuluu aloitan tämänkin tarinan alusta; kun datajournalismi syntyi.

Datajournalismin lyhyt historia, 1950-l tähän päivään


Kuten etenkin asiasta kiinnostuneet ovat huomanneet on dataan perustuva journalismi, ns. datajournalismi, noussut viime aikoina erittäin kuumaksi puheenaiheeksi. Datajournalismi käsitteenä on uusi, mutta ilmiön taustat ulottuvat paljon kauemmaksi ja itseasiassa dataan perustuvan ja tietokoneavusteisen journalismin juuret ja aikaisimmat käytännön esimerkit löytyvät jo 1950- ja 1960-luvuilta.

Erään lähteen mukaan tietokoneavusteisen journalismin ensimmäisenä merkkipaaluna nähdään vuoden 1952 USA:n presidentin vaalien tuloksen ennustaminen. Tuolloin Walter Cronkite hyödynsi UNIVAC I -nimistä tietokonetta ja käytettävissä olevaa äänestysdataa ennustamaan, että Dwight D. Eisenhower tulisi voittamaan vaalit vastoin ennakko-odotuksia.

Toisaalla merkittävämpänä mainitaan tapaus, jossa Philip Meyer vuonna 1967 näytti dataan perustuen miten Detroitin mielenosoituksiin osallistuneiden koulutustausta oli heterogeeninen eikä osallistuminen korreloinut ihmisten koulutustaustaan. Yleinen oletus oli, että mielenosoituksiin osallistuneet olisivat olleet matalasti koulutettuja, mutta Meyerin data-analyysi osoitti toisin. (Kuva 1)

Detroitissa oli vuonna 1967 laajoja mellakoita, joiden ymmärtämisessä data-analyysi oli tärkeässä asemassa. (Kuva 1)
Kuten nämä esimerkit osoittavat on dataa hyödynnetty journalismissa jo pitkään ja voidaan sanoa, että jo 1980-luvulta lähtien tietokoneavusteinen journalismismi on toiminut toimittajien työvälineenä.

Kiinnostus ja mahdollisuudet datajournalismiin kasvavat


Tämän hetkinen datajournalismi-aalto siis kumpuaa historiasta, mutta pitää sisällään toki uusia elementtejä. Esimerkiksi avoimen tiedon ja ilmaisten sekä avoimien työkalujen lisääntyminen on merkittävästi suoraviivaistanut dataan perustuvan journalismin toteuttamista. Lisäksi merkittävä uusi näkökulma nykyisessä datajournalismissa on tekniikan osaajien tuleminen mukaan prosessiin. Dataan perustuvan journalismin yleistymistä on osaltaan edesauttanut myös Internetin yleistymisen myötä eteen tullut median murros ja ettei journalismia tehdä enää vain toimituksellisena työnä suurissa mediataloissa vaan osaajat ympäri maailmaa ja yli koulutusalojen pystyvät ottamaan osaa tiedon välittämiseen ihmisiltä toisille.

Avoimen tiedon lisääntymistä ovat edesauttaneet mm. useiden valtioiden toimet sen eteen, että julkisin varoin tuotettu tieto tulisi olla avointa ja kansalaisten hyödynnettävissä. Myös Suomessa nykyiseen hallitusohjelmaan on kirjattu, että kaikki julkisin varoin tuotettu tieto tulisi olla avoimesti kansalaisten saatavilla.
“Julkisin varoin tuotettuja tietovarantoja avataan kansalaisten ja yritysten käyttöön. Tavoitteena on julkisen sektorin hallinnoimien digitaalisten tietoaineistojen saattaminen helposti uudelleenkäytettävässä muodossa tietoverkkojen kautta kansalaisten, yritysten ja yhteisöjen, viranomaisten, tutkimuksen ja koulutuksen hyödynnettäväksi.”
Hyvät ja helppokäyttöiset työkalut kuten Google Fusion Tables, Google Charts, Highcharts, D3/Protovis ja Raphaël mahdollistavat Internetissä jaettavien interaktiivisten sovellusten toteuttamisen suhteellisen pienellä vaivalla ja tämä on osaltaan motivoinut osaajia tuottamaan datajournalismia. Osa työkaluista kuten Google Fusion Tables yhistettynä Excel-osaamiseen ovat myös siinä määrin helppoja oppia, että niiden käyttäminen onnistuu myös ilman suurempaa teknistä harjaantuneisuutta.

Yksittäiset tapaukset kuten tietovuodot ja kiinnostavat datan avaukset ovat tuottaneet hyviä dataan perustuvia visualisointeja ja applikaatioita. Esimerkkitapaukset ovat vieneet datajournalismia kohti konkretiaa, joka on johtanut siihen, että esimerkiksi mediataloissa datajournalismin tekemisestä saatavat hyödyt ovat tulleet näkyviksi.

Välisoitto: Mitä on datajournalismi


Mitä muuten on datajournalismi, miten se linkittyy esimerkiksi tiedon visualisointiin, infografiikkaan, pelillisyyteen, journalismiin, sosiaalisen verkostojen analyysiin ja toisaalta datan analysointiin. (Kuva 2)

Datajournalismiin liittyy useita eri vaiheita ja osaamista. (Kuva 2)
Datajournalismi, kuten käsitteet usein, voidaan määritellä usealla eri tavalla ja datajournalismi-käsitteen alle on mahdollista mieltää kuuluvan hyvinkin monta aihealuetta. Toisaalta datajournalismi voidaan rajata hyvin tarkastikin tarkoittamaan vain tiettyä rajattua alaa. Mielestäni sanojen määrittely ei useinkaan ole kovin hedelmällistä vaan tärkeämpää on eri osaajien välinen yhteisymmärrys ja keskustelu. Nostaisin esiin kaksi sellaista näkökulmaa, jotka ohjaavat ajattelua oikeaan suuntaan.

1) Infografiikka ei ole datajournalismia

Mielestäni on hyvä erottaa datajournalismi pelkästä infografiikasta, joka esittää esimerkiksi yksittäisiä lukuja tai muuta tietoa grafiikan keinoin. Datajournalismi-käsitteessä oleellista on, että taustalla on tietoaineisto, jota on käsitelty sekä analysoitu ja joka esitetään journalistisesta näkökulmasta esimerkiksi visualisoinnin keinoin.

2) Data on journalismin työkalu

Datajournalismia tuottavat henkilöt omaavat usein teknistä osaamista, jolloin unohtuu helposti, että tavoitteena journalismissa on tuottaa kuluttajia kiinnostavia sisältöjä. Journalismin ei tulisi olla sivutuote, joka mahdollistetaan datan tai visualisointien avulla vaan journalistisen työn tulisi olla ohjaava voima. Datan ja visualisointien tehtävä on sekä a) tehdä kiinnostavista tarinoista vielä rikkaampia että b) mahdollistaa uudenlaisten tarinoiden löytäminen.

Mielestäni datajournalismi on yhteinen nimitys mm. sellaisille käsitteille kuin tietokoneavusteinen journalismi, visuaalinen tarinan kerronta ja dataan perustuva journalismi.

HSOpen ja Suomen Kuvalehti suomalaisina päänavaajina


Maailmalla datajournalismia tehdään jo paljon ja mm. BBC, GuardianLa Times ja Ny Times ovat globaaleja edelläkävijöitä. Suomessa datajournalismia tehdään edelleen paljon yksityisin ja jopa vapaaehtoisin voimin muutamia poikkeuksia lukuunottamatta. Kuitenkin, jotta nykyinen liikehdintä muuttuisi pysyväksi ja palkitsevaksi on työstä pidemmän päälle mielekästä saada myös korvaus. Osa suomalaisista mediataloista onkin lähtenyt viemään toimintaansa enemmän datajournalismin suuntaan.

Suomessa Helsingin Sanomat on epäilemättä ollut alan edelläkävijänä. Maaliskuussa 2011 ensimmäistä kertaa järjestetty HSOpen on lyhyessä ajassa paaluttanut itsensä suomalaisen datajournalismin merkkitapahtumaksi. HSOpen on yksipäiväinen tapahtuma, joka kokoaa yhteen datajournalismista kiinnostuneet tekniikan, journalismin ja graafisen alan osaajat. Tapahtuma on tarjonnut alasta kiinnostuille mahdollisuuden keskinäiseen kommunikointiin sekä toisiinsa tutustumiseen ja antanut samalla Helsingin Sanomille hyvin eksplisiittisen näköalan suomalaisiin datajournalismin tekijöihin. Varmasti HSOpen tapahtumista saatujen hyvien kokemusten perusteella Helsingin Sanomat on myös perustanut erityisen vain datajournalismiin keskittyvän toimituksen, jonka itseoikeutetuksi tuottajaksi valittu Esa Mäkinen on ollut alan suomalainen hengillistymä.

Suomen Kuvalehti on toinen aktiivisesti datajournalismin viittaa Suomessa ylläpitänyt taho. Suomen Kuvalehti on toteuttanut datajournalismia Helsingin Sanomia enemmän sisäisesti, mutta tulokset ovat olleet hienoja sekä ja niitä on mahdollista seurata erityisesti datajournalismiin keskittyneeltä teemasivulta.

Myös muissa suomalaisissa mediataloissa datajournalismia on tehty, mutta tapaukset ovat olleet enemmän yksittäisiä tuotoksia.

Oma siirtymiseni Yleisradioon ja tarve tekniikan osaajista


Disclaimer: Tämän kohdan tarkoitus on antaa kuva siitä piilevästä ja vielä paljolti realisoimattomasta kiinnostuksesta, joka journalismissa on dataan ja sen käyttämiseen.

Oma henkilökohtainen taustani on, että olen tietotekniikan diplomi-insinööri Tampereen teknillisestä yliopistosta. Pääaineenani luin hypermediaa ja olin myös töissä Hypermedialaboratoriossa tutkijana kolmen vuoden ajan ennen ja jälkeen valmistumiseni vuosina 2009-2011. Vuoden vaihteessa 2011/12 siirryin töihin Yleisradioon nimikkeellä Web-suunnittelija.

Jo työskennellessäni Hypermedialaboratoriossa olin kiinnostunut visuaalisesta tarinan kerronnasta sekä datan näkyväksi tekemisestä visualisointien avulla ja seurasin mielenkiinnolla aihealueeseen liittyvää uutisointia ja kehitystä. Tapahtumat kuten Helsingin Sanomien HSOpen, Open Govenment Data Camp Varsovassa ja avoimen datan talkoot Tampereella sekä tietysti omassa tutkimustyössäni eteen tulleet datan visualisointitapaukset tuntuivat todella mielekkäiltä ja motivoivilta.

Näiden tekijöiden myötä siirtyminen Tampereelta Helsinkiin ja Yleisradioon oli luonteva ratkaisu eikä vähiten siksi, että YLE:ssä oli mahdollisuus päästä lähelle niitä ihmisiä, joilla on mahdollisuus kertoa tarinoita ja hyödyntää dataa yleisölle näkyvällä tavalla. Tarve tekniselle osaamiselle journalismin tekemisessä yllätti kuitenkin minut täysin enkä osannut ennakoida, että jo ensimmäisen 6kk:n aikana minuun oltaisi henkilökohtaisesti ehditty ottaa yhteyttä pääosin kaikista Yleisradion ajankohtais- tai tutkivaa journalismia tekevistä ohjelmista kuten MOT, A-Studio, A-Studio: Stream, YLE Uutiset, Spotlight ja Radar joitakin mainitakseni.

Konkreettisesti olen jo ehtinyt olla mukana mm. Spotlight:ssa tekemässä verkostoanalyysiä Perussuomalaisten yhteyksistä äärijärjestöihin, Radar:ssa tekemässä alkoholin myyntiä kuvaavaa interaktiivista karttaa (Kuva 3) ja YLE Uutisissa tekemässä Hyvinkään ampumistapauksesta epäillyn Facebook-kaveriverkostoa kuvaavaa analyysiä. Lisäksi olen mukana puolen kymmenessä meneillään olevassa hankkeessa, joissa fokuksena on datajournalismin toteuttaminen.

Datajournalismi ilmentyy usein visualisointina, josta tämä Radar:lle tehty alkoholinmyyntiä kuvaava kartta on esimerkki. (Kuva 3)
Piilevää tarvetta ja halua datajournalismin tekemiseen siis on ja ilmiö ei varmasti ole vain Yleisradioon rajoittuva. Uskoisin, että esimerkiksi paikallisissa printtimedioissa olisi samankaltaista kiinnostusta  tekniikan käyttämiseen journalismissa ja kyse on vain priorisoinnista ja oikeiden ihmisten löytymisestä.

Tulevaisuuden näkymät


Tulevaisuudessa näkisin, että yhä useammat suomalaiset mediatalot tulevat perustamaan enemmän tai vähemmän pelkästään datajournalismiin keskittyviä toimituksia ja palkkaamaan henkilöitä, jotka pystyvät tuottamaan interaktiivisia ja kuluttajia sitouttavia visualisointeja. Tämänkaltaista kehitystä on esimerkiksi nähtävissä Yleisradiossa ja kuten mainittua Helsingin Sanomat on oman datajournalismi-toimituksensa jo perustanut.

Maailmalla datajournalismi on jo arkipäivää ja esimerkiksi USA:ssa pienilläkin paikallislehdillä on omia datajournalismi-osastoja. Myös muissa pohjoismaissa suuntaus on ollut dataan perustuvan journalismin kannalta myönteistä, joten näyttää siltä, että on vain ajankysymys kun Suomessakin liikehdintään todella herätään.