keskiviikko 22. helmikuuta 2012

Kuka minä olen? @TuomasEnbuske

Moro,
Olen @TuomasEnbuske, 3kk nuori, suomalainen Twitter-ilmiö. Synnyin 24. marraskuuta vuonna 2011. Olin synnyttyäni heti virkeä lapsi. Opin nopeasti puhumaan säästellen käyttäen maksimissaan 140 merkkiä per viesti. Jakamiani viestejä ryhdyttiin heti seuraamaan laajoin joukoin. Villitsin ihmisiä provokatiivisilla heitoillani, joissa panostin enemmän määrään kuin laatuun. Otin tarkoituksella kantaa herkkiinkin aiheisiin, joihin pyrin useimmiten löytämään mahdollisimman yksioikoisen ja kärjistetyn ratkaisun...kuten netissä on tapana.
Suurin paheeni on Twitter-seuraajamääräni seuraaminen.

@TuomasEnbuske on Twitterin suurkuluttaja. Liittymisestään hän on ehtinyt kolmen kuukauden aikana vihastuttaa ja rakastuttaa seuraajiaan sekä hieman muitakin 2158 tweetin verran ja kerännyt näillä 7116 seuraajaa (tilanne 22.2.2012 klo 10:40). Lyhyellä matematiikalla tämä tekee päivässä ~20 tweettiä ja ~80 uutta seuraajaa. Suomalaisilla mittareilla määrät ovat jos eivät aivan ainutlaatuisia niin ainakin harvinaislaatuisia. Twitterin suosituimmaksi suomalaiseksi hänellä on vielä matkaa, mutta sanotaanko, että matka on alkanut.

Twitter-meemi @TuomasEnbuske:n rooli on ollut tarjota vaihtoehtoinen, provokatiivinen ja kärjistävä näkökulma maailman ja etenkin suomalaisiin tapahtumiin. Parhaimmillaan @TuomasEnbusken oivaltava logiikka toimii kuin Fingerpori (parhaimmillaan), mutta toisinaan eräät närkästyvät liian yksioikoisiksi mieltämistään sutkautuksista. Heitot uppoavat kuitenkin suomalaiseen Twitter-kansaan siinä määrin, että seuraajamäärä on marraskuusta lähtien kasvanut räjähdysmäisen tasaisesti.

@TuomasEnbuske pitää Twitterissä yllä väritettyä linjaa, jonka lähtökohtainen tarkoitus on enimmäkseen hämmentää ihmisiä ja herättää mielipiteitä puolesta ja vastaan. @TuomasEnbuske tweettaa kuin 50-vuotias hämeenkyröläismies ensireaktiossa: "minun mielipiteeni on oikea ja pidän siitä kiinni vaikka olisin väärässä". @TuomasEnbusken Twitter-agenda ei piile arvostuksen keräämisessä yksittäisillä viesteillä kuten asialinjaa ylläpitävillä tweettaajilla vaan kumpuaa enemmän yleisemmästä häiriön aiheuttamisen tarpeesta, jonka apuvälineeksi hän on Twitterin valjastanut. Yksinkertaisena analyysina voidaan heittää, että entinen rääväsuu, joka on sittemmin muokannut imagonsa asiallisempaan linjaan, on löytänyt vastikkeettoman kanavan ilmaista kapinankaipuista sielumaan.

Minua kiinnosti mitä @TuomasEnbuske sitten itse hakee Twitteristä. Lyhyessä ajassa yli 7000 tavallista Twitter-tallaajaa seuraajikseen haalinut @TuomasEnbuske on samassa ajassa itse klikannut seuraukseen ~300 tiliä. Keitä nämä ovat? Edustavatko he enemmän asialinjaa vai onko @TuomasEnbuske myös kiinnostunut provokaattoreista ja kansanmiehistä, jonkalaiseksi hän on itsensä Twitterissä lanseerannut.

Kuvassa 1 nähdään Twitter-tilien, joita @TuomasEnbuske seuraa, verkosto. Verkostosta voidaan lukea, että @TuomasEnbuske hakee Twitteristä täysin päinvastaista sanomaa kuin mitä hän itse tarjoaa vastineeksi. Hän haluaa selkeästi rinnastua seuraamisellaan valtaeliittiin ja päätöksentekijöihin. Seuratuista tileistä mainittakoon sellaiset anarkistit ja ihmiskunnan pahat pojat kuten Peter Vesterbacka, Mikael Jungner, Alexander Stubb, Bill Gates ja Stephen Elop. Ei todellakaan hahmoja, jotka voidaan mieltää kapinallisiksi rääväsuiksi vaan päinvastoin verkosto on pullollaan Twitter-tilejä, jotka edustavat menestystä ja valtaa joko suomalaisittain tai kansainvälisesti.

@TuomasEnbuske seuraa Twitterissä lähinnä toistensa kanssa verkostonutta valtaeliittiä, joka ei tarjoa juurikaan vaihtoehtoa vallitsevalle Status Quo:lle. Klikkaa suuremmaksi. (Kuva 1)
Huomionarvoista @TuomasEnbuske:n seuraamien henkilöiden verkostossa on myös verkoston tiheys. Mikään ryhmä ei erottaudu erilleen verkostossa esiintyvästä kansakunnan kermasta vaan kaikki seuraavat sopusointuisasti keskenään toisiaan. Tämä kertoo juuri siitä, että @TuomasEnbuske:n seuraamien henkilöiden joukossa ei esiinny sitä ns. vaihtoehtoista kapinalinjaa edustavia henkilöitä, jonkalaiseksi hän on itsensä Twitterissä profiloinut.

Kuka minä olen? Olen @TuomasEnbuske. Tarjoan seuraajilleni äänitorven itsenäisyyspäivän vastaanoton kuokkavierasjuhlista, mutta olen itse turvallisesti linnan seinien sisäpuolella katkarapulautasten ääressä.

Ps. olen tässä viestissä ottanut vapauden oikoa mutkia, koska näin on netissä tapana. Mielipiteet ja johtopäätökset ovat omiani, mutta en kanna niistä vastuuta vaan syytän sananvapautta ja Internettiä sen välineenä kaikesta. Lisäksi oma motivaationi on tietenkin vain saada lisää Twitter-seuraajia ja/tai päästä Tuomaksen kanssa seurapiireihin oluelle.

Ps2. Verkosto on toteutettu Gephillä ja verkostosta on rajattu pois solmut joiden astesumma on pienempi kuin 26. Värikoodaus on tehty Modularity-tunnusluvun perusteella. Verkoston ladonta on tehty ForceAtlas2 algoritmilla.

perjantai 17. helmikuuta 2012

Twitter-verkostoanalyysia Gephi:llä

Innostuin viime viikonloppuna kokeilemaan ensimmäistä kertaa omatoimisesti miten Twitter-dataa on mahdollista visualisoida. Olen aiemmin tutkinut ja työstänyt paljon erilaisia sosiaalisia verkostoja, mutta ennen en ole laittanut todella käsiä rasvaan Twitterin osalta. Osittain tähän on ollut syynä se, että olen mieltänyt Olli Parviaisen jo avanneen kaikki Twitterin salat tämän osalta eikä asiaan vihkiytyminen näin ollen ole tuntunut mielekkäältä. Pisteet tämän vaikutelman luomisesta Ollille :) Sisäinen devaajanluonteeni kuitenkin siis vei voiton ja lähdin kehittelemään jotain omaa.

Twitter tarjoaa monipuoliset mahdollisuudet datansa käsittelyyn rajapintansa kautta. API:lla (Application programming interface) on mahdollista hakea automaattisesti oikeastaan kaikki se tietosisältö, joka on käyttäjälle muutenkin nähtävissä. Tämä on poikkeuksellista esimerkiksi verrattuna Facebook:n Graph API:in, jonka kautta tietoa on mahdollista hakea rajoitetummin. Tästä syystä Facebook-datan hakeminen on omalta osaltani tapahtunut hyvin paljon käsityönä kuten "Kansanedustajat Facebookissa – kuka on kenenkin kaveri?" -tapauksen yhteydessä.

Päädyin rakentamaan Twitter-datan avulla verkoston käyttäjistä/Twitter-tileistä joita seuraan. Henkilökohtaisella Twitter-tilini seurannassa ~90:ntä tiliä, joten tästä seurasi suoraan verkoston solmujen lukumäärä. Yhteydet solmujen välille rakensin sen perusteella miten seuraamani henkilöt seuraavat keskenään toisiaan. Lopputuloksena syntyi sosiaalisen verkosto, joka havainnollistaa seuraamieni henkilöiden keskenäiset suhteet, suhteiden perusteella muodostuvat ryhmät ja näiden ryhmien asemoitumisen toisiinsa nähden.

Keräsin datan käyttäen Python-ohjelmointikieltä ja tein tulostuksen verkostodatalle soveltuvassa GraphML-muodossa, jota visualisointiin käyttämäni visualisointityökalu Gephi ymmärtää. Gephi:ssä käytin tulosten latomiseen ForceAtlas2-algoritmia, jonka olen todennut käytännön kokemusten kautta toimivan hyvin etenkin pienten sosiaalisten verkostojen visualisoimiseen. Värikoodauksen tein dataan käsin määrittelemällä jokaisen solmun sille olennaiseen kategoriaan. Solmun koko kuvastaa astesummaa eli solmuun suuntautuvien yhteyksien määrää. Toisin sanoen solmun koko kuvaa suoraan Twitter-tiliä seuraavien Twitter-tilien määrää verkostossa. Yhteydet solmujen välillä ovat suunnattuja. Annotoinnin ja jälkikäsittelyn tein Paintbrush-nimisellä ohjelmalla. (Kuva 1)

Sosiaalinen verkostoni Twitter:ssä visualisoituna Gephi:llä. (Kuva 1)
Visualisointi vahvistaa hyvin niiden eri ryhmien olemassaolon, jotka todellisuudessakin ovat olemassa verkostossani, mutta lisäksi visualisoinnista voidaan nähdä miten nämä ryhmät sijoittuvat suhteessa toisiinsa. Esimerkiksi TTYläiset erottuvat visualisoinnissa hyvin selkeästi muista ryhmistä erilleen. Tulkitsen tämän johtuvan toisaalta siitä, että seuraamani TTYläiset eivät ole kaikkein aktiivisimpia Twitter-käyttäjiä mutta toisaalta siitä, että heillä ei ole mitään syytä seurata Yleläisiä tai datajournalismi-ihmisiä. Myös Yleläiset erottuvat visualisoinnissa selkeästi omana joukkonaan, mutta he taas asettuvat selkeästi lähemmäksi datajournalismi-ryhmää kuin TTYläiset, jonka voidaan mieltää olevan ihan ammatillisestikin luontevaa. Nämä kolme ryhmää (1. TTY, 2. YLE ja 3. Datajournalismi) ovat verkostoni suurimmat ja selkeimmät, joten näen, että tällä erää on mielekästä tässä tulkita vain ne ja jättää muut pienemmät ryhmät tässä erää huomioimatta.

Kuvissa 2, 3 ja 4 nähdään eräiden muiden käyttäjien Twitter-verkostot. Verkostot on toteutettu samoilla periaatteilla kuin edellä kuvattu oma verkostoni sillä erotuksella, että solmujen väritys on tehty Gephi:n Modularity-luokittelun avulla. Lisäksi näissä verkostoissa esiintyvät Twitter-tilit on anonymisoitu, koska haluan esittää ne vain esimerkin omaisesti enkä pyrkiä sen tarkempaa tulkitsemiseen. Tarkempi tulkinta vaatisi tutustumista verkostoissa oleviin Twitter-tileihin, jotta voitaisiin ymmärtää miksi tietyt ryhmät ovat lähempänä toisiaan kuin toiset.

Kuvien 2, 3 ja 4 verkostoista nähdään miten verkoston ulostulo on hyvin erilainen eri käyttäjille. Toisilla käyttäjillä nähdään hyvin pitkälle keskenään verkostoituneet ryhmät kun taas toiset käyttäjät seuraavat toisistaan täysin riippumattomia Twitter-tileistä koostuvia ryhmittymiä.

Kuvassa 2 nähtävä verkosto on niin tiheä, että tarkkojen tulkintojen tekeminen yleisnäkymästä on vaikeaa. Verkostojen tulkinnassa onkin tärkeää, että analysoinnin yhteydessä dataa voidaan selata mm. "details on demand" -periaatteella.

Tiheiden verkostojen tulkinta on usein vaikeaa jos verkostoa ei ole mahdollista rajata tai zoomata. Gephi mahdollistaa datan rajaamisen erilaisten filtereiden avulla ja verkostoa on mahdollista zoomata. Yleiskuvan merkitys on kuitenkin tärkeä, koska sen avulla nähdään ne alueet, jotka voisivat olla kiinnostavia jatkotutkimuksen kannalta. (Kuva 2)
Kuvassa 3 nähtävän verkoston erityispiirre on kahden sisäisesti tiiviin ryhmän heikko vuorovaikutus keskenään. Jos kyseessä tässä olisi yrityksen kahden eri osaston välinen kommunikaatio olisin hyvin huolestunut yrityksen sisäisen viestinnän toimivuudesta.

Twitteriä on mahdollista käyttää hyvin monella eri tavalla. Tämän kyseisen henkilö seuraa selkeästi kahta erillistä toisistaan riippumatonta ryhmää ihmisiä, jotka voivat poiketa toisistaan esimerkiksi kiinnostuksen  tai spatiaalisesti. (Kuva 3)

Kuvan 4 verkostossa osa ryhmistä on eriytynyt omaan lokeroonsa kun taas toiset ryhmät ovat verkostoituneet keskenään.

Tämän käyttäjän verkostossa tietyt ryhmät erottuvat hyvin selkeästi omiin lokeroihinsa, mutta oikealta löytyvä klusteri on taas hyvin vahvasti verkostoitunut keskenään. (Kuva 4)
Kuten huomataan vaatii verkostoanalyysi aina rinnalleen tuntemusta visualisoitavana olevasta ilmiöstä. Pystyn tulkitsemaan omaa verkostoani melko luotettavasti, koska tunnen minkälainen ilmiö on kyseessä ja tiedän mitä verkostossa olevat solmut ovat. Tulkinnasta tulee kuitenkin heti hankalampaa kun verkostossa esiintyvät solmut ja yhteydet tai ylipäänsä verkostossa nähtävä ilmiö ei ole tuttu. Onkin väärin olettaa, että verkostoanalyysi olisi jonkinlainen Hopea Luoti, joka suoraan ratkaisisi monimutkaisia ongelmia ja vastaisi kysymyksiin. Verkostoanalyysi toimii ongelmien ratkaisun tukena ja toisaalta antaa suuntaa sille  mistä ratkaisua voisi lähteä etsimään.

Seuraavat askeleet Twitter-analyysin osalta ajattelin ottaa siihen suuntaan, että kaivan verkoston ihmisten seuraajista sen sijaan, että katson keitä ihmiset seuraavat. Uskoisin tämän näkökulman tuottavan mielenkiintoisia tuloksia kun analyysi kohdistetaan yhteiskunnallisesti tärkeisiin ihmisiin kuten poliitikkoihin.

Keep on Tweeting...

maanantai 6. helmikuuta 2012

Norjan tuliaiset

Vierailin toissa viikon maanantaina Norjassa paikallisen yleisradioyhtiön NRK:n tiloissa. Vierailua alustava postaus on luettavissa täältä. Tapasin siis Norjassa tutkivaan journalismiin keskittyvän Brennpunk-ohjelman tekijöitä ja kävimme päivän aikana läpi miten olivat hyödyntäneet dataa omassa journalismissaan. Kiinnostavaa oli mitä datalähteitä he ovat käyttäneet ja miten dataa oli hyödynnetty niin netti- kuin tv-tuotannossa.

Alkuperäinen motivaatiomme lähteä opintomatkalle kumpusi Brennpunk-ohjelman tekemästä Broderskapet-jutusta, jossa he olivat tutkineet Facebookin ja sähköpostitietojen avulla Breivik:n mahdollista lähipiiriä ja yhteyksiä äärijärjestöihin tai mm. naapurimaihin kuten Suomeen (Kuva 1). Olin itse etenkin kiinnostunut mitä teknologisia ratkaisuja he olivat käyttäneet, koska olin myös itse yrittänyt kaivaa Facebook-dataa viime aikoina onnistumatta siinä kuitenkaan erityisen tehokkaasti. Toisaalta yleisesti olin kiinnostunut kuinka journalistien ja tekniikka-ihmisten välinen kommunikaatio oli saatu toimimaan ja miten tämä vuoropuhelu käytännössä hoidettiin.

Brennpunkt on datalähteitä käyttäen mm. etsinyt äärijärjestöihin kuuluvia Norjalaisia. Lähde NRK. (Kuva 1)
Brennpunkt:ssa datajournalistinen vastuu on ollut pitkälti kahden aktiivisen toimittajan varassa. Heistä toinen oli enemmän orientoitunut tekemään teknistä toteutusta kun toisen vastuulla on ollut enemmän perinteisempi journalistinen työ, johon on kuulunut mm. datan hankkiminen eri fyysisistä lähteistä. Lisäksi  ohjelmalla on toki muitakin tekijöitä, mutta datajournalisminen taustatyö on pääasiassa ollut näiden kahden ihmisen käsissä. Heillä oli kuitenkin tavoitteena kasvattaa erityisesti datajournalismiin keskittyvän osaston kokoa lähiaikoina ja suunnitelmat tähän olivat jo olemassa.

Brennpunk on siis tehnyt Norjassa useita juttuja erilaisiin datasisältöihin liittyen. Mukana on juttuja joissa data on hankittu perinteisempiä keinoja käyttäen ja juttuja joissa data on enemmän tai vähemmän automaattisesti ryömitty Internetistä. Oli mielestäni avartavaa tajuta, että datajournalismia on mahdollista tehdä myös niin, että aineisto kerätään ns. perinteisin keinoin. Käsitteenä datajournalismin ei tarvitse tarkoittaa, että kaikki työ tulee olla tehtävissä päätteellä istuen, kuten sen ehkä helposti näin teknistaustainen henkilö kuten minä ymmärtää.

Eräässä jutussa he olivat keränneet dataa museovirastosta, rakennusvirastosta ja palokunnan hälytystehtävistä. Näitä datakokoelmia yhdistelemällä he olivat pyrkineet selvittämään onko museoviraston suojelemien kohteiden tulipaloilla ja rakennusvirastoon tehtyjen purkuhakemusten välillä jonkinlaista ajallista korrelaatiota. He tutkivat oliko purkuhakemusta tekevällä taholla selkeää eturistiriitaa siitä, että kyseinen kohde tuhoutui ja voitiinko siten epäillä, että tulipaloa olisi mahdollisesti jollain tavalla edesautettu (Kuva 2).

Dataa voidaan kerätä hyvin erilaisista lähteistä ja eri lähteiden innovatiivinen yhdistely voi tuottaa mielenkiintoisia tuloksia. (Kuva 2)
Kun Brennpunkt oli tutkinut Breivikin mahdollisia yhteyksiä heillä oli ollut käytettävissään lista sähköpostiosoitteista, joihin Breivik oli lähettänyt manifestinsa. Tältä sähköpostilistalta löytyi siis mm. Perussuomalaisten poliitikko Jussi-Halla Aho, mutta myös muita suomalaisia poliitikkoja. He olivat verranneet näitä sähköpostiosoitteita Facebook:sta löytyviin profiileihin ja ryömineet näiden profiilien julkiset kaverilistat omaan tietokantaansa. Toteutuksellisesti Facebook-ryömintä oli tehty "screenscraping"-periaatteella yksittäinen profiili kerrallaan. Lisäksi he olivat samalla tavalla ryömineet myös erilaisten äärijärjestöjen Facebook-sivujen tykkääjälistaukset. Nämä datajoukot he olivat visualisoineet verkostona CrimeLink-nimisellä ohjelmistolla (Kuva 3). He olivat myös rakentaneet erilaisia automaattihakuja, joiden avulla pystyttiin selvittämään nopeasti yksittäisten ihmisten osallisuus kerätyssä datassa.

CrimeLink on rikollisten verkostojen visualisointiin keskittynyt kaupallinen sovellus.  Lähde CrimeLink. (Kuva 3)
Isäntämme kertoivat myös avoimesti erilaisista haasteista, joita he olivat kohdanneet. Ongelmia olivat aiheuttaneet mm. datan eheyteen liittyvät ongelmat sekä miten eri ammattilaiset oli aluksi vaikea saada keskustelemaan keskenään. Journalistit tai insinöörit eivät siten poikkea muista ammattiryhmistä, että heidät on vaikea saada kiinnostumaan aihealueista, jotka eivät ole heidän osaamisensa keskiössä.

Yhteenvetona matka oli erittäin onnistunut ja sain kerättyä paljon perspektiiviä siihen mitä muualla näiden asioiden parissa tehdään. Oli myös itseni puolesta huojentavaa huomata, että teknisestä näkökulmasta ei naapurimaassa olla niin paljon edellä kuin mitä sisällöt ensin antavat ymmärtää.