perjantai 27. tammikuuta 2012

MediaWiki tietosisällön visualisointi, Osa 1: Gephi

Tämä viesti ei sinällään käsittele sosiaalisen verkostojen analyysiä tai datajournalismia, jotka pyrin pitämään tämän blogin pääaiheina. Kuitenkin tekniikat ja välineet, joita hyödynnetään ovat samoja ja tässä esimerkissä datan rakenne on vastaavanlainen kuin usein SNA:n tapauksessa.
</spoiler>

Wiki on käsite tietosisällölle, joka on kaikkien lukijoittensa muokattavissa. Wikille on myös tunnusomaista, että kaikki tallennetut versiot tiedosta säilytetään. Tunnetuin yksittäinen wiki on varmasti Wikipedia, mutta erilaisia wikejä ja wiki-alustoja löytyy useita. Useilla yrityksillä on sisäisiä Wikejä kuten myös monilla yhdistyksillä ja muilla organisaatioilla. Tunnettuja Wiki-alustoja ovat mm. Confluence, MediaWiki ja esimerkiksi FosWiki.

Wikien suurin rikkaus on, että tieto on yhteisön hallittavissa. Tämä hajauttaa tiedon ylläpitämisen vastuun ylläpito-organisaatiolta, mutta ominaisuus tuo myös haasteita. Tieto rämettyy helposti ja tiedon löytäminen on laajoissa wiki-ympäristöissä vaikeaa kun tietoa ei hallinnoida keskitetysti. Usein on myös vaikeaa hahmottaa mitä tietoa esimerkiksi yrityksen sisäisestä wikistä löytyy. Tiedon löytymistä tukisi jos Wikien luokittelu- ja hierarkia-toimintoja käytettäisiin tehokkaasti ja ne tuotaisiin selkeästi käyttjien esille. Usein kuitenkin tiedon rakenteen tuottaminen on tavalliselle käyttäjälle liian haastavaa.

Tämä hyvin laveana ja yleisenä kuvauksena wikeistä. Tarkoitukseni oli antaa oikeutus seuraavalle esimerkilleni siitä miksi wikien rämettyneisyyttä kannattaa kuvata ja miten siitä voitaisiin mahdollisesti päästä eroon.



Olen ylläpitänyt itselläni henkilökohtaista, mutta avointa MediaWiki-alustaa muutaman vuoden ajan. Sivuja ympäristössä on vain alle 30. Kuitenkin huomaan, että osa tiedosta hukkuu Wikin uumeniin mm. koska tietoa ei ole linkitetty mihinkään muuhun olemassa olevaan tietoon. Henkilökohtaisen MediaWiki-asennukseni lisäksi minulla oli mahdollisuus kokeilla samoja periaatteita erään organisaation laajemmassa ympäristössä.

MediaWiki:ssä tiedon ryhmittely tehdään pääasiassa luokkien avulla. Yksittäiselle MediaWiki-sivulle on mahdollista määritellä rajoittamaton määrä luokkia, joihin sivu kuuluu. Yksittäisen luokan sivulta on nähtävissä mitkä sivut kuuluvat tähän luokkaan. Hierarkiasta on mahdollista tehdä myös syvempi liittämällä luokkia toisiin luokkiin.

Toteutin MediaWikin tietosisällöistä verkostovisualisoinnin käyttäen aiemmasta blogimerkinnästä tuttua Gource:a sekä Gephi:ä. Esittelen tässä kirjoituksessa Gephi:llä tekemäni tuotokset, koska Gource:a käsittelin jo aiemmin ja molempien läpikäynti olisi turhan raskasta. Käyn Gource:lla toteutetut versiot läpi myöhemmin.

Gephi on verkostoanalyysiin erikoistunut avoimeen lähdekoodiin perustuva työkalu, jolla on mahdollista visualisoida dataa, jolla on verkostorakenne. Gephi sisältää monipuoliset ladonta-algoritmit ja sen avulla on mahdollista laskea mm. laskea tunnuslukuja ja tehdä datan refaktorointia. Gephi lukee useita tiedostoformaatteja ja tuettuihin formaatteihin kuuluu mm. XML-pohjainen GEXF-tiedostoformaatti.

GEXF:llä on mahdollista kuvata monipuolisesti erilaisia verkostoja ja dataan on mahdollista vapaasti liittää haluamiaan attribuutteja. Yksinkertaisimmillaan GEXF käsittää <nodes>-elementin, joka kuvaa datassa olevat solmut sekä <edges>-elementin, joka kuvaa solmujen väliset yhteydet. Solmut ja yhteydet yksilöidään ID-arvojen avulla, jotka useimmitten omissa esimerkeissäni ovat olleet koneellisesti tuotettuja surrogaatti-avaimia.

Datan keräsin räätälöidyn SQL-kyselyn avulla suoraan MediaWikin MySQL-tietokannasta, jonka jälkeen tulostin datan PHP-scriptillä GEXF-muotoon, joka on siis suoraan mahdollista avata Gephi:llä. Vaihtoehtoisesti data oltaisiin voitu ryömiä asiakaspäässä, mutta koska tässä tapauksessa minulla oli suora pääsy tietokantaan tähän ei ollut tarvetta ryhtyä. Asiakaspään ryömintä olisi kuitenkin pakollista mikäli haluttaisiin tutkia sellaisia wiki-palveluja, joiden backendiin ei olisi pääsyä (tämä tilanne on varmasti normi kun puhutaan datajournalismista).

Mikäli haluat tutustua Gephi:n käyttöön laajemmin suosittelen katsomaan läpi esimerkiksi Olli Parviaisen tekemät kalvot aiheesta. SlideShare-palvelusta löytyy myös monia muita hyviä presentaatioita asiaan liittyen. En myöskään halua mennä liikaa yksityiskohtiin PHP:n tai SQL:n osalta, koska näen ne epäolennaisena, mutta jos haluat tietää näistä enemmän kerron kyllä mielelläni.

Kuvassa 1 nähdään MediaWiki-alustani nykytilanne visualisoituna Gephi:llä. Kuten sanottua wiki ei ole sivujen määrässä mitattuna suuri, mutta data soveltuu hyvin yksinkertaisuutensa vuoksi hyvin esimerkikiksi. Visualisoinnissa suurempi solmun koko kuvaa solmun astesummaa eli solmusta lähtevien yhteyksien määrää. Siniset solmut ovat wiki-sivuja ja punaiset solmut esittävät luokkia. Yhteydet luodaan sivujen ja luokkien välillä sillä perusteella, että sivu on merkitty kuuluvaksi luokkaan.

Esimerkkivisualisointi Gephi:llä MediaWiki:ni sivuista ja luokista. Tässä MediaWiki-ympäristössä ei ole hyödynnetty luokkien luokittelua, mutta suurin osa sivuista on liitetty vähintään yhteen luokkaan. Luokkien ja sivujen nimet on riisuttu yksityisyys syistä. (Kuva 1)
Visualisoinnista (Kuva 1) nähdään miten wikissä on selkeitä toisistaan riippumattomia aihealuekokonaisuuksia ja että suurin osa sivuista kuuluu (nykyään) ainakin yhteen luokkaan. Valitettavasti lähtötilanteesta, jossa suurempi osa sivuista oli "orpoja" minulle ei ole tallessa kuvankaappausta. Aikaisemmin kuitenkaan suuri osa sivuista ei kuulunut mihinkään luokkaan, jolloin (kuten edellä mainitsin) data katosi wikin uumeniin.

Verkostovisualisoinnin avulla pystyin osoittamaan helposti mitkä sivut olivat "luokattomia" ja käymään ne läpi lisäten niille, jonkin olemassa olevan luokan. Visualisoinnin avulla pystyin myös näkemään mahdollisia uusia luokkia. Lisäksi kun on mahdollista nähdä sivujen väliset yhteydet luokkien kautta voidaan havaita esimerkiksi, että miten tietyistä sivuista selkeästi puuttuu sille kuuluva luokka.

Minulla oli myös mahdollisuus käyttää erään laajemman wiki-ympäristön dataa suoraan tietokannasta. Tässä järjestelmässä wiki-sivuja ja luokkia oli huomattavasti enemmän kuin omassa ympäristössäni. Käytin datan keräämiseen ja käsittelyyn samoja menetelmiä kuin aiemmin, mutta Gephi:ssä käytin hieman eri piirtokäytäntöjä (Kuva 2).
Laajemmat Wiki-ympäristöt tuottavat haasteita visualisoinnin luettavuudelle ja hahmotettavuudelle. Tässä väreillä ja solmun koolla on molemmilla kuvattu solmun astesummaa. Yksittäiset sivut on piirretty siten keltaisella ja tumman sininen kuvaa suosituimpia luokkia. Solmut ovat painovoimaohjattuja. Sivujen ja luokkien nimet on poistettu yksityisyys syistä. (Kuva 2)
Kuvasta 2 nähdään miten laajemman wiki-ympäristön visualisoinnin havainnointi ja käsittely on huomattavasti vaikeampaa kuin aikaisemman suppeamman ympäristön (Kuva 1). Mielenkiintoista on kuitenkin huomata miten tässäkin ympäristössä havaitaan selkeitä aihekokonaisuuksia, jotka eivät linkity luokkien kautta muuhun sisältöön vaan ovat "eristäytyneitä" kokonaisuuksia.

Kiinnostava jatkotukimuksen aihe olisi katsoa linkittyykö tieto paremmin muissa wiki-alustoissa, joissa tiedon luokitteluun käytetään muita mahdollisesti monipuolisempia tapoja, mutta tämä tästä tällä kertaa. Jatkoa seuraa asian tiimoilta myöhemmin Gource-visualisointien osalta.

perjantai 20. tammikuuta 2012

Brennpunkt ja tapaus Breivik datajournalismin näkökulmasta

Norjan yleisradioyhtiön tutkivan journalismin ohjelma Brennpunkt (vrt. MOT) on tuottanut datajournalismin keinoja hyväksikäyttäen jutun Anders Breivikin yhteyksistä muihin radikaaleja ajatuksia omiiviin toimijoihin. Breivik nousi viime kesänä maailman tietoisuuteen Norjan terrori-iskujen yhteydessä, jotka hän toteutti Oslossa ja Utøyan saarella.

Breivik oli kuitenkin aktiivinen toimija radikaaleja ajatuksia omaavien piirien keskuudessa jo tätä aiemmin. Hän välitti mm. manifestiaan Internetissä ja yhteyksiä on käsittääkseni löydetty esimerkiksi Suomen Sisuun (Kuva 1). Ohjelman teossa on hyödynnetty erilaisia datajournalismin keinoja ja aineistona on käytetty mm. Breivikin lähettämiä sähköposteja sekä Facebook:sta ryömittyä tietoa koskien henkilöitä ja sivuja, joissa Breivik on toiminut. Jutun ympärille on myös luotu nettiin sisältöä kuten Broderskapet-sivusto, jossa on mahdollista mm. selata "veljeskuntaan" kuuluvia henkilöitä.

Verkostovisualisointien avulla on mahdollista löytää yhteyksiä toimijoiden välillä, jotka muuten jäisivät huomaamatta. Lähde NRK/YLE. (Kuva 1)
Olen matkaamassa tulevana maanantaina (23.1.) FST:n SpotLight-ohjelman tuotantotiimin kanssa Osloon NRK:n tiloihin tapaamaan ohjelman tekijöitä. Tarkoitus on muodostaa keskusteluyhteys heidän kanssaan ja ammentaa oppia kokemuksista sekä jos vain mahdollista tarjota heille jotain siitä mitä me teemme täällä Suomessa.

Erityisen kiinnostavaa on päästä keskustelemaan miten he ovat hyödyntäneet normaalien journalististen käytäntöjen mukaisesti kerättyä tietoa yhteen datajournalismin keinojen kanssa. Kiinnostavaa on myös miten datajournalismin avulla kerätty tieto ja siitä ammennettu informaatio on puettu TV-ohjelmalle ja journalismille yleensäkin vaadittavaan tarinan muotoon, joka on kuluttajalle ymmärrettävä. On hyvin tavallista, että ihmiset, jotka osaavat kaivaa tietoa esille eivät ole esimerkiksi journalistisesti riittävän osaavia, vaan jotta kerätty tieto näyttäytyy katsojalle kiinnostavana vaaditaan eri osaajien yhteistyötä. Edellä kuvattu on ilmeistä, mutta vakiintuneita käytäntöjä tämän toteutumiseen ei ole olemassa tai ainakaan niitä ei osata hyödyntää.

Odotan matkalta todella paljon. Esimerkiksi kiinnostavia keskusteluja ja ajatusten vaihtoa siitä missä kulkee raja datan visualisoinnin, datajournalismin, journalismin ja toisaalta sen välillä mikä on kuluttajalle lopulta mielenkiintoista. Tarinan kerronta, verkostovisualisoinnit ja datajournalismi; matkassa yhdistyvät monet kiinnostavat ja erittäin ajankohtaiset asiat, jotka tulevat mielestäni olemaan tulevaisuudessa enenevässä määrin arkipäivää journalistisessä työssä.

Pyrin raportoimaan matkan tapahtumista ja annista myöhemmin tässä blogissa.

Ps. Mikäli olet kiinnostunut datajournalismista katso Tampereen teknillisen yliopiston järjestämä opintojakso Datajournalismi 2012 tai Otavan Opiston järjestämä kurssi Datajournalismin verkkokurssi).
Ps2. Kiitos YLE:lle ja asiaankuuluville henkilöille tästä mahdollisuudesta!

maanantai 2. tammikuuta 2012

Gource:n asentaminen: OS X Lion


Hyödynsin edellisessä viestissäni visualisointikomponenttia nimeltä Gource. Olen aikaisemmin käyttänyt Gource:a Windows-ympäristössä, jossa sen käyttöönottaminen on triviaalia, koska Gource tarjotaan .exe-tiedostona, jota voidaan käyttää ajamalla sille parametreja komentoriviltä.

OS X:llä Gource:n käyttöönottaminen ei ollut näin suoraviivaista, joten ajattelin, että voisi olla hyödyllistä kirjoittaa auki mitä kommervenkkeja kävin läpi saadakseni Gource:n toimimaan OS X Lionilla. Tämä ohje mukailee Matthew Hutchinson:n kirjoittamaa blogiviestiä.

1) Asenna MacPorts. .dmg-paketti on hyvä valinta jos et tiedä paremmasta. Tarvitset myös Xcode:n kuten asennusohjeissa mainitaan, joten asenna se ensin jos sinulla ei vielä ole sitä.

http://www.macports.org/install.php

2) Käytä MacPortsia asentaaksesi paketit, jotka Gource vaatii.

sudo port install pcre libsdl libsdl_image ftgl

Matthew:n blogissa mainittujen pakettien lisäksi tarvitset boost:n.

sudo port install boost

3) Asenna Git-versionhallintaohjelmisto mikäli sinulla ei sitä vielä ole asennettuna.

http://help.github.com/mac-set-up-git/

4) Kloonaa Gource:n viimeisin versio Git:stä.

git clone git://github.com/acaudwell/Gource.git Gource

5) Git:stä kloonatussa Gource:n versiossa ei ole mukana src/core-kansion tiedostoja, joten lataa Git:n .zip-paketti ja siirrä paketin src/core-kansion tiedostot Git:stä kloonattuun src/core-kansioon. Muussa tapauksessa kääntäminen hajoaa puuttuviin tiedostoriippuvuuksiin.

http://code.google.com/p/gource/downloads/list

6) Käännä Gource.

cd Gource
autoreconf -f -i
./configure && make && sudo make install


7) Aja Gource komentoriviltä. Ruudulle pitäisi ilmestyä esimerkki Gource-visualisointi.

8) Jos haluat tehdä Gource-visualisoinneista .avi-tiedostoja (esimerkiksi jotta voit ladata ne Youtubeen) asenna FFmpeg

sudo port install ffmpeg


Toivottavasti muistin oleelliset kohdat. Kaikki kommentit ja parannusehdotukset ovat tervetulleita.