perjantai 27. tammikuuta 2012

MediaWiki tietosisällön visualisointi, Osa 1: Gephi

Tämä viesti ei sinällään käsittele sosiaalisen verkostojen analyysiä tai datajournalismia, jotka pyrin pitämään tämän blogin pääaiheina. Kuitenkin tekniikat ja välineet, joita hyödynnetään ovat samoja ja tässä esimerkissä datan rakenne on vastaavanlainen kuin usein SNA:n tapauksessa.
</spoiler>

Wiki on käsite tietosisällölle, joka on kaikkien lukijoittensa muokattavissa. Wikille on myös tunnusomaista, että kaikki tallennetut versiot tiedosta säilytetään. Tunnetuin yksittäinen wiki on varmasti Wikipedia, mutta erilaisia wikejä ja wiki-alustoja löytyy useita. Useilla yrityksillä on sisäisiä Wikejä kuten myös monilla yhdistyksillä ja muilla organisaatioilla. Tunnettuja Wiki-alustoja ovat mm. Confluence, MediaWiki ja esimerkiksi FosWiki.

Wikien suurin rikkaus on, että tieto on yhteisön hallittavissa. Tämä hajauttaa tiedon ylläpitämisen vastuun ylläpito-organisaatiolta, mutta ominaisuus tuo myös haasteita. Tieto rämettyy helposti ja tiedon löytäminen on laajoissa wiki-ympäristöissä vaikeaa kun tietoa ei hallinnoida keskitetysti. Usein on myös vaikeaa hahmottaa mitä tietoa esimerkiksi yrityksen sisäisestä wikistä löytyy. Tiedon löytymistä tukisi jos Wikien luokittelu- ja hierarkia-toimintoja käytettäisiin tehokkaasti ja ne tuotaisiin selkeästi käyttjien esille. Usein kuitenkin tiedon rakenteen tuottaminen on tavalliselle käyttäjälle liian haastavaa.

Tämä hyvin laveana ja yleisenä kuvauksena wikeistä. Tarkoitukseni oli antaa oikeutus seuraavalle esimerkilleni siitä miksi wikien rämettyneisyyttä kannattaa kuvata ja miten siitä voitaisiin mahdollisesti päästä eroon.



Olen ylläpitänyt itselläni henkilökohtaista, mutta avointa MediaWiki-alustaa muutaman vuoden ajan. Sivuja ympäristössä on vain alle 30. Kuitenkin huomaan, että osa tiedosta hukkuu Wikin uumeniin mm. koska tietoa ei ole linkitetty mihinkään muuhun olemassa olevaan tietoon. Henkilökohtaisen MediaWiki-asennukseni lisäksi minulla oli mahdollisuus kokeilla samoja periaatteita erään organisaation laajemmassa ympäristössä.

MediaWiki:ssä tiedon ryhmittely tehdään pääasiassa luokkien avulla. Yksittäiselle MediaWiki-sivulle on mahdollista määritellä rajoittamaton määrä luokkia, joihin sivu kuuluu. Yksittäisen luokan sivulta on nähtävissä mitkä sivut kuuluvat tähän luokkaan. Hierarkiasta on mahdollista tehdä myös syvempi liittämällä luokkia toisiin luokkiin.

Toteutin MediaWikin tietosisällöistä verkostovisualisoinnin käyttäen aiemmasta blogimerkinnästä tuttua Gource:a sekä Gephi:ä. Esittelen tässä kirjoituksessa Gephi:llä tekemäni tuotokset, koska Gource:a käsittelin jo aiemmin ja molempien läpikäynti olisi turhan raskasta. Käyn Gource:lla toteutetut versiot läpi myöhemmin.

Gephi on verkostoanalyysiin erikoistunut avoimeen lähdekoodiin perustuva työkalu, jolla on mahdollista visualisoida dataa, jolla on verkostorakenne. Gephi sisältää monipuoliset ladonta-algoritmit ja sen avulla on mahdollista laskea mm. laskea tunnuslukuja ja tehdä datan refaktorointia. Gephi lukee useita tiedostoformaatteja ja tuettuihin formaatteihin kuuluu mm. XML-pohjainen GEXF-tiedostoformaatti.

GEXF:llä on mahdollista kuvata monipuolisesti erilaisia verkostoja ja dataan on mahdollista vapaasti liittää haluamiaan attribuutteja. Yksinkertaisimmillaan GEXF käsittää <nodes>-elementin, joka kuvaa datassa olevat solmut sekä <edges>-elementin, joka kuvaa solmujen väliset yhteydet. Solmut ja yhteydet yksilöidään ID-arvojen avulla, jotka useimmitten omissa esimerkeissäni ovat olleet koneellisesti tuotettuja surrogaatti-avaimia.

Datan keräsin räätälöidyn SQL-kyselyn avulla suoraan MediaWikin MySQL-tietokannasta, jonka jälkeen tulostin datan PHP-scriptillä GEXF-muotoon, joka on siis suoraan mahdollista avata Gephi:llä. Vaihtoehtoisesti data oltaisiin voitu ryömiä asiakaspäässä, mutta koska tässä tapauksessa minulla oli suora pääsy tietokantaan tähän ei ollut tarvetta ryhtyä. Asiakaspään ryömintä olisi kuitenkin pakollista mikäli haluttaisiin tutkia sellaisia wiki-palveluja, joiden backendiin ei olisi pääsyä (tämä tilanne on varmasti normi kun puhutaan datajournalismista).

Mikäli haluat tutustua Gephi:n käyttöön laajemmin suosittelen katsomaan läpi esimerkiksi Olli Parviaisen tekemät kalvot aiheesta. SlideShare-palvelusta löytyy myös monia muita hyviä presentaatioita asiaan liittyen. En myöskään halua mennä liikaa yksityiskohtiin PHP:n tai SQL:n osalta, koska näen ne epäolennaisena, mutta jos haluat tietää näistä enemmän kerron kyllä mielelläni.

Kuvassa 1 nähdään MediaWiki-alustani nykytilanne visualisoituna Gephi:llä. Kuten sanottua wiki ei ole sivujen määrässä mitattuna suuri, mutta data soveltuu hyvin yksinkertaisuutensa vuoksi hyvin esimerkikiksi. Visualisoinnissa suurempi solmun koko kuvaa solmun astesummaa eli solmusta lähtevien yhteyksien määrää. Siniset solmut ovat wiki-sivuja ja punaiset solmut esittävät luokkia. Yhteydet luodaan sivujen ja luokkien välillä sillä perusteella, että sivu on merkitty kuuluvaksi luokkaan.

Esimerkkivisualisointi Gephi:llä MediaWiki:ni sivuista ja luokista. Tässä MediaWiki-ympäristössä ei ole hyödynnetty luokkien luokittelua, mutta suurin osa sivuista on liitetty vähintään yhteen luokkaan. Luokkien ja sivujen nimet on riisuttu yksityisyys syistä. (Kuva 1)
Visualisoinnista (Kuva 1) nähdään miten wikissä on selkeitä toisistaan riippumattomia aihealuekokonaisuuksia ja että suurin osa sivuista kuuluu (nykyään) ainakin yhteen luokkaan. Valitettavasti lähtötilanteesta, jossa suurempi osa sivuista oli "orpoja" minulle ei ole tallessa kuvankaappausta. Aikaisemmin kuitenkaan suuri osa sivuista ei kuulunut mihinkään luokkaan, jolloin (kuten edellä mainitsin) data katosi wikin uumeniin.

Verkostovisualisoinnin avulla pystyin osoittamaan helposti mitkä sivut olivat "luokattomia" ja käymään ne läpi lisäten niille, jonkin olemassa olevan luokan. Visualisoinnin avulla pystyin myös näkemään mahdollisia uusia luokkia. Lisäksi kun on mahdollista nähdä sivujen väliset yhteydet luokkien kautta voidaan havaita esimerkiksi, että miten tietyistä sivuista selkeästi puuttuu sille kuuluva luokka.

Minulla oli myös mahdollisuus käyttää erään laajemman wiki-ympäristön dataa suoraan tietokannasta. Tässä järjestelmässä wiki-sivuja ja luokkia oli huomattavasti enemmän kuin omassa ympäristössäni. Käytin datan keräämiseen ja käsittelyyn samoja menetelmiä kuin aiemmin, mutta Gephi:ssä käytin hieman eri piirtokäytäntöjä (Kuva 2).
Laajemmat Wiki-ympäristöt tuottavat haasteita visualisoinnin luettavuudelle ja hahmotettavuudelle. Tässä väreillä ja solmun koolla on molemmilla kuvattu solmun astesummaa. Yksittäiset sivut on piirretty siten keltaisella ja tumman sininen kuvaa suosituimpia luokkia. Solmut ovat painovoimaohjattuja. Sivujen ja luokkien nimet on poistettu yksityisyys syistä. (Kuva 2)
Kuvasta 2 nähdään miten laajemman wiki-ympäristön visualisoinnin havainnointi ja käsittely on huomattavasti vaikeampaa kuin aikaisemman suppeamman ympäristön (Kuva 1). Mielenkiintoista on kuitenkin huomata miten tässäkin ympäristössä havaitaan selkeitä aihekokonaisuuksia, jotka eivät linkity luokkien kautta muuhun sisältöön vaan ovat "eristäytyneitä" kokonaisuuksia.

Kiinnostava jatkotukimuksen aihe olisi katsoa linkittyykö tieto paremmin muissa wiki-alustoissa, joissa tiedon luokitteluun käytetään muita mahdollisesti monipuolisempia tapoja, mutta tämä tästä tällä kertaa. Jatkoa seuraa asian tiimoilta myöhemmin Gource-visualisointien osalta.

Ei kommentteja:

Lähetä kommentti