månadsarkiv: november 2012

Forskning på den sociala webben

Kim Holmberg“When you can measure what you are talking about
and express it in numbers, you know something about it”.
Lord Kelvin, 1824-1907

I ett tidigare inlägg här i forskarbloggen berättade jag att jag nu jobbar som post doc forskare vid University of Wolverhampton (Go Wolves!). Jag jobbar i ett projekt där vi analyserar den vetenskapliga komunikationen på Twitter och bl.a. kartlägger informationens spridning över nätverk. Metoderna som vi använder kan enkelt används för andra ändamål också och av en del av dessa tänkte jag lite skriva om nu.

Den sociala webben är en enorm informationskälla där man relativt enkelt kan samla in mänskors åsikter, tankar och diskussioner. I princip kan man samla allt vad mänskorna skriver på webben. Det finns speciellt för akademiskt ändamål designade web crawlers som kan under en viss tid samla inlägg från givna rss flöden från t.ex. bloggar eller olika diskussionsforum. Twitters api tillåter att man kan begränsat samla in meddelanden som mänskorna skriver där. Twitter har faktiskt blivit en guldgruva för forskning, både marknadsforskning men även forskning om vetenskaplig kommunikation, informationens spridning, mänskors åsikter om olika saker, osv. osv. Man använda Twitter meddelanden för att analysera vad mänskorna tycker om olika produkter, brand, vetenskapliga artiklar, upptäckter, forskning, etc. Om man inte har tillgång till verktyg som samlar in meddelanden från t.ex. Twitter så kan man också köpa meddelanden. Till exempel företaget Gnip är en mellanhand som säljer material från Twitter och många andra sociala medier. Hälften av alla meddelanden under ett års tid från Twitter får man köpa för ett sexsiffrigt tal, och det är också massor med företag som köper (eller samlar själv) materialet för att undersöka vad mänskorna skriver om dem och deras konkurrenter.

I slutet av 2011 skickades ca 250 miljoner meddelanden på Twitter varje dag, så om man samlar ens en bråkdel av detta (vilket man är tvungen till eftersom Twitter begränsar antalet meddelanden som man genom deras api kan samla in) så behöver man a) program som klarar av att hantera denna s.k. big data, och b) datorer som klarar av att utföra de nödvändiga operationerna inom rimlig tid. Att indexera några hundratusen meddelanden kan med en ”normal” bordsdator ta en dag eller två, så med moderna tablet datorer och notebooks kan man helt glömma bort.

Vad kan man sedan göra med all denna data man samlat in? För det första måste man komma ihåg att så gott som allt material som man samlar in på webben innehåller en massa skräp. Om man t.ex. samlar in meddelanden som nämner Apple för att analysera Apples (företagets) synlighet på webben så får man garanterat även meddelanden som handlar om äppelpaj (apple pie). Så utmaningen är att få fram det som är värdefullt, få fram signalerna som indikerar något intressant, från den enorma mängden av meddelanden.

För det aktuella projektet har jag hittills samlat in över en miljon meddelanden från Twitter. Genom att under ett par månaders tid samla in meddelanden som innehållit vissa ämnes- och forskningspsecifika termer samt meddelanden som forskare inom vissa ämnen skrivit, har vi nu en mängd meddelanden som borde innehålla vetenskaplig kommunikation. Men som en snabb analys visar så innehåller materialet även en hel del s.k. false positives, dvs positiva träffar men som inte sen heller innehåller det man varit ute efter att samla. Det kan vara t.ex. ord eller förkortningar som använts i olika meningar eller på olika språk.

Ett sätt att hitta det mest intressanta från en mängd meddelanden är att mäta ordfrekvenser. Ett enkelt sätt är att kopiera texterna eller rss flödet in i Wordle, som ger ett ”ordmoln” med ordfrekvenserna. Man kunde t.ex. direkt mata in flödet från en viss blogg eller spalt i ett diskussionsforum och få en översikt om vad diskuteras. Ett annat sätt att analysera data är att göra tidsserier. Man mäter då frekvenserna som vissa ord använts under en viss tid för att se om det hänt något överraskande som plötsligt fått mänskorna att diskutera och kommentera ämnet i fråga. Drömmen för en forskare (och säkert även journalister) skulle ju vara att upptäck en motsvarande frekvensökning i diskussionerna före ämnet som diskuteras hunnit bli en nyhet i traditionell media. Med andra ord att hitta nyheterna före det blir nyheter. Från ordfrekvenserna kan man alltså se de mest använda orden, som man sedan kan använda för tidsserier för att se när dessa ord använts. Man kan då också plocka ut de meddelanden där ordet i fråga har använts för att göra ytterligare innehållsanalys på materialet.

För bilderna nedan har jag använt ca 60 000 meddelanden som forskare inom ’astrophysics’ har skrivit under ett par månaders tid. Jag använder denna data för att lite demonstrera vad som är möjligt att göra. I bilden nedan kan man se en lista på alla meddelanden i den data som jag nyligen samlat som innehåller ordet *mars*. Man kan också se hur mars kan handla om planeten mars eller om mars choklad. I nedre delen av bilden ser man hur begreppet *dark matter* har använts i Twitter meddelanden. Man kan tydligt se att mot slutet av data insamlingsperioden har det hänt något som fått mänskorna att tweeta mera om dark matter. Det har hänt något som ökat mänskornas intresse för detta. Men från denna bild vet vi då inte ännu om mänskorna är rädda eller oroliga för forskning om dark matter eller positivt inställda till nya upptäckter vid CERN. För att kunna säga något om det måste man kvalitativt analysera materialet. De tidiga topparna i datan är antagligen s.k. false positive, eventuellt spam. Nogrannare analys visar säkert om detta är fallet.

En annan sak som kan vara intressant att analysera är hur informationen spridits och via vem det spridits. T.ex. i forskning om marknadsföring kan det vara intressant att hitta personer som befinner sig i sådan position i sina sociala nätverk att de kan påverka en massa andra personer. Bilden nedan visar hur meddelanden som astrofysikerna skrivit spridit sig i deras sociala nätverk, med riktningen för meddelanden utsatt.

Nedan samma data med en annan visualisering, som jag personligen anser ge mera information. Grafen nedan är gjord med Pajek och Kamada-Kawai algoritm. Kamada-Kawai betraktar alla länkar som om de vore fjädrar mellan noderna (forskarna i det här fallet) som drar noderna närmare varandra tills det hittas balans mellan alla krafterna i nätverket.

Man kan t.ex. se att Twitter användarna PlutoKiller, BadAstronomer och neiltyson är i såna positioner där de har inflytande på många andra personer, många andra som följer med vad de skriver. De har också en del inlänkar till sig, det vill säga personer som de följer, vilket gör att de också är i positioner där de har tillgång till ny information och nya idéer. Men från den första bilden kan vi se att åtminstone ett av meddelanden som neiltyson skickat handlade om Mars choklad, vilket väcker vissa misstankar. Närmare innehållsanalys krävs alltså.

Det ska bli spännande att dyka djupare in i de ca 1 miljon Twitter meddelanden som vi har samlat hittills. Vem vet vad som döljer sig i data mängden.

Detta var mitt sista blogginlägg på ÅAs forskarblogg. I fortsättningen kan du följa med mina inlägg på http://kimholmberg.fi/. Inläggen där publiceras oregelbundet och sällan 🙂

Vi förtjänar bättre

Åsa BengtssonHar ni noterat månadens politiska tal? Nej, det levererades varken under den finländska kommunalvalskampanjen eller i samband med det gigantiska amerikanska presidentspektaklet. I det senare fallet är professionaliteten i och för sig påfallande och många välkomponerade tal presenteras. Men frågan är om det hela inte är lite för slipat och tillrättalagt för att kännas äkta.

I fallet Finland är situationen en annan. Här tycks det snare som om våra politiker aldrig riktigt lär sig av sina misstag. Någon tradition av stora politiska tal finns mig veterligen inte och nivån på debatten är många gånger bedrövligt låg. Om politik skall engagera måste det handla om något annat än abstrakta förvaltningsmodeller med besvärliga förkortningar. Politikernas uppgift är att tänka övergripande men föra ut sitt budskap på ett sätt som berör och intresserar, gärna presenterat i människonära termer. När man inte lyckas väljer folk att lägga sin tid på saker som känns viktigare.

I samma veva som finländska politiker återigen gick bet på denna pedagogiskt krävande uppgift tog istället Australiens premiärminister Julia Gillard hem full pott. Gillard som är Australiens första kvinna på posten har beskrivits som en ganska färglös kompromisskandidat. Fram till nyligen vill säga. För genom ett 15 minuter långt brandtal i parlamentet har hon lyckats åstadkomma en radikal vändning i sitt svaga opinionsläge och göra ett ordentligt avtryck på världskartan. Talet finns att beskådas på Youtube och har under den senaste dryga månaden visats över 2 miljoner gånger.

Ironiskt nog var upprinnelsen till talet en SMS-skandal i parlamentet där en högt uppsatt politiker (manlig sådan) hade skickat sexistiska SMS. Ledaren för oppositionspartiet Tony Abbott var naturligtvis inte sen med att uttrycka sin upprördhet och kräva åtgärder från regeringens sida. Låter det hela möjligtvis bekant?

Istället för att gå i försvarsposition valde Gillard att ta tillfället i akt och få utlopp för flera års uppdämd frustration över oppositionsledarens eget beteende och uttalanden som hon i sitt tal beskrev som sexistiska och allmänt kvinnofientliga. Och hon gjorde det inte genom att diskutera i abstrakta termer, utan lyckades med konststycket att via konkreta exempel på uttalanden demonstrera en kvinnobild som inte hör hemma i ett modernt samhälle. Citat av typen ”tänk om kvinnor helt enkelt är mindre lämpade för ledande positioner än män” är förövrigt en riktig klassiker på området.

Sorgligt nog blir man inte speciellt överraskad. För säg den kvinna som satsar på en karriär i en mansdominerad bransch som inte har hört samma gamla visa. Till mina personliga favoriter hör ”kvinnor skall inte syssla med vetenskap eftersom de inte kan tänka systematiskt”, men fler lyskraftiga exempel kan plockas fram vid behov. Kommentarer av den här typen bemöts vanligtvis bäst genom en gäspning, ignorering eller möjligtvis ett rått skämt. För det säger ju mer om personen som yttrar dem än något annat.

Vad Julia Gillard demonstrerar med sitt tal är att politiken mycket väl kan engagera och intressera – 2 miljoner visningar talar sitt tydliga språk. Men det kräver skicklighet, engagemang och pedagogik. Det senare har gång på gång visat sig vara bristvara i finländsk politik. Samtidigt är det lätt att instämma i de ord som Gillard väljer att avsluta sitt tal med. ”Vi förtjänar bättre”. Det gäller faktiskt på flera plan.

Vem behövs, vad behövs vid Universitetet?

Tapio SalmiFesttalet klingar och orkestern spelar:
Alla behövs! Absolut.
Der Alltag ist grau,
skrev Günther Wallraff.
Kontrollern kontrollerar,
har Du åkt för mycket taxi,
har Du supit för mycket
under konferensens gång.
(Du kom från Krakow
men hamnade till Auschwitz – fel tåg)
Någon var intresserad av Ditt föredrag:
han var utlänning.

Rondo, presto, allegro,
rullar räkningar
och begripliga och obegripliga dokument.
Det viktigaste: Reportronic fylls i och Certia går på vinst.
Närstödet blir utbränt.
En dag brinner alla papper.
Men lyckligtvis:
fotokopian finns kvar i forskarens vrå,
cellulosa sönderfaller i dagsljus;
kemisten räddar dokumentet.
Bibliotekarien gråter: pengarna tar slut;
skall vi sluta med Science Direct,
skall vi sluta med SciFinder,
skall vi sluta med Chemical Abstracts?
Kemi i vakuum – ett nytt experiment.
Glasblåsaren stänger sin verkstad.
Sista bubblan glöder i morgonens ljus.
Maskinen stannar, dörren stängs.

Vad behövs, vem behövs vid Universitetet?

Tyska – Jawohl,  oder vielleicht nicht – wir überlegen und überlegen…
Suomea, kyllä kiitos – tai: – ei saatana!
Professor i ryska – njet njet, ta en akademilektor,
kanske skriver hon underjordiska berättelser
i en källarhåla.
Franska språket och litteratur – bien sur, mais il faut couper les coûts…
(Vin coupé  skulle smaka bättre)
Lektor i polska: nej, absolut inte, det räcker till att man vet:
vem var Marie Sklodowska-Curie,
vem var Wislava Szymborska?
En tvärvetenskaplig snabbkurs:
från bildning till utbildning.
Humboldt ist tot – lebe Humboldt!

Tapio Salmi, akademiprofessor