Etikettarkiv: sociala medier

Forskning på den sociala webben

Kim Holmberg“When you can measure what you are talking about
and express it in numbers, you know something about it”.
Lord Kelvin, 1824-1907

I ett tidigare inlägg här i forskarbloggen berättade jag att jag nu jobbar som post doc forskare vid University of Wolverhampton (Go Wolves!). Jag jobbar i ett projekt där vi analyserar den vetenskapliga komunikationen på Twitter och bl.a. kartlägger informationens spridning över nätverk. Metoderna som vi använder kan enkelt används för andra ändamål också och av en del av dessa tänkte jag lite skriva om nu.

Den sociala webben är en enorm informationskälla där man relativt enkelt kan samla in mänskors åsikter, tankar och diskussioner. I princip kan man samla allt vad mänskorna skriver på webben. Det finns speciellt för akademiskt ändamål designade web crawlers som kan under en viss tid samla inlägg från givna rss flöden från t.ex. bloggar eller olika diskussionsforum. Twitters api tillåter att man kan begränsat samla in meddelanden som mänskorna skriver där. Twitter har faktiskt blivit en guldgruva för forskning, både marknadsforskning men även forskning om vetenskaplig kommunikation, informationens spridning, mänskors åsikter om olika saker, osv. osv. Man använda Twitter meddelanden för att analysera vad mänskorna tycker om olika produkter, brand, vetenskapliga artiklar, upptäckter, forskning, etc. Om man inte har tillgång till verktyg som samlar in meddelanden från t.ex. Twitter så kan man också köpa meddelanden. Till exempel företaget Gnip är en mellanhand som säljer material från Twitter och många andra sociala medier. Hälften av alla meddelanden under ett års tid från Twitter får man köpa för ett sexsiffrigt tal, och det är också massor med företag som köper (eller samlar själv) materialet för att undersöka vad mänskorna skriver om dem och deras konkurrenter.

I slutet av 2011 skickades ca 250 miljoner meddelanden på Twitter varje dag, så om man samlar ens en bråkdel av detta (vilket man är tvungen till eftersom Twitter begränsar antalet meddelanden som man genom deras api kan samla in) så behöver man a) program som klarar av att hantera denna s.k. big data, och b) datorer som klarar av att utföra de nödvändiga operationerna inom rimlig tid. Att indexera några hundratusen meddelanden kan med en ”normal” bordsdator ta en dag eller två, så med moderna tablet datorer och notebooks kan man helt glömma bort.

Vad kan man sedan göra med all denna data man samlat in? För det första måste man komma ihåg att så gott som allt material som man samlar in på webben innehåller en massa skräp. Om man t.ex. samlar in meddelanden som nämner Apple för att analysera Apples (företagets) synlighet på webben så får man garanterat även meddelanden som handlar om äppelpaj (apple pie). Så utmaningen är att få fram det som är värdefullt, få fram signalerna som indikerar något intressant, från den enorma mängden av meddelanden.

För det aktuella projektet har jag hittills samlat in över en miljon meddelanden från Twitter. Genom att under ett par månaders tid samla in meddelanden som innehållit vissa ämnes- och forskningspsecifika termer samt meddelanden som forskare inom vissa ämnen skrivit, har vi nu en mängd meddelanden som borde innehålla vetenskaplig kommunikation. Men som en snabb analys visar så innehåller materialet även en hel del s.k. false positives, dvs positiva träffar men som inte sen heller innehåller det man varit ute efter att samla. Det kan vara t.ex. ord eller förkortningar som använts i olika meningar eller på olika språk.

Ett sätt att hitta det mest intressanta från en mängd meddelanden är att mäta ordfrekvenser. Ett enkelt sätt är att kopiera texterna eller rss flödet in i Wordle, som ger ett ”ordmoln” med ordfrekvenserna. Man kunde t.ex. direkt mata in flödet från en viss blogg eller spalt i ett diskussionsforum och få en översikt om vad diskuteras. Ett annat sätt att analysera data är att göra tidsserier. Man mäter då frekvenserna som vissa ord använts under en viss tid för att se om det hänt något överraskande som plötsligt fått mänskorna att diskutera och kommentera ämnet i fråga. Drömmen för en forskare (och säkert även journalister) skulle ju vara att upptäck en motsvarande frekvensökning i diskussionerna före ämnet som diskuteras hunnit bli en nyhet i traditionell media. Med andra ord att hitta nyheterna före det blir nyheter. Från ordfrekvenserna kan man alltså se de mest använda orden, som man sedan kan använda för tidsserier för att se när dessa ord använts. Man kan då också plocka ut de meddelanden där ordet i fråga har använts för att göra ytterligare innehållsanalys på materialet.

För bilderna nedan har jag använt ca 60 000 meddelanden som forskare inom ’astrophysics’ har skrivit under ett par månaders tid. Jag använder denna data för att lite demonstrera vad som är möjligt att göra. I bilden nedan kan man se en lista på alla meddelanden i den data som jag nyligen samlat som innehåller ordet *mars*. Man kan också se hur mars kan handla om planeten mars eller om mars choklad. I nedre delen av bilden ser man hur begreppet *dark matter* har använts i Twitter meddelanden. Man kan tydligt se att mot slutet av data insamlingsperioden har det hänt något som fått mänskorna att tweeta mera om dark matter. Det har hänt något som ökat mänskornas intresse för detta. Men från denna bild vet vi då inte ännu om mänskorna är rädda eller oroliga för forskning om dark matter eller positivt inställda till nya upptäckter vid CERN. För att kunna säga något om det måste man kvalitativt analysera materialet. De tidiga topparna i datan är antagligen s.k. false positive, eventuellt spam. Nogrannare analys visar säkert om detta är fallet.

En annan sak som kan vara intressant att analysera är hur informationen spridits och via vem det spridits. T.ex. i forskning om marknadsföring kan det vara intressant att hitta personer som befinner sig i sådan position i sina sociala nätverk att de kan påverka en massa andra personer. Bilden nedan visar hur meddelanden som astrofysikerna skrivit spridit sig i deras sociala nätverk, med riktningen för meddelanden utsatt.

Nedan samma data med en annan visualisering, som jag personligen anser ge mera information. Grafen nedan är gjord med Pajek och Kamada-Kawai algoritm. Kamada-Kawai betraktar alla länkar som om de vore fjädrar mellan noderna (forskarna i det här fallet) som drar noderna närmare varandra tills det hittas balans mellan alla krafterna i nätverket.

Man kan t.ex. se att Twitter användarna PlutoKiller, BadAstronomer och neiltyson är i såna positioner där de har inflytande på många andra personer, många andra som följer med vad de skriver. De har också en del inlänkar till sig, det vill säga personer som de följer, vilket gör att de också är i positioner där de har tillgång till ny information och nya idéer. Men från den första bilden kan vi se att åtminstone ett av meddelanden som neiltyson skickat handlade om Mars choklad, vilket väcker vissa misstankar. Närmare innehållsanalys krävs alltså.

Det ska bli spännande att dyka djupare in i de ca 1 miljon Twitter meddelanden som vi har samlat hittills. Vem vet vad som döljer sig i data mängden.

Detta var mitt sista blogginlägg på ÅAs forskarblogg. I fortsättningen kan du följa med mina inlägg på http://kimholmberg.fi/. Inläggen där publiceras oregelbundet och sällan 🙂

Presidentval på sociala medier

Kim HolmbergKan ett presidentval i Finland vinnas med hjälp av sociala medier? Det är säkert en fråga som presidentkandidaterna har frågat sig redan en längre tid. Sociala medier är en gemensam benämning för en hel massa olika webbtjänster som alla har vissa gemensamma eller liknande egenskaper och funktioner; mänskorna kan vara i kontakt med varandra med hjälp av dem, innehållet i tjänsterna är helt eller nästan helt skapat av användarna, och delar av innehållet eller hela innehållet finns öppet på webben. Webbtjänster som Facebook, Twitter, Google Plus, LinkedIn, och YouTube har blivit nästan synonymer för fenomenet, men det finns hundratals andra tjänster som också kan räknas som sociala medier.

Det har skrivits om hur sociala medier ökar demokrati eftersom alla har samma möjligheter att använda sociala medier, oberoende av budget. Egenskaperna hos sociala medier gör dem också till perfekta verktyg för att föra valkampanj på. Med sociala medier kan kandidaterna nå en massa potentiella väljare och de kan i sin tur föra budskapet vidare till sina vänner, som igen kan föra det vidare till sina, osv. Detta är också styrkan med sociala medier: effektiviteten av informationens spridning. I skrivande stund har de två kandidaterna som är kvar 102 514 (Haavisto) och 89 629 (Niinistö) personer som gillar dem på Facebook, 11 908 (Haavisto) och 10 634 (Niinistö) personer som följer dem på Twitter, och 230 124  (Haavisto) och 176 916 (Niinistö) ”videotittningar” på YouTube. I sociala medier har Haavisto en liten men tydlig försprång. Även andra analyser av webbaktiviteten visar på fördel för Haavisto. Se t.ex. Icerockets TrendTool som visar trender i blogosfären och Google Insights for search som visar hur vi i Finland sökt efter kandidaterna i Google. Men kan man säga något om valets slutresultat på basen av dessa siffror? Nej, det tror jag inte. De här siffrorna visar att aktiva webbanvändare stöder Haavisto, men det finns en massa väljare som inte är med i Facebook eller som inte använder Twitter.

Styrkan med sociala medier är som jag nämnde hur effektivt informationen kan sprida sig. Haavisto har över 100 000 personer som gillar honom på Facebook och över 10 000 personer som följer med honom på Twitter. Vi vet också att personer som har en profil på Facebook har i medeltal 130 vänner och Twitter användarna har i medeltal 130 följare. Detta betyder att rent matematiskt har 13 miljoner personer på Facebook och 1,3 miljoner personer på Twitter sett att deras vänner eller bekanta öppet stöder Haavisto. Nu måste vi ju förstås komma ihåg att de sociala nätverken på Facebook överlappar med varandra till stora delar. Med andra ord, två personer som är vänner med varandra på Facebook, har också en hel del gemensamma vänner, och därför kan man inte säga att 13 miljoner olika mänskor har fått informationen om Haavistos kampanj på Facebook. Vi vet inte heller hur många av personerna som verkligen sett att deras vänner gillat en kampanj. En del har kanske inte loggat in på Facebook på en längre tid och därför gått miste om informationen. Vi vet inte heller hur många som verkligen blivit påverkade av det. Men det som är klart är styrkan med budskap som sprider sig i sociala medier. Om vi ser att en nära vän gillar ena av kandidaterna kan vi bli påverkade av det, eftersom vi uppskattar vår väns åsikter, vi tror på hans eller hennes rekommendation. Det att 10 000 okända personer gillar en kandidats valkampanj betyder kanske ingenting för oss, men om 10 av våra närmaste vänner gör det så kan det vara att vi blir påverkade.

Det att antalet vänner på Facebook och följare på Twitter båda i medeltal är ca 130 är inte slumpmässigt. 130 (eller ungefär 130) är faktiskt ett mycket intressant tal. Inte tack vare Shakespeares 130:de sonat och inte heller för att Zeus tempel i Aten blev blev färdigt år 130. Det att antalet vänner på FB i medeltal är cirka 130 är intressant tack vare professor Robin Dunbar, som genom sin forskning inom evolutionär antropologi har kommit fram till att våra hjärnor klarar fysiskt av att upprätthålla nära kontakter med ca 150 personer. Våra hjärnor klarar inte alltså av över 150 nära vänner, och det verkar som om sociala nätverkssajter på webben inte har ändrat detta. Så om du har över 150 ”vänner” på Facebook kan jag berätta för dig att de är inte alla dina vänner. 🙂

Det som är kanske det mest intressanta fenomenet när det gäller det aktuella presidentvalet i Finland och sociala medier är hur väljarna öppet berättar eller visar vem de röstat på och vem de kommer att rösta på. Valhemligheten har varit nästan helig i Finland. Man har inte berättat åt sina grannar vem man röstar på och man har knappt berättat det ens åt sin man eller fru. Men idag berättar vi det öppet åt våra sociala nätverk på webben, och det här är något som någon borde forska i. Vad har ändrat? Varför tycker vi inte att vi behöver hålla valhemligheten längre? Är det tack vare öppenheten som sociala medier ”tvingar” på oss som vi gör det? Har vi nu blivit lärda att vi måste dela allt på webben? Kan detta öka öppenheten och demokratin?

Vad tycker du? Och har du öppet berättat vem du röstar på?

———————————————–

Kandidaternas statistik på Facebook kan du följa med på https://www.facebook.com/Facewatchers.

Mera om presidentval och sociala medier hittar du på YLE Vega Åbolands arkiv: http://www.svenska.yle.fi/nyheter/regionartikel.php?id=9127.