{"id":778,"date":"2012-11-19T13:02:54","date_gmt":"2012-11-19T11:02:54","guid":{"rendered":"http:\/\/blogs.abo.fi\/forskarbloggen\/?p=778"},"modified":"2012-11-19T13:16:23","modified_gmt":"2012-11-19T11:16:23","slug":"forskning-pa-den-sociala-webben","status":"publish","type":"post","link":"https:\/\/blogs.abo.fi\/forskarbloggen\/2012\/11\/19\/forskning-pa-den-sociala-webben\/","title":{"rendered":"Forskning p\u00e5 den sociala webben"},"content":{"rendered":"<p><em><img loading=\"lazy\" decoding=\"async\" class=\"alignleft size-full wp-image-14\" title=\"Holmberg_blogg\" src=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Holmberg_blogg.jpg\" alt=\"Kim Holmberg\" width=\"170\" height=\"220\" \/>\u201cWhen you can measure what you are talking about<br \/>\nand express it in numbers, you know something about it\u201d.<br \/>\n<\/em>Lord Kelvin, 1824-1907<\/p>\n<p>I ett tidigare inl\u00e4gg h\u00e4r i forskarbloggen ber\u00e4ttade jag att jag nu jobbar som post doc forskare vid University of Wolverhampton (<a href=\"http:\/\/www.wolves.co.uk\/\" target=\"_blank\">Go Wolves!<\/a>). Jag jobbar i ett projekt d\u00e4r vi analyserar den vetenskapliga komunikationen p\u00e5 Twitter och bl.a. kartl\u00e4gger informationens spridning \u00f6ver n\u00e4tverk. Metoderna som vi anv\u00e4nder kan enkelt anv\u00e4nds f\u00f6r andra \u00e4ndam\u00e5l ocks\u00e5 och av en del av dessa t\u00e4nkte jag lite skriva om nu.<\/p>\n<p>Den sociala webben \u00e4r en enorm informationsk\u00e4lla d\u00e4r man relativt enkelt kan samla in m\u00e4nskors \u00e5sikter, tankar och diskussioner. I princip kan man samla allt vad m\u00e4nskorna skriver p\u00e5 webben. Det finns speciellt f\u00f6r akademiskt \u00e4ndam\u00e5l designade web crawlers som kan under en viss tid samla inl\u00e4gg fr\u00e5n givna rss fl\u00f6den fr\u00e5n t.ex. bloggar eller olika diskussionsforum. Twitters api till\u00e5ter att man kan begr\u00e4nsat samla in meddelanden som m\u00e4nskorna skriver d\u00e4r. Twitter har faktiskt blivit en guldgruva f\u00f6r forskning, b\u00e5de marknadsforskning men \u00e4ven forskning om vetenskaplig kommunikation, informationens spridning, m\u00e4nskors \u00e5sikter om olika saker, osv. osv. Man anv\u00e4nda Twitter meddelanden f\u00f6r att analysera vad m\u00e4nskorna tycker om olika produkter, brand, vetenskapliga artiklar, uppt\u00e4ckter, forskning, etc. Om man inte har tillg\u00e5ng till verktyg som samlar in meddelanden fr\u00e5n t.ex. Twitter s\u00e5 kan man ocks\u00e5 k\u00f6pa meddelanden. Till exempel f\u00f6retaget <a href=\"http:\/\/gnip.com\/\" target=\"_blank\">Gnip<\/a> \u00e4r en mellanhand som s\u00e4ljer material fr\u00e5n Twitter och m\u00e5nga andra sociala medier. H\u00e4lften av alla meddelanden under ett \u00e5rs tid fr\u00e5n Twitter f\u00e5r man k\u00f6pa f\u00f6r ett sexsiffrigt tal, och det \u00e4r ocks\u00e5 massor med f\u00f6retag som k\u00f6per (eller samlar sj\u00e4lv) materialet f\u00f6r att unders\u00f6ka vad m\u00e4nskorna skriver om dem och deras konkurrenter.<\/p>\n<p>I slutet av 2011 skickades ca 250 miljoner meddelanden p\u00e5 Twitter varje dag, s\u00e5 om man samlar ens en br\u00e5kdel av detta (vilket man \u00e4r tvungen till eftersom Twitter begr\u00e4nsar antalet meddelanden som man genom deras api kan samla in) s\u00e5 beh\u00f6ver man a) program som klarar av att hantera denna s.k. big data, och b) datorer som klarar av att utf\u00f6ra de n\u00f6dv\u00e4ndiga operationerna inom rimlig tid. Att indexera n\u00e5gra hundratusen meddelanden kan med en &#8221;normal&#8221; bordsdator ta en dag eller tv\u00e5, s\u00e5 med moderna tablet datorer och notebooks kan man helt gl\u00f6mma bort.<\/p>\n<p>Vad kan man sedan g\u00f6ra med all denna data man samlat in? F\u00f6r det f\u00f6rsta m\u00e5ste man komma ih\u00e5g att s\u00e5 gott som allt material som man samlar in p\u00e5 webben inneh\u00e5ller en massa skr\u00e4p. Om man t.ex. samlar in meddelanden som n\u00e4mner Apple f\u00f6r att analysera Apples (f\u00f6retagets) synlighet p\u00e5 webben s\u00e5 f\u00e5r man garanterat \u00e4ven meddelanden som handlar om \u00e4ppelpaj (apple pie). S\u00e5 utmaningen \u00e4r att f\u00e5 fram det som \u00e4r v\u00e4rdefullt, f\u00e5 fram signalerna som indikerar n\u00e5got intressant, fr\u00e5n den enorma m\u00e4ngden av meddelanden.<\/p>\n<p>F\u00f6r det aktuella projektet har jag hittills samlat in \u00f6ver en miljon meddelanden fr\u00e5n Twitter. Genom att under ett par m\u00e5naders tid samla in meddelanden som inneh\u00e5llit vissa \u00e4mnes- och forskningspsecifika termer samt meddelanden som forskare inom vissa \u00e4mnen skrivit, har vi nu en m\u00e4ngd meddelanden som borde inneh\u00e5lla vetenskaplig kommunikation. Men som en snabb analys visar s\u00e5 inneh\u00e5ller materialet \u00e4ven en hel del s.k. false positives, dvs positiva tr\u00e4ffar men som inte sen heller inneh\u00e5ller det man varit ute efter att samla. Det kan vara t.ex. ord eller f\u00f6rkortningar som anv\u00e4nts i olika meningar eller p\u00e5 olika spr\u00e5k.<\/p>\n<p>Ett s\u00e4tt att hitta det mest intressanta fr\u00e5n en m\u00e4ngd meddelanden \u00e4r att m\u00e4ta ordfrekvenser. Ett enkelt s\u00e4tt \u00e4r att kopiera texterna eller rss fl\u00f6det in i <a href=\"http:\/\/www.wordle.net\/\" target=\"_blank\">Wordle<\/a>, som ger ett &#8221;ordmoln&#8221; med ordfrekvenserna. Man kunde t.ex. direkt mata in fl\u00f6det fr\u00e5n en viss blogg eller spalt i ett diskussionsforum och f\u00e5 en \u00f6versikt om vad diskuteras. Ett annat s\u00e4tt att analysera data \u00e4r att g\u00f6ra tidsserier. Man m\u00e4ter d\u00e5 frekvenserna som vissa ord anv\u00e4nts under en viss tid f\u00f6r att se om det h\u00e4nt n\u00e5got \u00f6verraskande som pl\u00f6tsligt f\u00e5tt m\u00e4nskorna att diskutera och kommentera \u00e4mnet i fr\u00e5ga. Dr\u00f6mmen f\u00f6r en forskare (och s\u00e4kert \u00e4ven journalister) skulle ju vara att uppt\u00e4ck en motsvarande frekvens\u00f6kning i diskussionerna f\u00f6re \u00e4mnet som diskuteras hunnit bli en nyhet i traditionell media. Med andra ord att hitta nyheterna f\u00f6re det blir nyheter. Fr\u00e5n ordfrekvenserna kan man allts\u00e5 se de mest anv\u00e4nda orden, som man sedan kan anv\u00e4nda f\u00f6r tidsserier f\u00f6r att se n\u00e4r dessa ord anv\u00e4nts. Man kan d\u00e5 ocks\u00e5 plocka ut de meddelanden d\u00e4r ordet i fr\u00e5ga har anv\u00e4nts f\u00f6r att g\u00f6ra ytterligare inneh\u00e5llsanalys p\u00e5 materialet.<\/p>\n<p>F\u00f6r bilderna nedan har jag anv\u00e4nt ca 60 000 meddelanden som forskare inom &#8217;astrophysics&#8217; har skrivit under ett par m\u00e5naders tid. Jag anv\u00e4nder denna data f\u00f6r att lite demonstrera vad som \u00e4r m\u00f6jligt att g\u00f6ra. I bilden nedan kan man se en lista p\u00e5 alla meddelanden i den data som jag nyligen samlat som inneh\u00e5ller ordet *mars*. Man kan ocks\u00e5 se hur mars kan handla om planeten mars eller om mars choklad. I nedre delen av bilden ser man hur begreppet *dark matter* har anv\u00e4nts i Twitter meddelanden. Man kan tydligt se att mot slutet av data insamlingsperioden har det h\u00e4nt n\u00e5got som f\u00e5tt m\u00e4nskorna att tweeta mera om dark matter. Det har h\u00e4nt n\u00e5got som \u00f6kat m\u00e4nskornas intresse f\u00f6r detta. Men fr\u00e5n denna bild vet vi d\u00e5 inte \u00e4nnu om m\u00e4nskorna \u00e4r r\u00e4dda eller oroliga f\u00f6r forskning om dark matter eller positivt inst\u00e4llda till nya uppt\u00e4ckter vid CERN. F\u00f6r att kunna s\u00e4ga n\u00e5got om det m\u00e5ste man kvalitativt analysera materialet. De tidiga topparna i datan \u00e4r antagligen s.k. false positive, eventuellt spam. Nogrannare analys visar s\u00e4kert om detta \u00e4r fallet.<\/p>\n<p><a href=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild1.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft size-full wp-image-783\" src=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild1.jpg\" alt=\"\" width=\"960\" height=\"720\" srcset=\"https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild1.jpg 960w, https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild1-300x225.jpg 300w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/a><\/p>\n<p>En annan sak som kan vara intressant att analysera \u00e4r hur informationen spridits och via vem det spridits. T.ex. i forskning om marknadsf\u00f6ring kan det vara intressant att hitta personer som befinner sig i s\u00e5dan position i sina sociala n\u00e4tverk att de kan p\u00e5verka en massa andra personer. Bilden nedan visar hur meddelanden som astrofysikerna skrivit spridit sig i deras sociala n\u00e4tverk, med riktningen f\u00f6r meddelanden utsatt.<\/p>\n<p><a href=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild2.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft size-full wp-image-784\" src=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild2.jpg\" alt=\"\" width=\"960\" height=\"720\" srcset=\"https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild2.jpg 960w, https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild2-300x225.jpg 300w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/a><\/p>\n<p>Nedan samma data med en annan visualisering, som jag personligen anser ge mera information. Grafen nedan \u00e4r gjord med Pajek och Kamada-Kawai algoritm. Kamada-Kawai betraktar alla l\u00e4nkar som om de vore fj\u00e4drar mellan noderna (forskarna i det h\u00e4r fallet) som drar noderna n\u00e4rmare varandra tills det hittas balans mellan alla krafterna i n\u00e4tverket.<\/p>\n<p><a href=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild3.jpg\"><img loading=\"lazy\" decoding=\"async\" class=\"alignleft size-full wp-image-785\" src=\"http:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild3.jpg\" alt=\"\" width=\"960\" height=\"720\" srcset=\"https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild3.jpg 960w, https:\/\/blogs.abo.fi\/forskarbloggen\/files\/Bild3-300x225.jpg 300w\" sizes=\"auto, (max-width: 960px) 100vw, 960px\" \/><\/a>Man kan t.ex. se att Twitter anv\u00e4ndarna PlutoKiller, BadAstronomer och neiltyson \u00e4r i s\u00e5na positioner d\u00e4r de har inflytande p\u00e5 m\u00e5nga andra personer, m\u00e5nga andra som f\u00f6ljer med vad de skriver. De har ocks\u00e5 en del inl\u00e4nkar till sig, det vill s\u00e4ga personer som de f\u00f6ljer, vilket g\u00f6r att de ocks\u00e5 \u00e4r i positioner d\u00e4r de har tillg\u00e5ng till ny information och nya id\u00e9er. Men fr\u00e5n den f\u00f6rsta bilden kan vi se att \u00e5tminstone ett av meddelanden som neiltyson skickat handlade om Mars choklad, vilket v\u00e4cker vissa misstankar. N\u00e4rmare inneh\u00e5llsanalys kr\u00e4vs allts\u00e5.<\/p>\n<p>Det ska bli sp\u00e4nnande att dyka djupare in i de ca 1 miljon Twitter meddelanden som vi har samlat hittills. Vem vet vad som d\u00f6ljer sig i data m\u00e4ngden.<\/p>\n<p>Detta var mitt sista blogginl\u00e4gg p\u00e5 \u00c5As forskarblogg. I forts\u00e4ttningen kan du f\u00f6lja med mina inl\u00e4gg p\u00e5 <a href=\"http:\/\/kimholmberg.fi\/\">http:\/\/kimholmberg.fi\/<\/a>. Inl\u00e4ggen d\u00e4r publiceras oregelbundet och s\u00e4llan \ud83d\ude42<\/p>\n","protected":false},"excerpt":{"rendered":"<p>\u201cWhen you can measure what you are talking about and express it in numbers, you know something about it\u201d. Lord Kelvin, 1824-1907 I ett tidigare inl\u00e4gg h\u00e4r i forskarbloggen ber\u00e4ttade jag att jag nu jobbar som post doc forskare vid University of Wolverhampton (Go Wolves!). Jag jobbar i ett projekt d\u00e4r vi analyserar den vetenskapliga [&hellip;]<\/p>\n","protected":false},"author":34,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4],"tags":[42,119,102,66],"class_list":["post-778","post","type-post","status-publish","format-standard","hentry","category-holmberg","tag-forskning","tag-information","tag-natverk","tag-sociala-medier"],"_links":{"self":[{"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/posts\/778","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/users\/34"}],"replies":[{"embeddable":true,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/comments?post=778"}],"version-history":[{"count":8,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/posts\/778\/revisions"}],"predecessor-version":[{"id":791,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/posts\/778\/revisions\/791"}],"wp:attachment":[{"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/media?parent=778"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/categories?post=778"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blogs.abo.fi\/forskarbloggen\/wp-json\/wp\/v2\/tags?post=778"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}