Uusi ohjelmisto bottitilien tunnistamiseen sosiaalisessa mediassa

Sosiaalisen median aineistojen käyttöä tutkimusaineistona haittaa usein erityyppisten bottitilien läsnäolo datavirroissa. Bottitili tarkoittaa keinotekoista tiliä, jonka yksittäisen viestin lähettäjänä ei välttämättä ole oikeaa henkilöä, vaan viesti on luotu automaattisesti. Itä-Suomen yliopiston ja ruotsalaisen Linné-yliopiston digitaalisten ihmistieteiden yhteishankkeessa kehitetty, ohjattuun koneoppimiseen perustuva ohjelmisto esiteltiin maaliskuussa Digital Humanities in the Nordic Countries (DHN2019)-konferenssissa Kööpenhaminassa. Ohjelmisto tunnistaa automaattisesti luodut Twitter-viestit ja on riippumaton viestissä käytetystä kielestä.

– Sosiaalisessa mediassa olevaa teksti- ja datamassaa tutkitaan tällä hetkellä useasta eri näkökulmasta. Somen sisältämä data kiinnostaa muun muassa kielen tutkijoita sekä yhteiskuntatietelijöitä. Somessa esiintyvää dataa haittaa kuitenkin monenlainen häly, kuten bottitilit ja trollit, jotka vääristävät tutkimuksen tekemistä, kertoo englannin kielen professori Mikko Laitinen.

Bottien ja trollien jäljittämiseen nyt luotu ohjelmisto on kevyt, joten se pystyy luokittelemaan suuren määrän dataa nopeasti ja melko tehokkaasti.

– Näin tutkimusaineiston laatu paranee, ja me saamme tarkemman kuvan todellisuudesta.

Botteja Laitinen pitää melko harmittomina, mutta trollit puolestaan levittävät valeuutisia ja keksittyjä tarinoita. Siksi somen seuranta vaatii yhä parempia sovelluksia.

– Aihe on monimutkainen ja vaatii poikkitieteellisiä ratkaisuja. Tässäkin tapauksessa teknisistä ratkaisuista huolehti tohtori Jonas Lundberg Linné-yliopistosta. Tulevaisuudessa tarvitaan yhä enemmän yhteistyötä kielentutkijoiden ja esimerkiksi koneoppimisen ammattilaisten kanssa. Työ vaatii myös pitkäjänteisyyttä ja isoja panostuksia tutkimusinfrastruktuureihin, jotka mahdollistavat useiden alojen asiantuntijoiden kohtaamisen.

Laitisen mukaan jo nyt on olemassa hyviä esimerkkejä siitä, miten digitaalisuutta hyödyntävä tutkimus kootaan isojen yksiköiden alle, ja tutkijat tuodaan yhteen tutkimaan tämän ajan isoja kysymyksiä ja tarjoamaan niihin ratkaisumalleja.

Laitinen korostaa myös, miten tärkeää olisi, että kaikki somedata olisi tutkijoiden käytettävissä.

– Tällä hetkellä data on amerikkalaisten teknologiajättien omaisuutta ja rahanteon lähde. Jotta tieto saataisiin tutkijayhteisön käyttöön, vaadittaisiin asiassa kansallista ja kansainvälistä yhteistyötä sekä varsinkin EU:n panosta.

Laitinen arvioi, että suomenkielisestä tutkimusaineistosta botteja oli reilu 11 prosenttia, englanninkielisessä aineistossa niitä oli yli 20 prosenttia.

Linkki konferenssijulkaisuun: http://ceur-ws.org/Vol-2364/28_paper.pdf

Lisätietoja:
Professori Mikko Laitinen, mikko.laitinen(at)uef.fi, p. 050 441 2389

Yrityksestä

Itä-Suomen yliopisto on yksi Suomen suurimmista tiedeyliopistoista. Yliopiston toiminnassa korostuu monitieteisyys. Opetusta on yli sadassa pääaineessa. Tasokkaan opetuksen lisäksi yliopisto tarjoaa opiskelijoilleen nykyaikaisen opiskeluympäristön, jota kehitetään jatkuvasti. Yliopistolla on kampukset Joensuussa, Kuopiossa ja Savonlinnassa. Tiedekuntia on neljä: filosofinen tiedekunta, luonnontieteiden ja metsätieteiden tiedekunta, terveystieteiden tiedekunta sekä yhteiskuntatieteiden ja kauppatieteiden tiedekunta. Yliopistossa on noin 15 000 opiskelijaa ja se työllistää lähes 2 800 henkilöä.

Yhteyshenkilöt

  • Itä-Suomen yliopisto / Viestintä
    http://www.uef.fi
  • Joensuun kampus
    Yliopistokatu 2, PL 111, 80101 Joensuu
  • Kuopion kampus
    Yliopistonranta 1, PL 1627, 70211 Kuopio
  • Savonlinnan kampus
    Kuninkaankartanonkatu 5-7, PL 86, 57101 Savonlinna

Tilaa