Miksi robottikoira ei liiku yksin? Uusia algoritmeja robotin älykkääseen ja tehokkaan kouluttamiseen
Joukkoomme on alkanut ilmestyä palvelurobotteja erilaisissa tehtävissä, kuten pakettien kuljetuksessa, näkövammaisten opaskoirana, yleisöpalvelijana lentoasemilla tai kuten Joensuussa on nähty: rakennustöiden tarkastuksessa. Robotit kykenevät liikkumaan monin eri tavoin, kuten jaloilla, pyörillä tai lentäen. Ne osaavat lyhimmän ja helppokulkuisimman reitin kohteeseen. Opaskoira voi etsiä bussiaikatauluja tai tarvittaessa tilata jopa taksin.
Roboteilla on kuitenkin vaikeuksia selviytyä eräästä perusasiasta, liikkua ihmisjoukon keskellä. Robotti kyllä havainnoi ympäristöä kameralla ja muilla sensoreilla, mutta sen liikkuminen on nykivää jatkuvina suunnanmuutoksina, sisältäen useita pysähdyksiä. Robottia ei yleensä edes päästetä yksin matkaan.
Liikkumisen ongelmana ei ole sinänsä törmäily tai ympäröivän maailman havainnointi, vaan käytössä olevan datan tehokas ja älykäs hyödyntäminen. Nykyiset menetelmät vaativat liian paljon laskentaresursseja, eivätkä siten sovellu reaaliaikaiseen käyttöön, jossa päätöksiä pitäisi tehdä nopeasti.
MSc Chengmin Zhou on väitöskirjassaan tutkinut vahvistusoppimisalgoritmien (reinforcement learning, RL) käyttöä palvelurobottien navigointiin. Algoritmit ratkaisevat navigointitehtäviä useampien liikkuvien esteiden tapauksessa – siis esimerkiksi tilanteessa, jossa robotti etenee ihmisvilinässä ja sillä on rajallinen aika reagoida.
Parhaaksi ratkaisuksi osoittautui malliton RL-algoritmi, joka oppii omista kokemuksistaan ja riittävästi opittuaan kykenee selviytymään vaativissakin tilanteissa. Mallittomassa RL-algoritmissa on kuitenkin monia haasteita, kuten hidas oppimistehokkuus (konvergenssi).
Väitöskirjatyössä oppimistehokkuutta parannettiin kahdella eri tavalla. Käytön aikana kerättyä dataa hyödynnettiin robotin kouluttamisessa. Robotin käytön aikana saadaan uutta reaaliaikaista dataa, joka voidaan yhdistää aiempaan koulutusdataa ja täten tehostaa robotin koulutusta.
Väitöstyössä parannettiin myös havaintoympäristön tulkitsemista. Robotin toimintaympäristöä ei pidä oppia liian tarkasti (ylioppiminen), vaan sitä on tulkittava niin, että ympäristöstä opitaan asioita, jotka hyödyntävät robotin toimintaa muissa samankaltaisissa, mutta ei identtisissä tilanteissa.
Työn tuloksena on kolme teknistä parannusta, rajoitetut (diskreetit) toimintaohjeet, reaalidata ja koulutusdatan yhdistäminen, sekä robotin ja muiden kohteiden välisten suhteellisten sijaintien käyttö robotin koulutuksessa. Kehitettyjä algoritmeja on testattu sekä tietokonesimulaatioilla, että laboratorioympäristössä Shenzhenin teknillisessä yliopistossa Kiinassa (kuvassa).
MSc Chengmin Zhoun tietojenkäsittelytieteen alaan kuuluva väitöskirja Deep reinforcement Learning for crowd-aware robotic navigation tarkastetaan luonnontieteiden, metsätieteiden ja tekniikan tiedekunnassa, Joensuun kampuksella. Vastaväittäjänä toimii professori Juha Röning, Oulun yliopisto ja kustoksena professori Pasi Fränti, Itä-Suomen yliopisto. Tilaisuuden kieli on englanti.
Lisätietoja: Chengmin Zhou, czhou@uef.fi, p. 041 487 5355
Väitöstilaisuus https://www.uef.fi/fi/tapahtuma/doctoral-defence-chengmin-zhou-msc-computer-science-joensuu
Väitöskirja (PDF) http://urn.fi/URN:ISBN:978-952-61-4979-0