Språkteknologi hjälper digitala verktyg att förstå ord med flera betydelser
För att fungera korrekt behöver digitala verktyg kunna förstå om det är musiken eller klädesplagget som avses med ordet ”rock”, och om det med ”damm” menas en vattensamling eller smuts i hörnen. En ny avhandling visar att det är möjligt för datorer som använder mänskligt språk att automatiskt lära sig de olika betydelserna av ord med fler än en innebörd.
Språket är centralt för digitala verktyg som används i allt från apparater som ger röstkommandon till en digital assistent, till automatiserade sammanfattningar av dagens nyhetsartiklar. Men för att verktygen ska fungera som de ska måste de underliggande datorsystemen räkna med en semantisk modell som ger datorn information om varje ords betydelse. Det kan vara extra svårt när det gäller ord med fler än en betydelse.
Nuvarande semantiska modeller, som använder sig av större kvantiteter av text för inlärning, tenderar att ge ord enbart en betydelse. På så vis sammanfogas de olika innebörder som ett ord kan ha till en enda.
– I min avhandling visar jag dels att det är möjligt att anpassa sådana semantiska modeller till att lära sig flera betydelser av ett enda ord, och även att dessa modeller förbättras när de data som används för inlärning av ordbetydelse inte enbart består av text utan även av språkresurser som lexikon, säger Luis Nieto Piña, doktorand vid Göteborgs universitet.
Semantiska modeller som informerar datorn om ords betydelser är avgörande i de flesta system som hanterar språk: automatisk översättning av text, nyhetssammanfattningar, sentimentanalys av kundrecensioner, chattbots som ger kundservice och så vidare.
– Avhandlingen erbjuder förbättrade sätt för sådana system att förstå ordbetydelser. Det kan förbättra systemens prestanda och därmed användarupplevelsen.
Alla som någon gång översatt en text till ett annat språk via en automatisk översättningstjänst på internet vet hur fel det kan bli.
– Vanligt förekommande automatiska översättningsfel som ”Sven åt filen” översatt till den engelska meningen som ”Sven ate the file” skulle kunna undvikas genom att använda modeller som presenteras i avhandlingen. Dessutom kan dessa nya modeller ge en möjlighet att använda moderna maskininlärningstekniker för att bearbeta lexikon. I praktiken innebär det att forskare som ansvarar för att utveckla lexikon kan automatisera vissa uppgifter och minska sitt manuella arbete.
Syftet med Luis Nieto Piña avhandling har varit att erbjuda bättre modeller för ordbetydelse, för forskare och utvecklare inom språkteknologi.
– Förhoppningen är att de här modellerna ska förbättra nuvarande och framtida applikationer som arbetar med språk, för att göra våra vardagsliv lite lättare.
Avhandlingen Splitting rocks: Learning word sense representations from corpora and lexica försvaras vid en disputation den 13 september, klockan 13.15 i Lilla hörsalen, Humanisten, Lundgrensgatan 1B i Göteborg.
Länk till avhandlingen: http://hdl.handle.net/2077/60509
Kontakt:
Luis Nieto Piña, tel: 0761-721 001, e-post: luis.nieto.pina@gu.se (intervjuer görs på engelska)
Johanna Hillgren
Kommunikatör, Humanistiska fakulteten, Göteborgs universitet
031-786 10 68, 0766-18 10 68
johanna.hillgren@gu.se
Göteborgs universitet är ett av de stora i Europa med 47 500 studenter och 6 400 anställda. Verksamheten bedrivs av åtta fakulteter, till allra största del i centrala Göteborg. Utbildning och forskning har stor bredd och hög kvalitet – det vittnar sökandetryck och nobelpris om. www.gu.se.
Följ oss på Twitter. Gilla oss på Facebook. Adda oss på Snapchat (uniofgothenburg). Följ oss på Instagram.
Taggar: