Avtomatsko razpoznavanje govora za pregibni jezik z uporabo morfoloških jezikovnih modelov s kontekstno odvisno strukturo

doktorska disertacija

Gregor Donaj (Avtor), Zdravko Kačič (Mentor)

Povzetek

V nalogi smo se posvetili jezikovnemu modeliranju za avtomatsko razpoznavanje govora z velikim slovarjem besed. Pri takšnem razpoznavanju je še vedno velika težava pravilnost razpoznavanja izgovorjenih besed. Ta je še posebej izrazita pri morfološko kompleksnejših jezikih, kot je slovenščina. Za delovanje sistema razpoznavanja tekočega govora potrebujemo jezikovne modele. Da lahko zgradimo primeren jezikovni model, potrebujemo ustrezno velike učne množice podatkov, ki morajo pri morfološko kompleksnejših jezikih biti še večje. Sodobni razpoznavalniki govora za slovenščino delajo več napak kot razpoznavalniki za druge jezike. Pogost problem so napačno razpoznane končnice besed. To kaže, da je smiselno razmišljati o vključevanju oblikoskladenjskih informacij v jezikovno modeliranje, če hočemo zmanjšati število napak. V doktorski nalogi predstavljamo zasnovo sistema, ki ob običajnih n-gramskih besednih jezikovnih modelih uporablja tudi modele, ki vključujejo informacije o besedni vrsti in slovničnih kategorijah prepoznanih besed. Imenujemo jih morfološki modeli. Razvili smo algoritem, ki na osnovi rezultatov perpleksnosti na razvojni množici določa najprimernejšo strukturo takšnih modelov glede na besedne vrste konteksta besede, ki jo ocenjujemo. Pravimo, da imajo modeli kontekstno odvisno strukturo. Implementirali smo jih kot faktorizirane jezikovne modele. V teh modelih se soočamo z veliko množico različnih možnih kontekstov besede in za vsak kontekst gradimo strukturo modelov ločeno. Pri tem lahko uporabimo le majhen del učne množice. Zato prihaja tudi tukaj do pomanjkanja učnih podatkov, kljub temu da imamo manjše zahteve po velikosti učne množice. Zato smo razvili pristope združevanja različnih kontekstov. Zaradi velikega števila možnih kontekstov in veliko različnih možnosti struktur modelov smo razvili tudi pristope za omejeno iskanje možnih struktur modelov na podlagi postopne gradnje njihovih struktur in sprotnega ocenjevanja. Sistem razpoznavanja je zasnovan v obliki dvoprehodnega algoritma, kjer v drugem prehodu uporabljamo v okviru doktorske disertacije razvite modele. Razvili smo tudi postopek za hitro optimizacijo uteži modelov in postopek dinamičnega uteževanja glede na kontekst besede. Uspešnost razpoznavanja z razvitimi modeli in brez njih smo testirali na slovenski govorni bazi Broadcast News.

Ključne besede

jezikovno modeliranje;faktorizirani jezikovni modeli;perpleksnost;oblikoskladenjske oznake;dvoprehodni iskalni algoritmi;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2015
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UM FERI - Fakulteta za elektrotehniko, računalništvo in informatiko
Založnik:	[G. Donaj]
UDK:	004.934:81'366-047.58(043.3)
COBISS:	18693910
Št. ogledov:	1736
Št. prenosov:	135
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Automatic speech recognition in an inflective language using morphological language models with context dependent structure
Sekundarni povzetek:	In this thesis, we are focused on language modelling for automatic speech recognition in large vocabulary applications, where we are still experiencing the problem of insufficient recognition accuracy. This problem is more present in morphologically complex languages, for example Slovene. For such a system to work properly we need language models. State of the art speech recognition systems for Slovene still produce a hidher number of recognition errors that recognizers for other langauges. We see many sentences that are still understandable, but which contain syntactical errors. Often errors are present in the word endings. Therefore it seems reasonable to include morphosyntactic information into language models to reduce syntactical errors. This thesis presents the development of a speech recognition system that uses not only the usual n-gram language models for words, but also models that include part-of-speech and morphosyntactic information. We call them morphological models. We developed an algorithm that determines the best structure for such models based on perplexities for with respect to the part-of-speech categories of a words context. We say that the models have a context dependent structure. We implemented them as factored language models. Although we do not need a very large training corpus we still experience data sparsity due to the large number of possible context of a word. We therefore also developed a method for merging different context. Because of a large number of possible models structures it was also necessary to develop an algorithm for limiting the search space by gradually determining a models structure. The system is designed as a two-pass recognition algorithm, where the morphological models are used in the second pass. We developed an algorithm for a fast optimization of the systems parameters and dynamic weighting of the models scores based on a words context. We tested speech accuracy on the Slovene Broadcast news speech database. We also added a more detailed analysis of the recognition results.
Sekundarne ključne besede:	large vocabulary automatic speech recognition;language modelling;factored language models;perplexity;morphosyntactic description tags;two-pass search algorithms;Govor;Disertacije;Avtomatsko razpoznavanje govora;
URN:	URN:SI:UM:
Vrsta dela (COBISS):	Doktorsko delo/naloga
Komentar na gradivo:	Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko
Strani:	XXIV, 121 str.
ID:	8751065