Generiranje slovenskega govora na podlagi učnih množic več govorcev

diplomsko delo

Tom Šabanov (Avtor), Marko Robnik Šikonja (Mentor)

Povzetek

V diplomskem delu smo naslovili problem sinteze slovenskega govora na podlagi sorazmerno majhne učne množice. Opisali smo starejše pristope sinteze govora, kot sta artikularna in formantna sinteza, ter sodobne pristope sinteze z združevanjem enot in sinteze govora s pomočjo globokih nevronskih mrež. Ustvarili smo različne podatkovne množice iz 30 ur govora štirih govorcev, ki smo jih uporabili za sintezo govora. Uporabili smo arhitekturi ForwardTacotron za generiranje mel-spektrogramov ter Hifi-GAN za pretvorbo teh spektrogramov v zvočne signale. Ustvarili smo splošni model za moški govor, ki ga je možno prilagoditi na nove govorce. Najboljši ustvarjeni sistem dosega dobro povprečno oceno poslušalcev (4.07 na lestvici od 1-5) in daje vtis naravnega govora.

Ključne besede

sinteza slovenskega govora;globoke nevronske mreže;model Tacotron;računalništvo in informatika;univerzitetni študij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2021
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[T. Šabanov]
UDK:	004.8:81'322(043.2)
COBISS:	75236355
Št. ogledov:	326
Št. prenosov:	74
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Slovene speech synthesis using multi-speaker datasets
Sekundarni povzetek:	In the thesis, we addressed the problem of Slovene speech synthesis based on relatively small data set. We described older approaches to speech synthesis like articular and formant synthesis, and more modern approaches like unit selection and speech synthesis with deep neural networks. We created a dataset consisting 30 hours of speech from four speakers for use with speech synthesis. We used ForwardTacotron architecture for generating mel-spectrograms and Hifi-GAN architecture for generating waveforms from these spectrograms. We created a basic model for male speech, which can be fine-tuned for new speakers. The best system we created achieved a good mean opinion score of listeners (4.07 on a scale 1-5) that simulates natural speech.
Sekundarne ključne besede:	Slovene speech synthesis;deep neural networks;Tacotron model;computer and information science;diploma;Računalniško jezikoslovje;Umetna inteligenca;Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	40 str.
ID:	13296241