Uporaba globokega učenja za pretvorbo besedila v govor

diplomsko delo

Luka Končar (Avtor), Zoran Bosnić (Mentor)

Povzetek

Pretvorba besedila v govor je uporabna na različnih področjih. Z globokim učenjem lahko za glas take pretvorbe uporabimo poljubno osebo, če le imamo nekaj minut posnetkov njenega govora. Pretvorba posnetkov v nabor podatkov za učenje modelov je zamudno, zato smo izdelali programsko opremo, ki ta postopek olajša. Nato smo izdelali modele z uporabo implementacije Tacotrona in dveh vokoderjev: Griffin-Lim in WaveRNN. Na koncu smo izvedli primerjavo teh dveh vokoderjev in ugotovili, da je Griffin-Lim veliko hitrejši pri sintetiziranju govora kot WaveRNN, a je kvaliteta govora bistveno slabša.

Ključne besede

pretvorba besedila v govor;univerzitetni študij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2022
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[L. Končar]
UDK:	004.8(043.2)
COBISS:	102623747
Št. ogledov:	104
Št. prenosov:	51
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Deep learning for text-to-speech
Sekundarni povzetek:	Text-to-speech (TTS) is useful in a variety of areas. With deep learning we can use any person's voice for TTS, if only we have a few minutes of recordings of their speech. Converting the recordings into a dataset useful for model training is time consuming, so we created software that makes this process easier. We then created models using Tacotron and two vocoders: Griffin-Lim and WaveRNN. In the end we performed a comparison of these two vocoders and found that Griffin-Lim is much faster at synthesizing speech than WaveRNN, but the quality of speech is significantly worse.
Sekundarne ključne besede:	deep learning;text-to-speech;computer and information science;diploma;Globoko učenje (strojno učenje);Računalništvo;Univerzitetna in visokošolska dela;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	36 str.
ID:	14808613