Avtomatska transkripcija in segmentacija za iskanje najbolj reprezentativnega dela v vokalnih ljudskih pesmih

doktorska disertacija

Ciril Bohak (Avtor), Matija Marolt (Mentor)

Povzetek

Cilj glasbene segmentacije je razviti algoritme, ki bodo v zvočnem posnetku poiskali ponavljajoče vzorce glede na želeni aspekt (melodija, ritem, barva zvoka) in določili meje med posameznimi ponovitvami. Pri glasbeni transkripciji je cilj razviti algoritme, s katerimi lahko iz zvočnega posnetka pridobimo informacijo o prisotnosti višin tonov v posameznih časovnih okvirjih. Pri tem se lahko osredotočimo na monofonične posnetke ali na polifonične posnetke. Segmentacija in transkripcija predstavljata pomembna dela raziskovalnega področja pridobivanja informacij iz glasbe. Rezultati so uporabni za veliko realnih aplikacij; s segmentacijo glasbe delno določimo glasbeno strukturo pesmi, ugotovimo melodična ponavljanja v pesmih ali si pomagamo pri iskanju najbolj reprezentativnega dela pesmi; transkripcijo lahko uporabimo pri avotmatskem generiranju notnega zapisa, kot pomoč pri ročni transkripciji glasbe ali za iskanje podobnih melodij v glasbenih zbirkah. V pričujoči doktorski disertaciji naslavljamo specifično problematiko tako segmentacije kot transkripcije zvočnih posnetkov, natančneje segmentacijo in transkripcijo zvočnih posnetkov ljudske glasbe. Že razvite metode na ljudski glasbi odpovedo zaradi njenih specifik, kot so slabi snemalni pogoji in amaterski izvajalci, zaradi česar prihaja do pojavov, kot so visoka stopnja šuma v posnetkih, netočno petje, drsenje višine tonov skozi pesem, neenakomeren tempo ipd. V uvodu podamo motivacijo za izpeljavo raziskav in podrobno opredelimo probleme in cilje. Prvi del disertacije predstavi raziskave s področja glasbene segmentacije, kjer predstavimo metodo za segmentacijo ljudske glasbe, ki na zbirki ljudske glasbe deluje bolje od trenutno aktualnih segmentacijskih metod. Predstavljena segmentacijska metoda deluje na podlagi verjetnostnega modela za iskanje ponavljajočih melodičnih delov v posnetku in določanje njihovih začetkov. Predstavljena metoda je bila ovrednotena na zbirki posnetkov ljudske glasbe različnih tipov: solo pesmi, dvo- in triglasne pesmi, zborovske pesmi, instrumentalne pesmi ter mešane pete in instrumentalne pesmi. Razvita metoda je ovrednotena tudi iz aspekta robustnosti, kjer smo preverjali odpornost razvite metode glede na degradacije. V drugem delu disertacije predstavimo raziskave, povezane z glasbeno transkripcijo, kjer opišemo metodo za transkripcijo ljudskih pesmi. Metoda na podlagi segmentacije poišče reprezentativni del in ga s pomočjo vseh ponovitev znotraj pesmi transkribira. Metoda kot vhod prejme ocene že izračunanih osnovnih višin tonov in segmentacijo pesmi. Na podlagi segmentacije metoda medsebojno poravna vhodne višine tonov v časovni in frekvenčni domeni, odstrani lokalne nepravilnosti in združi transkripcijo vseh segmentov. V drugem koraku metoda izračuna note s pomočjo dvonivojskega verjetnostnega modela, temelječega na Skritih markovskih modelih z eksplicitno določenim trajanjem obiskov posameznih stanj, ki modelira oceno not, pavz in notnih prehodov. Predstavljena metoda je bila ovrednotena na zbirki večglasne ljudske glasbe, kjer vrača boljše rezultate od aktualnih trankripcijskih metod. V zaključkih disertacije izpostavimo znanstvene prispevke ter podamo možnosti za nadaljnji razvoj in uporabo posamezne predstavljene metode.

Ključne besede

pridobivanje informacij iz glasbe;segmentacija glasbe;glasbena struktura;transkripcija;povzemanje glasbe;računalništvo in informatika;doktorske disertacije;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2016
Tipologija:	2.08 - Doktorska disertacija
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[C. Bohak]
UDK:	004.021:784.4(043.3)
COBISS:	1537034691
Št. ogledov:	1492
Št. prenosov:	406
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Finding the most representative part of vocal folksongs with transcription and segmentation
Sekundarni povzetek:	The goal of musical segmentation is to develop algorithms that will find similar patterns in audio signal according to desired aspect (melody, rhythm, timbre) and to define the boundaries between the repetitions. The goal of musical transcription is to develop algorithms that will extract pitches from the audio signal in every time frame either for monophonic or polyphonic music. Music segmentation and transcription represent two very important parts of music information retrieval research field. The results can be used in many real-life applications: with music segmentation we can define musical structure, melodic repetitions in music or we can use it in search for most representative part; transcription results can be used in automatic generation of scores, as a support in manual transcription process or in search of similar melodies in musical collections. In the presented dissertation we are addressing specific problems of musical segmentation and transcription of audio recordings: segmentation and transcription of folk music audio recordings. Currently developed methods fail on folk music due to it's specifics, such as bad recording conditions and amateur performers, which are the reason for high level of noise in recordings, inaccurate singing, pitch drifting throughout the song etc. In introduction section we give the motivation for conducting the research and define the problems and goals of the thesis in the detail. The first part of the dissertation presents the research from field of music segmentation, where we present a folk music segmentation method, that outperforms current state-of-the-art methods on a collection of folk music. The presented segmentation method bases on a probabilistic model for finding melodically repeating parts in recording and defining their beginnings. The method was evaluated on a folk music collection of different types: solo singing, two- and three-voiced singing, choir songs, instrumental songs and mixed assembles. The developed method was also evaluated according to robustness aspect, where resistance to different degradations was tested and evaluated. The second part of the dissertation addresses musical transcription, where we present a folk music transcription method. The method uses the segmentation results to find a representative part of a song and transcribes it with use of all the repetitions within the song. The method takes multiple fundamental frequencies estimations calculated with an existing method and song segmentation. With use of segmentation results the method aligns the multiple fundamental frequencies estimations in temporal and frequency domain, removes local inaccuracies and joins the transcriptions of all repeating parts. In next stage the method calculates notes using two-level probabilistic model based on explicit duration Hidden Markov models, used to model notes, rests and note transitions. The presented method was evaluated on collection of polyphonic folk music, where it returns better results of current state-of-the-art music transcription methods. In the conclusions we highlight the scientific contributions of the thesis and give the directions for possible future improvements and extensions of the method.
Sekundarne ključne besede:	music information retrieval;music segmentation;musical structure;transcription;audio fingerprinting;computer and information science;doctoral dissertations;Ljudske pesmi;Disertacije;Avtomatska transkripcija;Segmentacija;
Vrsta datoteke:	application/pdf
Vrsta dela (COBISS):	Doktorsko delo/naloga
Študijski program:	1000478
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	X, 159 str.
ID:	9155337