doktorska disertacija
Abstract
V doktorski disertaciji predlagamo hibridni pristop za priporočanje vrstilcev univerzalne decimalne klasifikacije (UDK) za elektronske dokumente, ne glede na globino hierarhije UDK. Razvit hibridni pristop priporočanja vrstilcev UDK temelji na metodah vsebinskega filtriranja in uporablja strukturirane metapodatke v slovenskem jeziku za klasifikacijo področja znanosti in priporočanje ustreznih vrstilcev. Ker se dokumenti pogosto nanašajo na več področij znanosti, mora biti pristop sposoben identificirati interdisciplinarnost in vrniti več ustreznih vrstilcev UDK. Predlagani hibridni pristop uporablja kaskadno hibridizacijo in je razdeljen na dva kaskadna koraka. Najprej z rangirno funkcijo BM25 zagotovimo začetni seznam vrstilcev UDK. V prvem kaskadnem koraku začetni seznam vrstilcev UDK preuredimo s seznamom, ki je rezultat večznačnega klasifikatorja. Večznačni klasifikator temelji na globoki nevronski mreži BERT in je prilagojen na hierarhično topologijo UDK. V drugem kaskadnem koraku s pomočjo seznama najbolj pogostih vrstilcev UDK v organizaciji, iz katere izvira dokument, preuredimo seznam iz prvega koraka. Za kaskadno hibridizacijo se izvedejo postopki naknadne obdelave, ki preuredijo sezname priporočil glede na vrhnje področje in glede na specifičnost, omogočajo pa tudi rezanje seznama. Disertacija vključuje vrednotenje na množici zaključnih del v slovenskem jeziku, ki so del repozitorijev slovenskih univerz in že imajo ročno določene vrstilce UDK s strani knjižničarjev. Na testni množici dokumentov s predlaganano metodo po metriki HR@K dosežemo povprečne vrednosti 0,574 (K = 1), 0,869 (K = 3) in 0,892 (K = 5). Po metriki NDCG@K dosežemo povprečne vrednosti 0,993 (K = 1), 0,921 (K = 3) in 0,916 (K = 5), po metrikah MRR in MAP pa povprečne vrednosti vrednosti 0,782 (MRR) in 0,785 (MAP). V primerjavi z obstoječimi pristopi pokažemo, da uporaba predlaganega pristopa vodi v statistično značilne izboljšave.
Keywords
hibridni priporočilni sistemi;univerzalna decimalna klasifikacija;vsebinsko filtriranje;globoke nevronske mreže;obdelava naravnega jezika;doktorske disertacije;
Data
Language: |
Slovenian |
Year of publishing: |
2023 |
Typology: |
2.08 - Doctoral Dissertation |
Organization: |
UM FERI - Faculty of Electrical Engineering and Computer Science |
Publisher: |
[M. Borovič] |
UDC: |
[004.032.26+81'322.2]:025.25UDC(043.3) |
COBISS: |
179494147
|
Views: |
29 |
Downloads: |
2 |
Average score: |
0 (0 votes) |
Metadata: |
|
Other data
Secondary language: |
English |
Secondary title: |
Hybrid recommendation of universal decimal classification codes |
Secondary abstract: |
In the doctoral dissertation, we propose a hybrid approach for recommending Universal Decimal Classification (UDC) notations for electronic documents, regardless of the field of science or the depth of the UDC hierarchy. The developed hybrid approach for recommending UDC notations is based on content filtering methods and uses structured metadata in the Slovenian language for classifying the field of science and recommendation of the appropriate notations. Since documents often relate to multiple fields of science, the approach must be able to identify interdisciplinarity and return multiple relevant UDC notations that can represent different fields of science. The hybrid approach uses the cascade hybridization approach and is divided into two cascading steps. First, the BM25 ranking function is used to provide the initial list of recommended notations for a new document. In the first cascade step, the initial list of recommended notations is re-ranked using the list obtained with a multi-label classifier. The multi-label classifier is based on the deep neural network BERT and is adapted to the hierarchical topology of UDC. In the second cascade step, the resulting list from the first cascade step is re-ranked using a list of most common notations used in the document’s source organization. Following the cascade hybridization are the post-processing procedures that re-rank and alter the recommendation lists based on the top-level branches of the UDC hierarchy and specificity, as well as cut-off rate. The dissertation includes an evaluation on a set of theses in the Slovenian language that are part of the repositories of Slovenian universities and have UDC notations manually catalogued by librarians. In the evaluation on a test set of documents we achieve mean values for the metric HR@K of 0,574 (K = 1), 0,869 (K = 3) and 0,892 (K = 5). For the metric NDCG@K we achieve values 0,993 (K = 1), 0,921 (K = 3) and 0,916 (K= 5). For metrics MRR and MAP we achieve values 0,782 (MRR) and 0,785 (MAP). Compared to existing approaches, we show that the use of the proposed approach leads to statistically significant improvements. |
Secondary keywords: |
hybrid recommender systems;Universal Decimal Classification;content-based filtering;deep neural networks;natural language processing; |
Type (COBISS): |
Doctoral dissertation |
Thesis comment: |
Univ. v Mariboru, Fak. za elektrotehniko, računalništvo in informatiko |
Pages: |
XVI, 107 str. |
ID: |
19717847 |