doktorska disertacija

Abstract

Čeprav so znanstveni in strokovni članki večinoma bibliografsko obdelani in imajo zapis v knjižničnem katalogu COBIB, ter s tem definiranega enega ali več vrstilcev iz sistema Univerzalne decimalne klasifikacije (UDK), je večina člankov, dostopnih prek portala Digitalne knjižnice Slovenije, predvsem s področja kulture (starejši članki iz revij in časopisov), ki takšnega zapisa nimajo. Na spletnem mestu Digitalne knjižnice Slovenije je mogoče preiskovanje dokumentov zgolj po polnem besedilu. To je trenutno najboljše orodje za preiskovanje starejših besedil, a uporaba in preiskovanja publikacij na tak način, zaradi pomanjkljivosti (slabša kvaliteta razpoznave besedila v časopisih in revijah starejšega tipa, uporaba stare slovenščine, itd.) in prevelikega števila vrnjenih zadetkov pri iskanju, ne nudi sodobne uporabniške izkušnje in uporabniku otežuje delo. Osnovni problem, ki ga naslavljamo v disertaciji je pomoč pri bibliografski obdelavi besedil, ki je še vedno v rokah človeških ekspertov. Izhajamo iz teze, da je s pomočjo metod strojnega učenja možno avtomatsko klasificirati besedila v ustrezen UDK vrstilec in s tem podpreti človeka pri bibliografski obdelavi zapisov. V ta namen smo po pristopu načrtovanja in razvoja razvili klasifikacijski model, ki smo ga uporabili za klasificiranje starih besedil, ki so bila doslej klasificirana večinoma zgolj posredno, preko klasifikacije celotne revije oz. časopisa, kot na primer "Časopisi. Tisk. Novinarstvo". V disertaciji smo razvili klasifikacijski model s pomočjo metod strojnega učenja, s katerimi smo uspeli avtomatsko klasificirati kakršnokoli besedilo s pomočjo Univerzalne decimalne klasifikacije. Med tehnikami strojnega učenja smo se poslužili nenadzorovanega in nadzorovanega učenja. V prvem koraku smo nad manjšo množico podatkov (900 člankov) nenadzorovano učenje uporabili za preverjanje sorodnosti med dodeljenimi UDK vrstilci s strani bibliotekarjev in izgrajenimi gručami s strani algoritma. V drugem koraku smo nad celotnim korpusom znanstvenega časopisja Digitalne knjižnice Slovenije (več kot 70.000 znanstvenih besedil) razvili klasifikacijske modele, kjer je bilo razmerje učne in testne množice je bilo 80/20 odstotkov. Ko smo potrdili uspešnost klasifikacijskih modelov nad znanstvenimi besedili, smo jih uporabili za klasifikacijo več kot 200.000 starejših besedil. Uporabili smo Naivni Bayesov klasifikator, Metodo podpornih vektorjev, Večslojni perceptron, Logistično regresijo in algoritem k najbližjih sosedov. Ustreznost klasifikacije starih besedil smo preverili s človeškimi eksperti – bibliotekarji. Potrdili smo domnevo, da lahko s pomočjo znanstvenih in strokovnih člankov, klasificiranih v UDK, v vsaj 80% primerov ponudimo avtomatsko določene UDK vrstilce za starejše gradivo, ki ni bibliotekarsko obdelano. Poudariti velja, da gre pri tem delu za človeško odločitev, testiranje s človeškimi eksperti, za oceno in presojo, ki lahko variira od odločevalca do odločevalca. Poleg oplemenitenja starejših besedil iz osemnajstega, devetnajstega in prve polovice dvajsetega stoletja s vsebinskimi oznakami UDK vrstilcev, ima raziskava praktično moč v vsakodnevni rabi. Z gledišča podpore avtomatske klasifikacije publikacij pri vsakodnevnem delu bibliotekarjev, vidimo moč implementacije raziskave v informacijski sistem, ki je bibliotekarju sposoben v realnem času ponuditi izračunane predloge za določitev primernih klasifikatorjev publikacije, ki jo obdeluje. Bibliotekar lahko pridobi s strani stroja "drugo mnenje" pri procesu dodeljevanja UDK vrstilcev publikaciji, ki jo obdeluje. Hkrati je metodologija lahko uporabljena na različnih področjih in podatkovnih bazah ter klasifikacijskih sistemih, ne zgolj za dodeljevanje UDK vrstilcev.

Keywords

avtomatična klasifikacija;digitalne knjižnice;umetna inteligenca;Univerzalna decimalna klasifikacija;UDK;

Data

Language: Slovenian
Year of publishing:
Typology: 2.08 - Doctoral Dissertation
Organization: UM FOV - Faculty of Organizational Sciences
Publisher: [M. Kragelj]
UDC: 004.89:025.45UDC(043.3)
COBISS: 49890051 Link will open in a new window
Views: 599
Downloads: 66
Average score: 0 (0 votes)
Metadata: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Other data

Secondary language: English
Secondary title: Development of methodology for automatically positioning electronic publications into UDC
Secondary abstract: Although the majority of the scientific and professional articles are catalogued and have a bibliographic record in the COBIB Library Catalogue, including one or more notations from the Universal Decimal Classification (UDC) system, most of the articles available through the web portal of the Digital Library of Slovenia, which are mainly from the field of culture (older magazine and newspaper articles), usually do not have such a record. On the website of the Digital Library of Slovenia, it is possible to search web documents only via full text search. It is currently the best available tool for searching older texts, but such practice does not offer sufficient user experience, due to various deficiencies (poor quality of text recognition in old newspapers and magazines, usage of old Slovene languages, etc.) and too many returned search results. In the dissertation, we address the basic problem of assistance by bibliographic processing, which is still in the hands of human experts. We start from the thesis that the usage of machine learning methods makes it possible to classify the texts automatically into the appropriate UDC notation. Thus, the support is provided for librarians during the bibliographic processing of documents. For this purpose, following a planning and development approach, we developed a classification model that was used to classify old texts. Until now, these were mostly only indirectly classified through the classification of the entire journal, such as "Newspapers. Printing. Journalism". We developed a classification model using machine learning methods, which managed to classify any text automatically using the Universal Decimal Classification. Among the machine learning techniques, we used unsupervised and supervised machine learning. First, we used unsupervised machine learning methods over a smaller number of articles (900 articles) to test the relatedness between the UDC notations assigned by the librarians and clusters built by the algorithm. Next, we developed classification models over the entire corpus of the scientific journals available via the Digital Library of Slovenia (more than 70,000 scientific texts), where the ratio between the learning and the test set was 80/20 percent. When we confirmed the performance of classification models over scientific texts, we used them to classify more than 200,000 older texts. We used the Naive Bayes classifier, Support Vector Machine, Multilayer Perceptron, Logistic Regression, and k-nearest neighbor's algorithm. The relevance of the classification of old texts was checked by human experts - librarians. We have confirmed the assumption that in at least 80 % of cases, we can offer auto-determined UDC notations for older material that has not been bibliographically processed. It should be emphasized that this work is about human decision-making, testing with human experts, evaluation and judgment, which can vary from one decision maker to another. In addition to enriching older texts from the eighteenth, nineteenth, and first half of the twentieth centuries with the content of UDC notations, the research has practical value in everyday use. From the standpoint of supporting the automatic classification of publications in the daily work of librarians, we see the power of implementing research into an information system that is able to offer computational suggestions to a librarian in real time to determine the appropriate classifiers for the processed publication. The librarian can obtain a "second opinion" from the machine knowledge in the process of assigning UDC notations to the processed publication. At the same time, the methodology can be used in different fields, databases and classification systems, not just for assigning UDC notations.
Secondary keywords: Elektronske publikacije;Disertacije;Klasifikacija;Univerzalna decimalna klasifikacija;
Type (COBISS): Doctoral dissertation
Thesis comment: Univ. v Mariboru, Fak. za organizacijske vede
Pages: 82 f.
ID: 11297387
Recommended works:
, no subtitle data available
, no subtitle data available
, no subtitle data available