magistrsko delo
Povzetek
V tem delu se ukvarjamo s problemom ekstrakcije seznama oseb s poljubnega spletišča. V ta namen implementiramo spletnega pajka za identifikacijo potencialnih podstrani z osebami in ekstraktor podatkov, ki s poljubne spletne strani izvleče podatke o osebah.
Pokažemo, da osnovne metode, kot so primerjava imena s seznamom imen, ne dosežejo sprejemljive natančnosti. Pokažemo, da je analiza strukture seznama in prenos odkritega znanja ključna metoda za izboljšavo rezultatov do stopnje, kjer dosežemo sprejemljiv nivo natančnosti. S pomočjo tega pristopa smo izboljšali F1 mero za 50 % na razvojni in za 35 % na skriti testni množici.
Ključne besede
splet;ekstrakcija podatkov;avtomatska ekstrakcija podatkov s spleta;fokusirani spletni pajki;strukturirani podatki;nestrukturirani podatki;računalništvo in informatika;magisteriji;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2021 |
Tipologija: |
2.09 - Magistrsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[M. Koplan] |
UDK: |
004.738.5(043.2) |
COBISS: |
83603971
|
Št. ogledov: |
167 |
Št. prenosov: |
27 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Automatic extraction of employee data from corporate websites |
Sekundarni povzetek: |
In this work we tackle the problem of extracting lists of people from corporate websites. For this purpose we implement a web crawler to identify possible subpages with people and a data extractor, which is designed to work on any website.
We show that basic methods, such as matching names from a list, don't reach acceptable accuracy. We show that analysing the structure and transfrering the discovered knowledge of a list is crucial in reaching the required level of accuracy. Using this approach we have improved the score of our final results by 50 % in the development and by 35 % in the hidden test set. |
Sekundarne ključne besede: |
web;data extraction;automatic web data extraction;focused webcrawlers;structured data;unstructured data;computer science;computer and information science;master's degree;Spletna mesta;Računalništvo;Univerzitetna in visokošolska dela; |
Vrsta dela (COBISS): |
Magistrsko delo/naloga |
Študijski program: |
1000471 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
75 str. |
ID: |
13748127 |