diplomsko delo
Povzetek
Informacije so dandanes enostavno dostopne, informiranost pa ključnega pomena. S to mislijo smo se lotili izdelave rešitve, ki bo omogočala luščenje vsebine člankov iz slovenskih novičarskih portalov. Glavni problem s katerim se
pri tovrstnih rešitvah soočimo je ločitev vsebine od nepotrebnih informacij,
kot so oglasi, komentarji in ostali postavitveni elementi spletnih strani. Za
rešitev tega problema smo ubrali pristop, ki temelji na značilnostih plitkih
besedil. Na njegovi osnovi smo zasnovali jezikovni model, ki smo ga zgradili s pomočjo slovenskega korpusa 10000 slovenskih člankov iz 5 različnih
novičarskih portalov. Končni izdelek predstavlja ekstraktor, ki omogoča pridobitev vsebine slovenskih člankov in jih predstavi v strukturirani obliki.
Ključne besede
ekstrakcija;članki;značilnosti plitkih besedil;računalništvo;računalništvo in informatika;univerzitetni študij;diplomske naloge;
Podatki
Jezik: |
Slovenski jezik |
Leto izida: |
2021 |
Tipologija: |
2.11 - Diplomsko delo |
Organizacija: |
UL FRI - Fakulteta za računalništvo in informatiko |
Založnik: |
[M. Brezovnik] |
UDK: |
004(043.2) |
COBISS: |
50546435
|
Št. ogledov: |
655 |
Št. prenosov: |
93 |
Ocena: |
0 (0 glasov) |
Metapodatki: |
|
Ostali podatki
Sekundarni jezik: |
Angleški jezik |
Sekundarni naslov: |
Automatic identification of content blocks from Web sites |
Sekundarni povzetek: |
Nowadays information is easily accessible and even more so valuable. With
this in mind, we set about creating a solution that will enable content extraction of articles found in Slovenian news portals. The main problem we face
with such solutions is separating the content from unnecessary information,
such as ads, comments and other layout elements of web pages. To solve this
problem, we implemented a solution based on shallow text features. On its
basis, we designed a language model, which was built with the help of Slovenian news corpus that contains 10000 articles from 5 different news portals.
The final product is an extractor that allows content extraction of Slovenian
articles and presents them in a structured form. |
Sekundarne ključne besede: |
extraction;articles;shallow text features;computer science;computer and information science;diploma; |
Vrsta dela (COBISS): |
Diplomsko delo/naloga |
Študijski program: |
1000468 |
Konec prepovedi (OpenAIRE): |
1970-01-01 |
Komentar na gradivo: |
Univ. v Ljubljani, Fak. za računalništvo in informatiko |
Strani: |
46 str. |
ID: |
12531405 |