Ekstrakcija gradnikov PDF datotek

diplomsko delo

Erik Kastelec (Avtor), Jurij Mihelič (Mentor), Andrej Preželj (Komentor)

Povzetek

PDF dokumenti predstavljajo velik del dokumentov v podjetjih in na spletu. Vsebinski podatki iz dokumentov so težko berljivi s pomočjo programske opreme, kar otežuje analizo in iskanje po dokumentih. Podjetja so si želela iskanja nizov v besedilu in tabelah, a odprtokodne rešitve, ki bi to omogočala v celoti, ni bilo. Obstajale so številne rešitve, ki rešujejo del problema, npr. ekstrakcijo besedila, tabel in analizo OCR. Obstoječe metode so bile smiselno nadgrajene in povezane v program in knjižnico PDFScraper, ki proces ekstrakcije in iskanja gradnikov poenostavi. Programska rešitev omogoča široko podporo različnim tipom dokumentov, kjer se dokument primerno pripravi, analizira in omogoči iskanje po njegovih gradnikih.

Ključne besede

PDF;ekstrakcija;OCR;računalništvo;univerzitetni študij;diplomske naloge;

Podatki

Jezik:	Slovenski jezik
Leto izida:	2020
Tipologija:	2.11 - Diplomsko delo
Organizacija:	UL FRI - Fakulteta za računalništvo in informatiko
Založnik:	[E. Kastelec]
UDK:	004(043.2)
COBISS:	31440899
Št. ogledov:	811
Št. prenosov:	156
Ocena:	0 (0 glasov)
Metapodatki:

Ostali podatki

Sekundarni jezik:	Angleški jezik
Sekundarni naslov:	Extraction of elements from PDF documents
Sekundarni povzetek:	PDF documents represent the majority of business and online documents. They focus on a visual representation of a document and do not contain structural information, which complicates analysis by computer software. Companies were looking for an open-source solution for searching through the content inside tables and text, which was not available. A lot of needed functionality was already available and was used and improved to implement an all in one solution called PDFScraper, which contains an easy to use program, as well as a backend library. PDFScraper supports different formats of input, which are appropriately transformed and analysed to make searching possible.
Sekundarne ključne besede:	PDF;extraction;OCR;computer science;computer and information science;diploma thesis;
Vrsta dela (COBISS):	Diplomsko delo/naloga
Študijski program:	1000468
Konec prepovedi (OpenAIRE):	1970-01-01
Komentar na gradivo:	Univ. v Ljubljani, Fak. za računalništvo in informatiko
Strani:	56 str.
ID:	12037041