Nacionalni portal odprte znanosti

Researching Dictionary Needs of Language Users Through Social Media: A Semi-Automatic Approach

Jaka Čibej

Video in druga učna gradiva

Oznake: humanities;linguistics;lexicography;social sciences;society;computer science

With the rise of digital media in the last decades, many language-related discussions have found home on various fora and social media such as Facebook, where users can participate in a shared-interest group to discuss language use, problems and resources. The posts in these groups are formulated b ...

Leto: 2018 Vir: videolectures.net

Priprava učne množice za opredelitev kolokativnosti in druge dejavnosti v projektu KOLOS

Jaka Čibej

Video in druga učna gradiva

Oznake: humanities;linguistics

Avtomatsko luščenje kolokacij temelji predvsem na izračunu statističnih sopojavitev besed v besedilnem korpusu, vsi tako izluščeni kandidati pa niso ustrezni. Da bi opredelili, kaj je legitimna statistična kolokacija na eni in slovarsko relevantna kolokacija na drugi strani, smo pripravili učno množ ...

Leto: 2018 Vir: videolectures.net

First steps toward the compilation of a safety dataset for Slovene large language models

Jaka Čibej

Objavljeni znanstveni prispevek na konferenci

Oznake: large language models;responsible artificial intelligence;safety datasets;Slovene;

In the paper, we present the initial preparatory phase of the compilation of a Slovene safety dataset containing harmful or offensive prompts and safe responses to them. The dataset will be used to fine-tune Slovene large language models in order to prevent unwanted model behavior and misuse by mali ...

Leto: 2024 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Empirična analiza naglašenih enot v slovenščini na podlagi Slovenskega oblikoslovnega leksikona Sloleks

Jaka Čibej

Izvirni znanstveni članek

Oznake: stalno naglašene enote;naglaševanje;slovenščina;oblikoslovni leksikon;Sloleks;

V prispevku predstavljamo postopek gradnje empirično podprtega izčrpnega seznama naglašenih enot v slovenščini na podlagi Slovenskega oblikoslovnega leksikona Sloleks, in sicer s poudarkom na stalno naglašenih enotah. Obstoječi jezikovni priročniki (npr. Slovenska slovnica, Slovenski pravopis 2001) ...

Leto: 2025 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Models for automatic morphological inflection of Serbian and Croatian based on the srLex and hrLex morphological lexicons

Jaka Čibej

Objavljeni znanstveni prispevek na konferenci

Oznake: leksikon;oblikoslovje;pregibanje;širjenje leksikona;hrvaščina;srbščina;lexicon;morphology;inflection;lexicon expansion;Croatian;Serbian;

Open-source machine-readable morphological lexicons are useful for morphosyntactic tagging of corpora and represent a crucial step toward compiling modern digital dictionary databases. In the paper, we present the first step toward extending the functionalities of Pregibalnik, a custom developed ope ...

Leto: 2025 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Up to no good

Jaka Čibej

Objavljeni znanstveni prispevek na konferenci

Oznake: tabujevsko besedišče;strojno luščenje;vložitve;korpusi;slovenščina;taboo language;automatic extraction;embeddings;Slovene;

We present an approach to extracting candidates to be included in an open-access lexicon of Slovene taboo language by using word embeddings compiled from different Slovene corpora and a set of offensive and pejorative seed lexemes from the Thesaurus of Modern Slovene 2.0. While many studies on taboo ...

Leto: 2025 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

ǂA ǂcase study demonstrating an approach to the statistical analysis of the variation of multiword expressions in Slovene corpora

Jaka Čibej

Objavljeni znanstveni prispevek na konferenci

Oznake: multiword expressions;multiword expression variants;statistical analysis;automatic extraction;corpora;

In Slovene linguistics, much research in phraseology has either been theoretical in nature or focused more on compiling lexicographic resources for human users. While several machine-readable lexicographic resources containing multiword expressions (MWEs) have also been developed in recent yea ...

Leto: 2025 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Statistična analiza izgovora črke l v Slovenskem oblikoslovnem leksikonu Sloleks

Jaka Čibej

Izvirni znanstveni članek

Oznake: slovenščina;izgovor črke l;grafemsko-fonemska pretvorba;oblikoslovni leksikon;statistična analiza;

Dvoumnost izgovora črke l v položaju pred soglasniškim grafemom (polža, alge, volilca) predstavlja problem v grafemsko-fonemski pretvorbi za slovenščino in kljub večkratni obravnavi v slovenskih jezikovnih virih še vedno ni razrešena. Zaradi pomanjkanja empiričnih strojno berljivih podatkov o izgovo ...

Leto: 2025 Vir: Repozitorij Univerze v Ljubljani (RUL)

Kvantitativna strojna analiza razporeditve čustev na primeru Visoške kronike

Jaka Čibej

Samostojni znanstveni sestavek ali poglavje v monografski publikaciji

Oznake: slovenska književnost;strojna analiza čustev;leksikon čustvenih asociacij;

V prispevku predstavljamo nekatere možnosti kvantitativne strojne analize razporeditve čustev na primeru zgodovinskega romana Visoška kronika Ivana Tavčarja. Besedilo romana razdelimo na odstavke in s pomočjo leksikona čustvenih asociacij SloEmoLex 1.0 vsakemu odstavku strojno pripišemo številsko ra ...

Leto: 2025 Vir: Filozofska fakulteta (UL FF)

Metoda strojne gradnje arhetipskih besedotvornih dreves na podlagi Slovenskega oblikoslovnega leksikona Sloleks

Jaka Čibej

Samostojni znanstveni sestavek ali poglavje v monografski publikaciji

Oznake: arhetipska besedotvorna drevesa;Sloleks;strojno luščenje;morfološka pravila;besedotvorje;

Leto: 2026 Vir: Fakulteta za računalništvo in informatiko (UL FRI)

Nacionalni portal odprte znanosti

Dostop do znanja slovenskih raziskovalnih organizacij