Matej Klemen (Avtor), Špela Arhar Holdt (Avtor), Senja Pollak (Avtor), Iztok Kosem (Avtor), Damjan Huber (Avtor), Mateja Lutar (Avtor)

Povzetek

V prispevku prikažemo, kako je potekalo oblikovanje korpusa učbenikov za učenje slovenščine kot drugega in tujega jezika – KUUS, ki je nastal kot vzporedni projekt priprave stopenjskih beril na Centru za slovenščino kot drugi in tuji jezik. KUUS v trenutni različici vključuje 17 učbenikov, obsega 691.003 pojavnice oz. 491.022 besed in je skladno z načeli priprave tovrstnih jezikovnih virov opremljen z metapodatki in oznakami, ki omogočajo uporabo jezikovnih podatkov za različne namene. Predstavimo metodološke odločitve, ki smo jih sprejeli pri pripravi korpusa, trenutno različico korpusa in prvi primer uporabe korpusnih podatkov. Opišemo, kako smo podatke uporabili za pripravo pogostnostnih seznamov besed, ki so prvi korak do korpusno podprtega nabora jedrnega besedišča za slovenščino kot drugi ali tuji jezik in omogočajo primerjavo z drugimi seznami besed. Prispevek zaključimo z načrti za nadaljnji razvoj korpusa in seznamov.

Ključne besede

slovenščina;slovenščina kot drugi jezik;slovenščina kot tuji jezik;korpus učbenikov;KUUS;seznam besed;Skupni evropski jezikovni okvir;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija: UL FF - Filozofska fakulteta
UDK: 811.163.6'243:37.091.64
COBISS: 129975811 Povezava se bo odprla v novem oknu
Št. ogledov: 323
Št. prenosov: 47
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni povzetek: This article describes the creation of a corpus of textbooks for learning Slovenian as a second and foreign language. The KUUS corpus was created as a parallel project for developing graded readers at the Center for Slovenian as a Second and Foreign Language. In its current version, KUUS includes seventeen textbooks, comprises 691,003 tokens or 491,022 words, and, in line with the principles of preparing language resources of this kind, is equipped with metadata and annotations that allow the linguistic data to be used for various purposes. The methodological decisions made in preparing the corpus, the current version of the corpus, and a first example of the use of corpus data are presented. The paper describes how the data were used to compile word frequency lists, which are the first step toward a corpus-based core vocabulary for Slovenian as a second or foreign language and allow comparison with other word lists. The article concludes with plans for further development of the corpus and lists.
Sekundarne ključne besede: Slovene;Slovene as a second language;Slovene as a foreign language;textbook corpus;KUUS;word list;Common European Framework of Reference for Languages;
Vrsta dela (COBISS): Članek v reviji
Strani: Str. 165-174
DOI: 10.4312/Obdobja.41.165-174
ID: 17842868
Priporočena dela:
, ni podatka o podnaslovu
, jezikovni profil uporabnika slovenščine na najnižji ravni