korpusna raziskava
Tomaž Erjavec (Avtor), Darja Fišer (Avtor)

Povzetek

V prispevku predstavimo korpus in analizo nestandardne slovenščine z družbenega omrežja Twitter. Korpus, ki vključuje tvite iz prvih štirih let obstoja omrežja, vsebuje 360.000 tvitov oz. pet milijonov besed. Slovenščina, uporabljena v njih, je zelo bogata in se precej razlikuje od slovenščine, uporabljene v slovenskem uravnoteženem korpusu ccKRES, in sicer predvsem po pogovorni, bolj fonetični ortografiji, rabi prvin, ki so bolj značilne za govorjeni jezik, ter po pogosti rabi tujejezičnih besed.

Ključne besede

tviti;nestandardna slovenščina;korpusna analiza;ortografija;besedišče;

Podatki

Jezik: Slovenski jezik
Leto izida:
Tipologija: 1.16 - Samostojni znanstveni sestavek ali poglavje v monografski publikaciji
Organizacija: UL FF - Filozofska fakulteta
UDK: 004.773:811.163.6'276'354
COBISS: 53226594 Povezava se bo odprla v novem oknu
Št. ogledov: 9
Št. prenosov: 0
Ocena: 0 (0 glasov)
Metapodatki: JSON JSON-RDF JSON-LD TURTLE N-TRIPLES XML RDFA MICRODATA DC-XML DC-RDF RDF

Ostali podatki

Sekundarni jezik: Angleški jezik
Sekundarni povzetek: This paper presents a corpus of Slovene tweets and the analysis of non-standard Slovene as used on the Twitter social network. The corpus, which comprises tweets from the first four years of Twitterʼs existence, contains 360,000 tweets or 5 million tokens. The Slovene used in the analysed tweets issubstantially different from the balanced corpus of standard Slovene ccKRES.The distinguishing features of ŽTwitter SloveneŽ are a more colloquial,phonetic orthography, frequent use of spoken language elements and an abundance of foreign words.
Sekundarne ključne besede: Tweets;non-standard Slovene;corpus analysis;orthography;vocabulary;
Vrsta dela (COBISS): Članek v reviji
Strani: Str. 109-116
ID: 19519220