Language Resources
This is an overview of language resources collected and managed by the Institute of Estonian and General Linguistics at the University of Tartu.
The Archives of Estonian Dialects and Kindred Languages
The University of Tartu Archives of Estonian Dialects and Kindred Languages (AEDKL) consist of fieldwork recordings and written materials of Estonian Dialects and Finno-Ugric languages. The user interface of the archives can be found here: http://www.murre.ut.ee/arhiiv/
Language Corpora at the University of Tartu
Name of the corpus |
short description |
Link to homepage or contact person |
Estonian Reference Corpus |
Represents contemporary written Estonian. Includes different text styles: fiction, journalistics, scientific, popular science and new media. Consists of many sub-corpora. | http://www.cl.ut.ee/korpused/segakorpus/index.php?lang=en |
Phonetic Corpus of Estonian Spontaneous Speech |
High quality recordings of spontaneous speech labeled on sound, syllable and word level. | http://www.murre.ut.ee/foneetikakorpus/ |
Eesti kooliõpilaste kirjalik tekstikorpus | Eesti koolilapse keelekasutuse uurimiseks koostatud tekstide kogu koosneb eksami-, kooli- ja võistluskirjanditest. | Kadri Sõrmus <kadri.sormus [ät] ut.ee> |
Estonian Dialect Corpus |
The corpus is based on dialect recordings. Phonetically transcribed texts; Dialect texts in simplified transcription; Morphologically tagged texts; Database containing information about informants and recordings; Syntactically parsed texts. |
http://www.murre.ut.ee/murdekorpus/ |
Eesti vana kirjakeele korpus | Sisaldab olulisemaid tekste 16.--18. sajandist. Tekstid on arvutisse sisestatud autorite kirjaviisi muutmata. | http://www.murre.ut.ee/vakkur/Korpused/ |
MUSU - Multi-Modal Speech Database | Korpuses on erinevates kommunikatiivsetes situatsioonides salvestatud ja/või kajastatud materjal. Korpuses on kaks allkorpust: interaktiivsete suhtlussituatsioonide korpus (ISU) ja kontekstualiseeritud kirjalike tekstide korpus (KOK). | Silvi Tenjes <silvi.tenjes [ät] ut.ee> |
The corpus of learner's language | Sisaldab TÜ eesti keelt teise keelena õppijate loodud kirjalikke tekste. Paralleelkorpus koosneb B1 ja B2 kirjaliku keeleoskustasemega üliõpilaste kirjalike tööde vigaste lausetest. | Kristiina Praakli <kristiina.praakli [ät] ut.ee> |
Tartu ülikooli süstemaatiline netiallkeelte korpus | Korpus sisaldab nii kirjaliku kui suulise netikeele oluliste allkeelte materjale, mis on kogutud süstemaatiliselt ja millele on lisatud vajalikud taustakirjeldused ja vahendid keelematerjali leidmiseks ja analüüsimiseks. | Anni Oja <anni.oja [ät] ut.ee> |
Corpus of Spoken Estonian | Korpus koosneb suhtlussituatsioonide salvestustest ja nende litereeringutest. Iga salvestatud suhtlussituatsiooni juurde kuulub taustakirjeldus, mis annab infot situatsiooni tüübi, osalejate sotsiaalsete omaduste, suhtlusvaldkonna jms kohta. | http://www.cl.ut.ee/suuline/ |