Murdekorpus
Eesti murrete ja sugulaskeelte andmebaas (ka: Eesti murrete korpus) on kõiki eesti murdeid hõlmav elektrooniline andmekogu, mis sisaldab autentseid murdetekste. Selle põhieesmärk on teha hästi valitud ja võimalikult täpselt litereeritud murdematerjalid uurijatele elektrooniliselt kättesaadavaks ning luua võimalus eesti murrete kõrvutavaks uurimiseks võimalikult suure andmehulga põhjal erinevaid meetodeid rakendades.
Korpus materjalideks on võimalikult vanapärased murdetekstid, millest on olemas ka lindistused, seega autentne keelematerjal. Põhiosa korpuse baasiks olevatest helisalvestustest on tehtud 1960-1970ndatel. Taotlus on kõigilt murdealadelt koguda korpusesse piisav ja enam-vähem võrreldav hulk murdetekste.
Murdekorpus valmib kahe asutuse - Tartu Ülikooli eesti ja üldkeeleteaduse instituudi ja Eesti Keele Instituudi -koostöös. Murdekorpuses kasutatavad materjalid on pärit osaliselt EKIst, osaliselt Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivist. Murdekorpuse tööd alustati 1998. aastal. Tööd rahastatakse praegu riiklikust programmist ”Eesti keel ja kultuurimälu II” (2014-2018, projekt ”Eesti murrete ja sugulaskeelte andmebaas II”) ning see on seotud ka programmi ”Humanitaar- ja loodusteaduslikud kogud” projektiga ”Eesti murrete ja sugulaskeelte arhiiv". Murdekorpust kasutatakse projekti "Eesti murrete süntaks" (PUT90, 2013-2016) täitmisel peamise allikana; selle projekti käigus on valminud ka visualiseerimisvahendid murdekorpuse andmete esitamiseks kaartidena jms.
Pikema ülevaate murdekorpuse kohta leiate "Murdekorpuse teejuhist 2015". Kui soovite kasutada korpuse materjale, mis pole avalikult kättesaadavad, kirjutage: liina.lindstrom {ät} ut.ee. Murdekorpuse otsingumootori leiate lehelt https://murdearhiiv.ut.ee/otsi.php
Liivi ja vadja materjalid murdekorpuses
Korpuse osad
Eesti murrete korpus koosneb järgmistest osadest:
1) helisalvestised. Murdelindistused on reeglina digitaliseeritud ja wav- või mp3-formaadis. Murdelindistused on tehtud suuremas osas 1960-1970ndatel. Esimesed tekstid pärinevad aastast 1938. Murdekorpuse helifaile saab kuulata Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu: https://murdearhiiv.ut.ee/. Arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi ning valida MKT (= murdekorpuse tekstid). Seejärel vali mõni arhiivikirje, vajuta sellel, tulemuseks on helifaili kohta käiv metainfo. Vasakul üleval on ka helifaili veebis kuulamise võimalus.
2) foneetilises transkriptsioonis murdetekstid. Foneetilises transkriptsioonis tekstid põhinevad helisalvestistel. Kui võimalik, on kasutatud EKI ja Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi käsikirjalisi materjale. Kasutatud on traditsioonilist soome-ugri foneetilist transkriptsiooni, mille sisestamiseks on kasutatud spetsiaalseid fonte ja sisestussüsteemi SUT (autor Esko Oja, leitav aadressilt http://clients.andromedia.ee/eki/sut_install.exe). Transkriptsioonid on saadaval docx- ja pdf-failina. Foneetilises transkriptsioonis tekste saab kasutada/lugeda TÜ eesti murrete ja sugulaskeelte arhiivi kaudu: https://murdearhiiv.ut.ee/.
Foneetilises trankriptsioonis tekstide vaatamiseks tuleb arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi ning valida (taas paremalt ülalt) Otsi käsikiri, avanevalt põhjalikult otsinguväljalt tuleb valida esimene lahter Sari, kust omakorda tuleb valida MKT (= murdekorpuse tekstid). Seejärel vajuta lehekülje all olevat nuppu Otsi. Vastuseks saad arhiivilehe, kus on teksti arhiivikirje ja helifaili number. Fon. transkriptsioonis faili vaatamiseks vajuta vasakul ülal linki Vaata käsikirju. Tekstid on pdf-ina.
3) lihtsustatud transkriptsioonis murdetekstid - foneetilises transkriptsioonis tekstid on üle viidud lihtsustatud transkriptsiooni, mis võimaldab tekste kasutada paljude erinevate programmidega.
4) morfoloogiliselt märgendatud tekstid - igale tekstisõnale on lisatud märksõna, sõnaliik, morf. info, vajadusel ka tähendus ja fraas. Morfoloogiliselt märgendatud tekstid on XML-formaadis. Tekstid on kantud SQL-andmebaasi, millest saab teha päringuid, kasutades otsingumootorit.
5) andmed keelejuhtide, lindistuse ja litereeringute kohta. Iga helisalvetise kohta on kogutud võimalikult palju lsiainfot, seda nii kõneleja, salvestuse, salvestajate, litereerijate jne kohta. Olulisemad andmed on esitatud ka iga tekstifaili päises.
Aastatel 2009-2013 on murdekorpuse tööd finantseeritud programmist "Eesti keel ja kultuurimälu" (projekt nr 09111 "Eesti murrete ja sugulaskeelte andmebaas") ning selle jätkuna alates 2014. aastast programmist "Eesti keel ja kultuurimälu II" projekt nr 14319 "Eesti murrete ja sugulaskeelte andmebaas II". Murdekorpusesse on kaasatud ka lähisugulaskeelte liivi ja vadja keele materjalid.
Murdekorpuse tekstid seotakse helifailidega nii, et otsimootori kaudu on võimalik tekstilõike kuulata.
Alustatud on ka automaatse süntaktilise analüüsiga, selleks kasutatakse Kaili Müürisepa tehtud kitsenduste grammatikal põhinevad kirjakeele süntaksianalüsaatorit, mida on kohandatud murretele (selle kohta vt Lindström, Müürisep 2009).
Murdejaotus
Murdekorpus järgib üldjoontes murdeõpikus (K. Pajusalu, T. Hennoste, E. Niit, P. Päll, J. Viikberg "Eesti murde ja kohanimed", Tallinn 2002, 2009) esitatud murdejaotust. Eesti murded on murdekorpuses jagatud 10 murdesse:
- kirderanniku murderühma kuuluvad kirdemurre ehk Alutaguse murre ja rannamurre
- põhjaeesti murderühma kuuluvad keskmurre, läänemurre, saarte murre, idamurre
- lõunaeesti murderühma kuuluvad Tartu, Võru, Mulgi ja Seto murre
Murdejaotust illustreerib järgmine kaart.
Murdekorpuse otsing
Morfoloogiliselt märgendatud tekstide otsimootor
Morfoloogiliselt märgendatud tekstidest otsimiseks on otsimootor, mis võimaldab otsida koos kasutuskontekstiga: www.murre.ut.ee/mkweb
Otsimootoris saab päringut teha kõigi väljade põhjal. Olulisemad väljad on:
- Sõne: sõne originaalkujul, nii nagu see tekstis esineb, nt t's'ibõrdõl'l'i, `vaesõq, sääl. Sõne põhjal otsinguid sooritada on siiski tülikas, sest murrete keelekasutus varieerub väga palju. Sõne väljal on kasutatud nn lihtsustatud transkriptsiooni (vt altpoolt lihtsustatud trankriptsiooni eripärasid).
- Märksõna: märksõna on sõna algvorm ehk lemma kirjakeelestatud kujul (kasutatud kirjakeele ortograafiat, kaotatud on vokaalharmoonia), nt tsiberdelema. Kui kirjakeeles on sama tüvega ja sama tähendusega sõna olemas, on märksõnana esitatud kirjakeelne sõna, nt vaene, seal. Märksõnades ei kajastu seega näiteks palatalisatsioon, välde jms.
- Tähendus: tähendus on märksõnale lisatud vaid juhul, kui see erineb kirjakeelest või kui kirjakeeles vastav sõna puudub, nt tsiberdelema 'siplema'.
- Sõnaklass: Sõnaklasside loend on esitatud rippmenüüs. Sõnaklassid erinevad mõnevõrra traditsiooniliselt eesti grammatikates esitatud sõnaliikidest, seepärast on enne ulatuslikumaid otsinguid mõistlik tutvuda sõnaklasside määratlemise põhimõtetega.
- Morfoloogiline info: morfoloogiline info on lisatud muutuvatele sõnadele - käändsõnadele ja pöördsõnadele. Märgenduses kasutatud morfoloogilised kategooriad on esitatud rippmenüüs. Morfoloogilist infot on võimalik otsida korraga mitme tunnuse põhjal, selleks valige rippmenüüst kõik vajalikud kategooriad (ükshaaval). Kategooriate järjekord ei ole oluline.
Alati peab olema määratud, millistest tekstidest päringu sooritate. Võimalik on otsida keele (eesti, vadja, liivi), murde, murraku (kihelkonna) põhjal, aga ka lindistusaasta järgi (erinevatel põhjustel ei toimi see siiski kõigi tekstide puhul). Samuti on võimalik otsingut täpsustada ka keelejuhi kohta käiva info põhjal (vanus ja sugu), kui see peaks vajalik olema. Aastaarvu ja vanuse lahtrisse võib kirjutada nii konkreetse arvu kui ka vahemiku, nt 1960-1970 või ka -1970.
Otsitavale sõnale lisaks saab näha ka konteksti, kui valite menüüst kontekst sõnade arvu, mis igale otsisõnale eelneb ja järgneb. Konteksti saab lähemalt näha päringu vastuses, klõpsates ikoonil . Samas on võimalik kuulata ka helilõiku (NB! Helilõik ei ole saadaval kõigi failide kohta, lisandub töö käigus.)
Päringutulemusi on võimalik kuvada ka kaardirakendusel (vali päringu tulemuste leheküljel: näita kaardil). See tähendab, et kõik murdekorpuse tekstid on varustatud geoinfoga.
Päringu vastus on esitatud tabeli kujul, ent seda saab alla laadida ka .csv-failina ja Exceli failina. Otsitava levikut võib kuvada ka kaardil, kus mingil määral kajastub ka sagedus.
Täpsemat infot murdekorpuse märgendite ja muu korpusega seotu kohta leiate "Murdekorpuse teejuhist 2015".
Vanem otsimootor, mida enam ei täiendata, on leitav siit: http://www.murre.ut.ee/otsing/murde_search_stats.php
Lihtsustatud transkriptsioonis tekstide otsimootor
Lihtsustatud transkriptsioonis tekstidest saab otsida siit: http://www.murre.ut.ee/otsing/syntaks.php. NB! See on üpris vana otsimootor ning seda ei täiendata enam, seetõttu leiab siit vaid vanemad murdekorpuse tekstid. Korpuse kõige uuemad andmed on saadaval eespool kirjeldatud morfmärgendatud korpuse otsimootori kaudu.
Lihtsustatud transkriptsioonist otsides tuleb meeles pidada, et järgitud ei ole kirjakeele ortograafiat, sest on teisendatud otse foneetilisest transkriptsioonist. Mõned erinevused, millega tuleb arvestada:
' märgib palatalisatsiooni, nt t's'ibõrdõl'l'i
`sõna ees märgib 3. vältes sõna, nt `lille (osastavas)
klusiilid on kahekordselt nii 2. kui 3. vältes sõnades, väldet aitab eristada `sõna ees, nt kukke (omastav k.) : `kukke (osastav k.)
* märgib 2. ja 3. välte vahepealset pikkust
= kokkuhääldus
(.) lühike paus
(...) pikk paus
+ liitsõnapiir
NB! Selles otsimootoris sisestatakse terve sõna, nt otsisõna ta puhul otsitakse vaid seda terviksõna, mitte mõne teise sõna koosseisus olevat ta-järjendit. Otsimootor ei anna konteksti rohkem kui sama vooru piires.
Märksõnade sagedusloend
Märgendatud tekstide põhjal oleme koostanud ka märksõnade sagedusloendi, mille leiate zip-failist. Sealt saab need hõlpsalt tõsta näiteks Excelisse vms. Märksõnade sagedusloend on koostatud märksõna välja põhjal, s.t märksõnad on esitatud kirjakeelsel kujul.
Murdekorpuse hetkeseis
Murdekorpuse hetkeseis (eesti murded)
See, kui palju materjali erinevatelt murdealadelt ja murrakutest on korpusesse kaasatud, sõltub sellest, 1) kui palju üldse on aegade jooksul tehtud salvestisi eri aladelt ning kui palju neid on juba eelnevalt transkribeeritud, 2) kui suure alaga on tegu (suuremate alade kohta on reeglina rohkem materjali, nt keskmurde või läänemurde alalt), 3) kui kaugele on korpuse arendamisega jõutud. Korpusesse lisatakse tekste pidevalt.
Järgnevas tabelis on esitatud sõnade arv eesti murrete korpuses 17.11.2015 seisuga. Erinevused foneetilises transkriptsioonis tekstide ja märgendatud tekstide vahel tulenevad metoodikast: fon. tr. tekstides on kokku leotud kogu faili sõnade arv, märgendatud tekstides ainult keelejuhi sõnade arv, sest ainult keelejuhi sõnad on saanud märgendi. Täpsem info korpuse seisu kohta on saadaval siin.
Murre |
Foneetilises tr. sõnu |
Morf märgendatud sõnu |
Idamurre |
66180 |
50570 |
keelesaared |
24268 |
0 |
Keskmurre |
215206 |
150754 |
Kirdemurre |
76104 |
56525 |
Läänemurre |
305041 |
193381 |
Mulgi |
83335 |
65432 |
Rannamurre |
103048 |
57128 |
Saarte |
317069 |
201184 |
Setu |
108653 |
71769 |
Tartu |
89216 |
64519 |
Võru |
152673 |
96818 |
Eesti murded kokku |
1540793 |
1008080 |
Järgnev joonis illustreerib, millal on murdekorpuse tekstid salvestatud.
Järgnev kaart illustreerib, kui palju teksti on eri kihelkondadest kaasatud (morf. märgendatud tekstide põhjal) ning mis alad on seni katmata. Kaardi aluseks on morf. märgendatud tekstid 1.07.2015 seisuga (kaardi on teinud Kristel Uiboaed).
Kaardil on esitatud eesti murrete andmestiku kogumispunktid ehk külad (morf tekstide põhjal, 19.01.2016 seisuga, sh liivi ja vadja külad). Kaardi on teinud Kristel Uiboaed.
Liivi ja vadja keel
Murdekorpusesse on lisatud ka vadja ja liivi keele materjale, mida on märgendatud erinevate projektide raames. Vadja ja liivi materjalid on pärit erinevatest allikatest: peamiselt litereeritud salvestustest ja varasematest publitseeritud tekstikogumikest. Samuti varieerub tekstide ülesmärkimine: vadja keele puhul on kasutatud lihtsustatud tranksriptsiooni, liivi keele puhul ortograafiat või foneetilist trankriptsiooni.
Murdekorpuse osana käsitleme eelkõige morfoloogiliselt märgendatud tekste, mis on lisatud murdekorpuse otsimootorisse www.murre.ut.ee/mkweb.
Morfoloogiliselt märgendatud sõnade hulk vadja ja liivi keeles murdekorpuse otsimootoris ja tekstide allikad (17.11.2015 seisuga).
Keel |
Morf. märgendatud tekstisõnu |
Tekstide allikad |
Liivi keel |
44248 |
Suulised: keelejuhid Grizelda Kristiņ, Poulin Klavin (5511 tekstisõna) Tekstikogumikud: E.N. Setälä “Näytteitä Liivin kielestä” (38737 tekstisõna) |
Vadja keel |
34331 |
Suulised tekstid (lindistanud H. Heinsoo): 9904 tekstisõna (6 keelejuhti) Tekstikogumikud (24219 tekstisõna): Paul Ariste “Vadja muistendeid” (1977) Paul Ariste “Vadjalane kätkist kalmuni” (1974) Elna Adler “Vadjalaste endisajast” (1960) |
Vadja ja liivi keele puhul on korpusest otsimisel abiks väli Tähendus, mis võimaldab päringu tegemisel lähtuda eesti keelest. Erinevalt eesti keele traditsioonist on vadja ja liivi tekstidel pöördsõnade lemma ja tähendus esitatud da-infinitiivi kujul. Otsimisel märkige kindlasti keel, millest otsite.