Murdekorpuse otsing
Morfoloogiliselt märgendatud tekstide otsimootor
Morfoloogiliselt märgendatud tekstidest otsimiseks on otsimootor, mis võimaldab otsida koos kasutuskontekstiga: www.murre.ut.ee/mkweb
Otsimootoris saab päringut teha kõigi väljade põhjal. Olulisemad väljad on:
- Sõne: sõne originaalkujul, nii nagu see tekstis esineb, nt t's'ibõrdõl'l'i, `vaesõq, sääl. Sõne põhjal otsinguid sooritada on siiski tülikas, sest murrete keelekasutus varieerub väga palju. Sõne väljal on kasutatud nn lihtsustatud transkriptsiooni (vt altpoolt lihtsustatud trankriptsiooni eripärasid).
- Märksõna: märksõna on sõna algvorm ehk lemma kirjakeelestatud kujul (kasutatud kirjakeele ortograafiat, kaotatud on vokaalharmoonia), nt tsiberdelema. Kui kirjakeeles on sama tüvega ja sama tähendusega sõna olemas, on märksõnana esitatud kirjakeelne sõna, nt vaene, seal. Märksõnades ei kajastu seega näiteks palatalisatsioon, välde jms.
- Tähendus: tähendus on märksõnale lisatud vaid juhul, kui see erineb kirjakeelest või kui kirjakeeles vastav sõna puudub, nt tsiberdelema 'siplema'.
- Sõnaklass: Sõnaklasside loend on esitatud rippmenüüs. Sõnaklassid erinevad mõnevõrra traditsiooniliselt eesti grammatikates esitatud sõnaliikidest, seepärast on enne ulatuslikumaid otsinguid mõistlik tutvuda sõnaklasside määratlemise põhimõtetega.
- Morfoloogiline info: morfoloogiline info on lisatud muutuvatele sõnadele - käändsõnadele ja pöördsõnadele. Märgenduses kasutatud morfoloogilised kategooriad on esitatud rippmenüüs. Morfoloogilist infot on võimalik otsida korraga mitme tunnuse põhjal, selleks valige rippmenüüst kõik vajalikud kategooriad (ükshaaval). Kategooriate järjekord ei ole oluline.
Alati peab olema määratud, millistest tekstidest päringu sooritate. Võimalik on otsida keele (eesti, vadja, liivi), murde, murraku (kihelkonna) põhjal, aga ka lindistusaasta järgi (erinevatel põhjustel ei toimi see siiski kõigi tekstide puhul). Samuti on võimalik otsingut täpsustada ka keelejuhi kohta käiva info põhjal (vanus ja sugu), kui see peaks vajalik olema. Aastaarvu ja vanuse lahtrisse võib kirjutada nii konkreetse arvu kui ka vahemiku, nt 1960-1970 või ka -1970.
Otsitavale sõnale lisaks saab näha ka konteksti, kui valite menüüst kontekst sõnade arvu, mis igale otsisõnale eelneb ja järgneb. Konteksti saab lähemalt näha päringu vastuses, klõpsates ikoonil . Samas on võimalik kuulata ka helilõiku (NB! Helilõik ei ole saadaval kõigi failide kohta, lisandub töö käigus.)
Päringutulemusi on võimalik kuvada ka kaardirakendusel (vali päringu tulemuste leheküljel: näita kaardil). See tähendab, et kõik murdekorpuse tekstid on varustatud geoinfoga.
Päringu vastus on esitatud tabeli kujul, ent seda saab alla laadida ka .csv-failina ja Exceli failina. Otsitava levikut võib kuvada ka kaardil, kus mingil määral kajastub ka sagedus.
Täpsemat infot murdekorpuse märgendite ja muu korpusega seotu kohta leiate "Murdekorpuse teejuhist 2015".
Vanem otsimootor, mida enam ei täiendata, on leitav siit: http://www.murre.ut.ee/otsing/murde_search_stats.php
Lihtsustatud transkriptsioonis tekstide otsimootor
Lihtsustatud transkriptsioonis tekstidest saab otsida siit: http://www.murre.ut.ee/otsing/syntaks.php. NB! See on üpris vana otsimootor ning seda ei täiendata enam, seetõttu leiab siit vaid vanemad murdekorpuse tekstid. Korpuse kõige uuemad andmed on saadaval eespool kirjeldatud morfmärgendatud korpuse otsimootori kaudu.
Lihtsustatud transkriptsioonist otsides tuleb meeles pidada, et järgitud ei ole kirjakeele ortograafiat, sest on teisendatud otse foneetilisest transkriptsioonist. Mõned erinevused, millega tuleb arvestada:
' märgib palatalisatsiooni, nt t's'ibõrdõl'l'i
`sõna ees märgib 3. vältes sõna, nt `lille (osastavas)
klusiilid on kahekordselt nii 2. kui 3. vältes sõnades, väldet aitab eristada `sõna ees, nt kukke (omastav k.) : `kukke (osastav k.)
* märgib 2. ja 3. välte vahepealset pikkust
= kokkuhääldus
(.) lühike paus
(...) pikk paus
+ liitsõnapiir
NB! Selles otsimootoris sisestatakse terve sõna, nt otsisõna ta puhul otsitakse vaid seda terviksõna, mitte mõne teise sõna koosseisus olevat ta-järjendit. Otsimootor ei anna konteksti rohkem kui sama vooru piires.
Märksõnade sagedusloend
Märgendatud tekstide põhjal oleme koostanud ka märksõnade sagedusloendi, mille leiate zip-failist. Sealt saab need hõlpsalt tõsta näiteks Excelisse vms. Märksõnade sagedusloend on koostatud märksõna välja põhjal, s.t märksõnad on esitatud kirjakeelsel kujul.