Korpuse osad
Eesti murrete korpus koosneb järgmistest osadest:
1) helisalvestised. Murdelindistused on reeglina digitaliseeritud ja wav- või mp3-formaadis. Murdelindistused on tehtud suuremas osas 1960-1970ndatel. Esimesed tekstid pärinevad aastast 1938. Murdekorpuse helifaile saab kuulata Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi kaudu: https://murdearhiiv.ut.ee/. Arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi ning valida MKT (= murdekorpuse tekstid). Seejärel vali mõni arhiivikirje, vajuta sellel, tulemuseks on helifaili kohta käiv metainfo. Vasakul üleval on ka helifaili veebis kuulamise võimalus.
2) foneetilises transkriptsioonis murdetekstid. Foneetilises transkriptsioonis tekstid põhinevad helisalvestistel. Kui võimalik, on kasutatud EKI ja Tartu Ülikooli eesti murrete ja sugulaskeelte arhiivi käsikirjalisi materjale. Kasutatud on traditsioonilist soome-ugri foneetilist transkriptsiooni, mille sisestamiseks on kasutatud spetsiaalseid fonte ja sisestussüsteemi SUT (autor Esko Oja, leitav aadressilt http://clients.andromedia.ee/eki/sut_install.exe). Transkriptsioonid on saadaval docx- ja pdf-failina. Foneetilises transkriptsioonis tekste saab kasutada/lugeda TÜ eesti murrete ja sugulaskeelte arhiivi kaudu: https://murdearhiiv.ut.ee/.
Foneetilises trankriptsioonis tekstide vaatamiseks tuleb arhiivi avalehelt tuleb paremalt ülalt valida nupp Otsi ning valida (taas paremalt ülalt) Otsi käsikiri, avanevalt põhjalikult otsinguväljalt tuleb valida esimene lahter Sari, kust omakorda tuleb valida MKT (= murdekorpuse tekstid). Seejärel vajuta lehekülje all olevat nuppu Otsi. Vastuseks saad arhiivilehe, kus on teksti arhiivikirje ja helifaili number. Fon. transkriptsioonis faili vaatamiseks vajuta vasakul ülal linki Vaata käsikirju. Tekstid on pdf-ina.
3) lihtsustatud transkriptsioonis murdetekstid - foneetilises transkriptsioonis tekstid on üle viidud lihtsustatud transkriptsiooni, mis võimaldab tekste kasutada paljude erinevate programmidega.
4) morfoloogiliselt märgendatud tekstid - igale tekstisõnale on lisatud märksõna, sõnaliik, morf. info, vajadusel ka tähendus ja fraas. Morfoloogiliselt märgendatud tekstid on XML-formaadis. Tekstid on kantud SQL-andmebaasi, millest saab teha päringuid, kasutades otsingumootorit.
5) andmed keelejuhtide, lindistuse ja litereeringute kohta. Iga helisalvetise kohta on kogutud võimalikult palju lsiainfot, seda nii kõneleja, salvestuse, salvestajate, litereerijate jne kohta. Olulisemad andmed on esitatud ka iga tekstifaili päises.
Aastatel 2009-2013 on murdekorpuse tööd finantseeritud programmist "Eesti keel ja kultuurimälu" (projekt nr 09111 "Eesti murrete ja sugulaskeelte andmebaas") ning selle jätkuna alates 2014. aastast programmist "Eesti keel ja kultuurimälu II" projekt nr 14319 "Eesti murrete ja sugulaskeelte andmebaas II". Murdekorpusesse on kaasatud ka lähisugulaskeelte liivi ja vadja keele materjalid.
Murdekorpuse tekstid seotakse helifailidega nii, et otsimootori kaudu on võimalik tekstilõike kuulata.
Alustatud on ka automaatse süntaktilise analüüsiga, selleks kasutatakse Kaili Müürisepa tehtud kitsenduste grammatikal põhinevad kirjakeele süntaksianalüsaatorit, mida on kohandatud murretele (selle kohta vt Lindström, Müürisep 2009).