Märgenduspõhimõtted
Põhjalikum juhend korpuse märgendajale
Märgenduskihtide valikul on olnud eelkõige eeskujuks Mietta Lennese ja Sanna Ahjoniemi märgendusjuhend.
Foneetilised ja lingvistilised kihid
1) sõnad märgitakse ortograafilises kirjaviisis, ka siis kui tegelik hääldus sellest oluliselt lahkneb. Kui sõna jääb pooleli (nt takerdumise tõttu), siis tervet sõna välja ei kirjutata, lõppeb sidekriipsuga (nt sinna > sin-). Liitsõnad märgitakse +-ga (nt kauba+maja). Sellel tasandil märgitakse esialgu ka info mittelingvistiliste tasandite kohta (häälelaadi muutus nagu kärin, kähin, sosin (.?, .Hv, .0); hingamine (.sisse, .välja), köha või köhatus (.köha, .köhatus), naer (.naer, .naerdes), neelatus (.neelatus), üneemid (tähistatakse vastava häälikuga, nt .õõ, .mm. Kui on raske eristada näiteks sõnalõpuvokaali venitusest, võib otsustada venituse märkimise kasuks), vaiksed pausid (#), matsutamine, naksutamine (.matsutus) Kui mittelingvistiliste tasandite nähtused leiavad aset kõne ajal, siis märgitakse need sõna taha kaldkriipsuga (/). Kui kogu kõnelõik on naerdes, võib tähistada selle alguse ja lõpu (/.naerdes). Kõik mitteleksikaalsed segmendid algavad punktiga. Mittelingvistiline info kopeeritakse hiljem eraldi märgenduskihtidele.
2) häälikud märgitakse SAMPA (Speech Assessment Methods Phonetic Alphabet) transkriptsioonis (vt SAMPA kohta üldiselt, SAMPA kirjeldus EKSKFK-s). Märgitakse kõigi leksikaalsete sõnade kõik häälikud. Kui kahe sõna piiril tekib geminatsioon, siis jagatakse see kahe sõna vahel (nt õuna+puu: 7unAp|puu:). Kui kahe sõna piiril tekib siirdehäälik (nt j või w), siis alustab see järgmist sõna (nt ei ole: ei jole või e jole).
Kui kahe sõna piiril on vokaalid, siis jagatakse vokaal akustiliste parameetrite puudumisel pooleks, v.a juhtudel, kui vokaal jääb hääldamata. Kui sõna lõpus on pikem väljahingamine, siis ei märgita seda sõna juurde, vaid väljahingamisena eraldi segmendiks (.välja). Kui see väljendub helitu vokaalina või häälikuna h, siis märgitakse sõna juurde (hääle helituks muutumise saab märkida siis häälelaadi tasandile). Sõnalõpuvenitused vm venitused (nt sõna alguses või sees) märgime kahekordse kooloniga vastava hääliku lõpus (nt seda: sedA::).
3) häälikustruktuurid (CV) – kopeerib häälikukihti, ainult häälikute märgendused asendatakse C-ga konsonandi puhul ja V-ga vokaali puhul;
4) silbid – LL (lühike, lahtine), PL (pikk, lahtine), PK (pikk, kinnine) + silbi järjekorranumber (liitsõnades algab järjekord uue sõnaga otsast peale). Nt kau|ba|ma|ja – 1PL|2LL|1LL|2LL;
5) taktid – siin märgitakse kõnetakti rõhulisust [pearõhku (p) ja kaasrõhku (k) ja sõna rõhutust (0)] ning väldet (1 2 3). Iga takt saab endale tähest ja numbrist koosneva märgendi, millest esimene tähistab rõhku, teine väldet, nt kava|lamale – p1|k1, kavala|male – p1|k1.
Dialoogiüksused
Voorud selguvad siis, kui mõlema dialoogis osaleja jutt on märgendatud. Kasutusel on järgmised märgendid: JUTT, PAUS, millest eristatakse täidetud paus (nt üneem või matsutus), vaikne paus, hingamine.
Häälelaad
Märgirakse eraldi kihile. Tähistame järgmiselt: kärin – .?, kähin – .Hv, sosin – .0, falsett – .F.
Paralingvistilised nähtused
Neid tähistame järgmiselt: sisse- ja väljahingamine – .sisse, .välja; ohkamine – .ohe, haigutamine – .haigutus, aevastamine – .aevastus, köhimine – .köha või .köhatus, neelatamine – .neelatus, rögisemine – .rögin, nuuskamine – .nuuskamine jms.
Muu
Siia märgime tundeseisundid: naermine – .naer või .naerdes (mõni kõnelõik), nutmine – .nutt või .nuttes (mõni kõnelõik), nuuksumine – .nuuksatus jms. Siia märgime ka keelenaksatused, huultega matsutamise jms, mida võib märkida ühismärgendiga .matsutus. Lisaks võiks siis märkida nimed, mis tekstis esinevad (.nimi) ja tsitaadid võõrkeelest (.võõrkeel).