Eesti keele spontaanse kõne foneetiline korpus
Tartu Ülikooli Eesti keele spontaanse kõne foneetilist korpust luuakse HTM'i programmi "Eesti keeletehnoloogia" rahastusel. Eesti keele spontaanse kõne foneetilise korpuse projekti juhib Pire Teras, korpuse haldamisega tegeleb Pärtel Lippus. Sõna- ja häälikutasandi märgendusega on põhiliselt tegelenud Pire Teras, Pärtel Lippus, Tuuli Tuisk, Nele Salveste, Sander Pajusalu, Liis Raasik, Helen Türk, Kätlin Aare, Anette Ross jt TÜ üliõpilased.
1. Korpuse koostamise metoodika
Milleks on korpust vaja? Esiteks selleks, et saada andmeid spontaanse kõne foneetiliste joonte kohta (nt häälikulised jooned, kaasahääldusnähtused, prosoodilised jooned). Teiseks võimaldab korpus uurida spontaanse kõne erinevaid jooni nii foneetiliste protsesside aspektist kui sotsiofoneetilisest aspektist. Kolmandaks annab korpus materjali kõnetehnoloogide tarvis.
Kui palju kõnelejaid ja kõnematerjali? Ülevaate korpuse hetkeseisust leiab siit.
Korpuse koostamise esimeses etapis (2006-2010) ol kavas lindistada 40 kõnelejat (iga lindistuse tarvis umbes 30 minutit). Kõnelejad on eri vanuses (ligikaudu 12 kõnelejat teismelised ja 20ndates, 8 kõnelejat 30ndates, kaheksa kõnelejat 40ndates, 12 kõnelejat 50ndates ja vanemad) ja eri soost (pooled mehed, pooled naised). Proovitakse leida kõnelejaid, kel oleks erinev piirkondlik ja sotsiaalne taust.
Projekti teise etapi (2011-2014) eesmärgiks on kasvatada korpuse salvestuste maht vähemalt 80 tunnini, mis tähendab salvestusi umbes 50 tunni ulatuses. Uusi lindistusi märgendatakse esmalt sõna- ja häälikutasandil. Lisaks käsitsi märgendamisele katsetatakse sõnatasandil poolautomaatset märgendamist, kasutades kõnetuvastuse abi. Jätkatakse ka nii varasemate kui uute lindistuste märgendamist muudel lingvistilistel kihtidel.
Kõnelejad kutsutakse lindistusele suust suhu kutsega. Et luua dialoogide ajal vabam õhkkond, võiks kõnelejad olla omavahel varem tuttavad. Üks vestlejatest küll juhib vestlust, aga samas ka osaleb selles.
Iga keelejuht täidab enda kohta taustainfot sisaldava ankeedi (vt allpool), milles ta annab ka nõusoleku, et tema kõne lindistusi korpuses kasutatakse. Keelejuhid kodeeritakse (nt 001_N, 002_M – keelejuhi number_sugu). Kui üks keelejuht osaleb mitmel lindistusel, kasutatakse tema kohta sama koodi. Isikuandmeid kõrvalistele isikutele ei avaldata.
Kuidas salvestusi teostatakse? Korpuse tarvis lindistatakse spontaanseid argidialooge, kus keelejuhid vestlevad vabalt valitud teemadel. Lindistatakse (pool)spontaanseid institutsionaalseid monolooge ettekannete, loengute vms näol (nende puhul on siis tegemist ettevalmistatud, kuid mitte ette loetud tekstiga).
2. Salvestuste tehnilised vahendid ja tingimused
Võimalusel tehakse salvestused Tartu Ülikooli ajakirjandusosakonna helistuudios, kus mõlemal kõnelejal on oma mikrofon ja kanal ega ole „segajaid“ (v.a esialgu võõras situatsioon). Lindistatakse otse arvutisse.
Kui stuudiolindistus pole võimalik, siis lindistatakse keelejuhti nt tema kodus, kus on tingimuseks vaikne, liigse mürataustata ruum. Ka siis on igal kõnelejal oma mikrofon ning lindistatakse otse arvutisse.
Poolspontaanse institutsionaalse monoloogi puhul kasutatakse pea külge kinnitatavat mikrofoni ja digitaalsalvestajat.
Helisalvestised salvestatakse wav-formaadis lineaarsetena resolutsiooniga 16 bitti ja 44.1 kHz, signaale ei töödelda. Salvestatud failid saavad nimetuse vastavalt lindistusele ja kõnelejale (nt SKK002-001_N.wav – spontaanse kõne korpuse 2. lindistus-1. keelejuht_naine). Iga salvestise juurde kuulub tekstifailina salvestuse taustainfo (salvestamise aeg, tehnilised andmed jms).
3. Vajalikud segmentimiskihid
Segmentimisel ja märgendamisel kasutatakse kõneanalüüsiprogrammi Praat (Paul Boersma ja David Weeninki poolt Amsterdami Ülikoolis väljatöötatud programm). Segmentimiskihid on järgmised (nende kohta lähemalt vaata siit):
1. foneetilised ja lingvistilised kihid:
- sõnad (ortograafiline kirjaviis)
- häälikud (SAMPA – reegleid vaata allpool)
- häälikustruktuurid (CV),
- silbid
- taktid
- morfoloogilised kategooriad
2. dialoogiüksused (voorud ja pausid);
3. häälelaadi muutumine (kärin, kähin, sosin, falsett);
4. paralingvistilised nähtused (sisse- ja väljahingamine, ohkamine, haigutamine, aevastamine, köhimine jms);
5. muu (tundeseisundid nagu naer, nutt, nuuksumine jms, matsutamine ja naksutamine keele või huultega, nimed, tsitaadid võõrkeeltest).
4. Segmentimisprintsiibid ja märgendusreeglid
Esmane sõnatasandi segmentatsioon saadakse automaatse kõnetuvastuse abil. Seejärel kontrollitakse automaatselt tuvastatud sõnatasani märgendus käsitsi üle ja segmenditakse käsitsi häälikutasand. Sõnatasandil kasutatakse ortograafilist kirjaviisi, häälikutasandil SAMPAT. Tekstifailina salvestatud mängendifail saab helifailiga sama nime.
Segmentimisel jälgitakse häälikutevahelisi piire nii ostsillogrammil kui spektrogrammil. Diftongid jagatakse kaheks, arvestades kahe vokaali vahelist siiret, mis poolitatakse. Geminaatkonsonandid jagatakse Q2 sõnades pooleks, Q3 sõnades põhimõttel 2/3+1/3 (jagamiseks kasutatakse selleks kirjutatud scripti abi). Sõnalõpulisi geminaate osadeks ei jagata. Klusiili ja järgneva helilise hääliku piir pannakse sinna, kus algab järgneva hääliku helilisus. Kui klusiil jääb sõna algusesse, märgitakse foneetiliste iseloomustajate puudumisel selle kestuseks 60–80 ms. Sõnalõpuvokaalide lõpp märgitakse sinna, kus kaovad ülemised formandid (kõrgemal kui F2).
Morfmärgendus tehakse Filosofti analüsaatoriga. Esialgu on morfmärgendus ühestamata.
5. Korpuse kasutamine
Veebipõhine otsingumootor võimaldab otsida korpusest ühe sõna piires, vastuseks antakse 2-sekundiline helilõik ja selle märgendus.
Korpuse mõningate rakenduste tarvis võib olla vajalik ligipääs korpuse tervikfailidele (kõik heli- ja TextGrid-failid). Selleks tuleb võtta ühendust teadur Pärtel Lippusega (partel.lippus [ät] ut.ee).
Foneetikakorpuse sagedussõnastik
Eesti keele spontaanse kõne foneetilise korpuse sagedussõnastik koostatud korpuse 20. juuni 2019 seisuga. Korpus lemmatiseeriti Filosofti morfanalüsaatoriga, tabelis on antud 1000 sagedasema sõna lemma, sõnaliik (Estmorfi sõnaliigid) ning sagedus.
Kirjakeele korpuse sagedaste sõnade loendeid leiab siit.