2006. aastal käivitus riikliku programmi "Eesti keele keeletehnoloogiline tugi" raames projekt
"Eestikeelne korpuspõhine kõnesüntees". Projekti eesmärgiks on luua kõrgekvaliteediline kõnesüntesaator,
mis põhineks mõõduka suurusega (kuni üks tund salvestatud kõnet) kõnekorpusel. Kui difoonide andmebaasil
põhineval sünteesil vastab igale võimalikule häälikult-häälikule üleminekule täpselt üks difoon, siis korpuspõhisel
sünteesil on kogu kõnekorpus sünteesi akustiliseks baasiks ja kõneüksus valitakse konteksti põhjal.
Kõneüksuste valik korpusest algab kõrgematelt tasanditelt (sõna, kõnetakt, silp) ja eelistatakse võimalikult pikki
kõnestringe. Sellega minimeeritakse vajalikke kõnesignaali ühenduspunktide arvu kõnevoos. Kõneüksuste valikul
optimeeritakse kõneüksuste lingvistilisi ja füüsikalisi parameetreid erinevate sobivuskriteeriumide alusel.
Korpuspõhise sünteesi loomine eeldab järgmiste ülesannete lahendamist:
- tekstikorpuse loomine;
- kõnekorpuse salvestamine professionaalsete diktorite esituses;
- kõnekorpuse märgendamine ja segmenteerimine eri tasanditel (fraas, sõna, kõnetakt, silp, foneem);
- korpuse esitamine fonoloogiliste struktuuridena, mida on võimalik kasutada valikalgoritmi realiseerivas programmis;
- kõneüksuste füüsikaliste (kestus, põhitoon, intensiivsus) ja lingvistiliste (üksuse naabrus, asend lausungis, rõhulisus, välde jm) parameetrite väärtuste määramine;
- kõneüksuste valikalgoritmide loomine;
- kõneüksuste heuristilise valiku ja signaalide ühendamise süsteem;
- kõnesignaali füüsikalisi ja lingvistilisi omadusi arvestavate heuristikute määramine tajukatsete meetodil;
- kõnesüntesaatori realiseerimine Festival - Multisyn arenduskeskkonnas;
- kõne ajalise struktuuri ja põhitooni modelleerimine statistiliste meetodite abil.
Sünteeskõne loomulik rütm ja kõla modelleeritakse prosoodia generaatoriga. Käesoleva projekti raames modelleeritakse sidusa kõne
korpuste baasil erinevate statistiliste meetodite (regressioon, klassifikatsioon ja regressioonipuud, närvivõrgud) abil
kõne ajalist struktuuri ja põhitooni sagedust.
Statistilist prosoodiamudelit on rakendatud difoonsünteesi baasil.
Korpuspõhise kõnesünteesi projekti raames loodud ressurssidest ja
väljatöötatud sünteesimoodulitest on kättesaadavad:
- Korpuspõhise kõnesünteesi jaoks koostatud erinevad tekstikorpused: 697 ja 3350 lauset.
- Kõnekorpused neljale keelejuhile (50-320 minutit kõnet)
- Statistilise prosoodiamudeli
rakendus difoonsünteesil (eelnevalt peab olema installitud MBROLA signaalitöötlusprogramm)
- Eestikeelsete elektrooniliste teabetekstide ettelugemise süsteem nägemispuudega inimestele
- Suurtel kõnekorpustel põhinevad ja erinavatel meetoditel genereeritud sünteeshäälte näited
- Allalaaditavad korpuspõhised sünteeshääled
festvox_eki_et_liisi_cg.tar.gz (5,7 MB)
festvox_eki_et_riina_clunits.tar.gz (100,2MB)
|