Eestikeelene korpuspõhine kõnesüntees



2006. aastal käivitus riikliku programmi "Eesti keele keeletehnoloogiline tugi" raames projekt "Eestikeelne korpuspõhine kõnesüntees". Projekti eesmärgiks on luua kõrgekvaliteediline kõnesüntesaator, mis põhineks mõõduka suurusega (kuni üks tund salvestatud kõnet) kõnekorpusel. Kui difoonide andmebaasil põhineval sünteesil vastab igale võimalikule häälikult-häälikule üleminekule täpselt üks difoon, siis korpuspõhisel sünteesil on kogu kõnekorpus sünteesi akustiliseks baasiks ja kõneüksus valitakse konteksti põhjal. Kõneüksuste valik korpusest algab kõrgematelt tasanditelt (sõna, kõnetakt, silp) ja eelistatakse võimalikult pikki kõnestringe. Sellega minimeeritakse vajalikke kõnesignaali ühenduspunktide arvu kõnevoos. Kõneüksuste valikul optimeeritakse kõneüksuste lingvistilisi ja füüsikalisi parameetreid erinevate sobivuskriteeriumide alusel.
Korpuspõhise sünteesi loomine eeldab järgmiste ülesannete lahendamist:
- tekstikorpuse loomine;
- kõnekorpuse salvestamine professionaalsete diktorite esituses;
- kõnekorpuse märgendamine ja segmenteerimine eri tasanditel (fraas, sõna, kõnetakt, silp, foneem);
- korpuse esitamine fonoloogiliste struktuuridena, mida on võimalik kasutada valikalgoritmi realiseerivas programmis;
- kõneüksuste füüsikaliste (kestus, põhitoon, intensiivsus) ja lingvistiliste (üksuse naabrus, asend lausungis, rõhulisus, välde jm) parameetrite väärtuste määramine;
- kõneüksuste valikalgoritmide loomine;
- kõneüksuste heuristilise valiku ja signaalide ühendamise süsteem;
- kõnesignaali füüsikalisi ja lingvistilisi omadusi arvestavate heuristikute määramine tajukatsete meetodil;
- kõnesüntesaatori realiseerimine Festival - Multisyn arenduskeskkonnas;
- kõne ajalise struktuuri ja põhitooni modelleerimine statistiliste meetodite abil.

Sünteeskõne loomulik rütm ja kõla modelleeritakse prosoodia generaatoriga. Käesoleva projekti raames modelleeritakse sidusa kõne korpuste baasil erinevate statistiliste meetodite (regressioon, klassifikatsioon ja regressioonipuud, närvivõrgud) abil kõne ajalist struktuuri ja põhitooni sagedust. Statistilist prosoodiamudelit on rakendatud difoonsünteesi baasil.

Korpuspõhise kõnesünteesi projekti raames loodud ressurssidest ja väljatöötatud sünteesimoodulitest on kättesaadavad:

  1. Korpuspõhise kõnesünteesi jaoks koostatud erinevad tekstikorpused: 697 ja 3350 lauset.
  2. Kõnekorpused neljale keelejuhile (50-320 minutit kõnet)
  3. Statistilise prosoodiamudeli rakendus difoonsünteesil (eelnevalt peab olema installitud MBROLA signaalitöötlusprogramm)
  4. Eestikeelsete elektrooniliste teabetekstide ettelugemise süsteem nägemispuudega inimestele
  5. Suurtel kõnekorpustel põhinevad ja erinavatel meetoditel genereeritud sünteeshäälte näited
  6. Allalaaditavad korpuspõhised sünteeshääled

    festvox_eki_et_liisi_cg.tar.gz (5,7 MB)
    festvox_eki_et_riina_clunits.tar.gz (100,2MB)