Azken urteetan testutik hizketara (ingelesez Text-To-Speech edo TTS) bihurtzeko ereduak izugarri garatu dira. Hilabetez-hilabete ahoskera, prosodia edota audioaren kalitatea hobetzen zuten ereduak argitaratu dituzte. Tamalez, haietako gehienak ingelesez egiteko prestatuak edota, kasurik hoberenean, hizkuntza gutxi batzuekin bateragarriak.

Euskarazko ahotsak sortzeko eskuragarri genituen tresnak mugatuak ziren; ordainezko sistema propietarioak (Orai-k garatutako Elhuyarren TTS neuronala ) edo, bestela, nabarmen atzean geldituak ziren ahots robotiko horiek…

Zorionez, panorama aldatzen ari da azken hilabeteetan.

Maider eta Antton, HiTZ zentroak argitaratutako ereduak

HiTZ zentroak bere TTS ereduak argitaratu ditu. ILENIA proiektuaren baitan bi ahots partekatu dituzte: Antton (gizonezkoa) eta Maider (emakumezkoa). Eredu hauek eskuragarri daude bakoitzak bere ordenagailuan exekutatu ahal izateko, edota nahiago bada, Aholab-en webgunearen bidez erabili daitezke ezer instalatu gabe.

Piper TTS euskarazko ahotsak

Hain zuzen ere, HiTZ zentroak argitaratutako bi ahots horiek baliatuz, Urtzi Odriozolak Piper TTS-rako egokitu ditu. Piper TTS testutik hizketara bihurtzeko tresna arina eta azkarra da. Honi esker, ahots sintetikoak sortu ditzakegu gure gailu xumeetan oso modu azkarrean.

Nahi izanez gero, ezer instalatu gabe, ahots hauek lokalean sintetizatu ahal izateko webgunea sortu dut WebAssembly bidez.

OmniVoice (Xiaomi)

Azken urteetan ezagun egin diren TTS eredu ezagunenak (Coqui, Kokoro, StyleTTS2, VibeVoice, …) badituzte hainbat ezaugarri amankomunean:

  • Ahotsak klonatzeko aukera: sarrera gisa, testuaz gain, erreferentzizko ahots grabaketa labur bat eskeini eta emaitza ahots hori erabiliz sortuko da
  • Emozioen kontrola: barrea, harridura, hasperena… bezalako espresioak sortzeko aukera, etiketa bidez

Eta noski, ahots “errealagoak”, grabaketa erreal batetik ozta-ozta ezberdindu daitezkenak.

Ba, sorpresa! justu ezaugarri guzti hauek betetzen dituen eredu berri bat argitaratu du Xiaomi Corp. erraldoiak: OmniVoice, 600 hizkuntza baina gehiago sintetizatzeko gai den eredua.

Egin ditudan proben arabera, euskaraz bikain egiten duela iruditzen zait, naturaltasun handiarekin. Sentimenduen kontrola egiteko aukera du, adibidez testuan [laugher] etiketa gehituta barrea txertatu nahi badiogu. Hain justu sentimendu kontrol hau euskaraz behintzat ez dabil oso fin, baina beno, ez gara kexatuko. Urrats garrantzitsu bat dela iruditu zait.

"[surprise-wa] hau euskarazko testu batetik sortutako audio bat da!"

Bestalde, nahiz eta ordenagailu soil batean exekutatu daiteken, exekuzioa nahiko astuna eta motela da. Hitz gutxiko esaldi sinple batetik audioa sortzeko 5 minutu inguru behar ditu. Beraz, seguraski, horrelako ereduen inferentzia GPUa duten ordenagailu edo zerbitzarietan egitea izango da arruntena.

Ahots klonazioari dagokionez, egindako proben arabera, erreferentziazko audio motz bat ematea gomendatzen dut (<20s) eta ahal bada isiltasun tarte handirik gabekoa. Audioa sortzeko, denbora luzeagoa beharko du (bikoitza baina gehiago).

Momentuz, OmniVoice demo webgunea erabili daiteke probak egiteko.

Ondorio gisa

Bapateko sintesia behar dugunean, edozein gailutan lokalean exekutatzeko, euskarazko Piper TTS ereduak erabilgarri ditugu orain. Euskarazko Parakeet ahots errekonozimendu ereduarekin primeran moldatzen den eredua izan daiteke.

Aldiz, kalitate handiko euskarazko ahotsak sortu behar ditugunean, emaitzaren kontrol handiagoarekin, OmniVoice aukera interesgarria izan daitekela iruditzen zait. Hori bai, horretarako GPU txartela duen ordenagailua edo zerbitzaria beharko dugu.