Hizketa-ezagutzaile (STT, speech-to-text) motako ereduek ahots-grabazioak testu idatzi bihurtzeko aukera ematen dute, hizkuntza naturalaren prozesamendu automatikoan oinarrituta. Teknologia honek gero eta garrantzi handiagoa hartzen ari da interfaze digitaletan.
2022. urteaz geroztik, Mozilla Common Voice datu-bilduma erabiliz, jatorrizko Whisper STT eredua euskararako doitzen aritu naiz, doitze fin teknika (ingelesez fine-tuning) bidez. Jatorrizko ereduekin alderatuta, emaitzetan hobekuntza nabarmenak ikusi ditut. Gainera, Mozilla Common Voice ekimena hazten joan den heinean, ereduaren kalitatea are gehiago hobetu da.
Hala ere, argi geratu da kalitate-maila onargarri bat lortzeko ahots-datu gehiagoren premia dagoela.
Duela aste batzuk, HiTZ-Aholab ikerketa zentroak egindako lan berri bat aurkitu nuen. Bertan, Nvidia NeMo eredu elebidun bat sortu dute hainbat datu-bilduma ezberdin baliatuz: Mozilla Common Voice, OpenSLR eta Eusko Legebiltzarreko korpusa.
Lan horrek bultzatuta, datu-bilduma bera erabiltzea erabaki dut Whisper eredua hobetzeko. Emaitzak nabarmen hobetu dira; adibidez, whisper-small-eu
ereduaren hitz-errore tasa (WER, Word Error Rate) %11,84tik %7,63ra jaitsi da.
Datu-bildumak
HiTZ-Aholab txostenean oinarrituta, honako datu-sortak erabili ditut:
- Mozilla Common Voice
- OpenSLR
- Eusko Legebiltzarreko korpusa
Datu-bilduma hauen konbinazioak aniztasun handiagoa eskaintzen du, bai hizlarien aldetik, bai grabazio-kalitatearen aldetik, baita testuinguru eta gai ezberdinen aldetik ere.
Gainera, Asier Herranz ikerlariak datu hauek modu errazean erabiltzeko prestatu ditu: asierhv/composite_corpus_eu_v2.1. Guztira, 675,98 orduko entrenamendu-datuak ditugu eskuragarri.
Emaitzak
Eredu berrien emaitzak:
whisper-large-v3-eu
eredua eguneratu da, WER: %4,84 (lehenago: %7,21).whisper-medium-eu
eredua eguneratu da, WER: %7,14 (lehenago: %8,80)whisper-small-eu
eredua eguneratu da, WER: %7,63 (lehenago: %11,83)whisper-base-eu
eredua (berria), WER: %10,78whisper-tiny-eu
eredua (berria), WER: %13,56
Oharra: hitz-errore tasa (WER) zenbat eta txikiagoa izan, orduan eta hobea da eredua.
Sortutako euskarazko Whisper ereduak hemen eskuragarri daude.
Ebaluazio hauek Mozilla Common Voice 18.0
datu-sortaren test
zatia erabiliz egin dira.
Antzeko alternatibak
- Lehen aipatutako ikerketaz gain, Vicomtech-ek argitaratutako beste lan hau ere azpimarragarria da. Ildo beretik, eta datu-sorta bera erabiliz, euskara-gaztelaniazko Whisper eredua trebatu dute eta emaitza bikainak lortu dituzte. Zoritxarrez, eredu hauek ez dituzte publikoki eskuragarri jarri (nik dakidala).
- HiTZ/stt_eu_conformer_transducer_large: Euskararako hizketa-testu bihurtze eredua, Conformer-Transducer arkitekturan oinarritua. Nvidia NeMo teknologia erabiltzen du eta oso emaitza onak lortzen ditu: %2,79ko WER.
- Elhuyar Aditu ere transkripzio automatikoak egiten dituen hizketa-ezagutzaile bat da. Ez da software librea eta ordainpekoa da, baina haien webgunetik probatzeko aukera eskaintzen dute.