Real-time transcription

Euskarazko bat-bateko transkripzioak

Nazioarteko kongresu eta jardunaldietan, geroz eta ohikoago da bat-bateko transkripzio automatikoak eskuragarri izatea zuzeneko hitzaldietan. Teknologia hauek irisgarritasun-neurri gisa oso baliagarriak dira. Ez soilik entzumen-arazoak dituzten pertsonentzat edo arazo kognitiboak dituztenentzat, baita hizkuntza erabat menperatzen ez dutenentzat ere. Euskaraz horrelako zeozer posible al da? Orain arte ikusi ditudan adibideak ingelesez egiten dira. Duela gutxi euskarazko Whisper eredu berriak argitaratu nituela aprobetxatuz, esperimentu txiki bat egitea erabaki nuen. whisper-tiny-eu bezalako eredu txiki eta arin bat erabiliz, gai izango ote gara euskarazko bat-bateko transkripzio automatikoa egiteko? ...

martxoa 4, 2024
Speech-to-text

Euskara hortzetik hitzera: transkripzio ereduak hobetzen

Hizketa-ezagutzaile (STT, speech-to-text) motako ereduek ahots-grabazioak testu idatzi bihurtzeko aukera ematen dute, hizkuntza naturalaren prozesamendu automatikoan oinarrituta. Teknologia honek gero eta garrantzi handiagoa hartzen ari da interfaze digitaletan. 2022. urteaz geroztik, Mozilla Common Voice datu-bilduma erabiliz, jatorrizko Whisper STT eredua euskararako doitzen aritu naiz, doitze fin teknika (ingelesez fine-tuning) bidez. Jatorrizko ereduekin alderatuta, emaitzetan hobekuntza nabarmenak ikusi ditut. Gainera, Mozilla Common Voice ekimena hazten joan den heinean, ereduaren kalitatea are gehiago hobetu da. ...

otsaila 27, 2024