Stt | Xabi Ezpeleta

Nvidia Parakeet euskaraz: azkarra eta CPUrako egokia

Azken egunotan Nvidia Parakeet eredua euskarara doitzen aritu naiz, eta emaitza hemen argitaratu dut. Helburua argia zen: euskarazko hizketa-ezagutza eredu arin bat edukitzea, exekuzio azkarrarekin eta hardware xumeagoan ere erabilgarria izateko. Zehaztasuna eta abiadura Argi esanda, eredu hau ez da nire euskarazko Whisper bertsio onena bezain zehatza: xezpeleta/whisper-large-v3-eu Hala ere, badu abantaila handi bat: oso azkarra da, eta CPU hutsean exekutatu daiteke. Zehaztasun maximoa behar bada, euskarazko Whisper Large v3 da aukera hobea; abiadura eta baliabide gutxiko exekuzioa lehenesten badira, Parakeet aukera oso interesgarria da. ...

Euskarazko bat-bateko transkripzioak

Nazioarteko kongresu eta jardunaldietan, geroz eta ohikoago da bat-bateko transkripzio automatikoak eskuragarri izatea zuzeneko hitzaldietan. Teknologia hauek irisgarritasun-neurri gisa oso baliagarriak dira. Ez soilik entzumen-arazoak dituzten pertsonentzat edo arazo kognitiboak dituztenentzat, baita hizkuntza erabat menperatzen ez dutenentzat ere. Euskaraz horrelako zeozer posible al da? Orain arte ikusi ditudan adibideak ingelesez egiten dira. Duela gutxi euskarazko Whisper eredu berriak argitaratu nituela aprobetxatuz, esperimentu txiki bat egitea erabaki nuen. whisper-tiny-eu bezalako eredu txiki eta arin bat erabiliz, gai izango ote gara euskarazko bat-bateko transkripzio automatikoa egiteko? ...

Euskara hortzetik hitzera: transkripzio ereduak hobetzen

Hizketa-ezagutzaile (STT, speech-to-text) motako ereduek ahots-grabazioak testu idatzi bihurtzeko aukera ematen dute, hizkuntza naturalaren prozesamendu automatikoan oinarrituta. Teknologia honek gero eta garrantzi handiagoa hartzen ari da interfaze digitaletan. 2022. urteaz geroztik, Mozilla Common Voice datu-bilduma erabiliz, jatorrizko Whisper STT eredua euskararako doitzen aritu naiz, doitze fin teknika (ingelesez fine-tuning) bidez. Jatorrizko ereduekin alderatuta, emaitzetan hobekuntza nabarmenak ikusi ditut. Gainera, Mozilla Common Voice ekimena hazten joan den heinean, ereduaren kalitatea are gehiago hobetu da. ...