Ai | Xabi Ezpeleta

Nvidia Parakeet euskaraz: azkarra eta CPUrako egokia

Azken egunotan Nvidia Parakeet eredua euskarara doitzen aritu naiz, eta emaitza hemen argitaratu dut. Helburua argia zen: euskarazko hizketa-ezagutza eredu arin bat edukitzea, exekuzio azkarrarekin eta hardware xumeagoan ere erabilgarria izateko. Zehaztasuna eta abiadura Argi esanda, eredu hau ez da nire euskarazko Whisper bertsio onena bezain zehatza: xezpeleta/whisper-large-v3-eu Hala ere, badu abantaila handi bat: oso azkarra da, eta CPU hutsean exekutatu daiteke. Zehaztasun maximoa behar bada, euskarazko Whisper Large v3 da aukera hobea; abiadura eta baliabide gutxiko exekuzioa lehenesten badira, Parakeet aukera oso interesgarria da. ...

Latxa VL eredu berriak

Duela gutxi HiTZ zentroak Latxa VL ereduak argitaratu zituen. Eredu hauek Qwen3-VL ereduetan oinarrituak daude eta ikusmenerako gaitasuna dute. Momentuz, bi tamaina ditugu eskuragarri, biak oso txikiak: 2B eta 4B parametro dituzten ereduak. Ondorenera aurkeztutako probak 4B ereduarekin eginak izan dira. Euskaraz dakiten ereduak Orokorrean, horrelako tamaina txikiko ereduek ingelesez txukun erantzuteko gaitasuna izan ohi dute soilik. Latxa VL eredu hauek, ordea, euskaraz egiteko entrenatuak izan dira. Euskaraz ulertzeko gai izan harren, sarri akats batzuk egiten ditu erantzunetan. ...

Kimu

Kimu izeneko hizkuntza eredua argitaratu berri du Orai-k. Gemma 2 ereduan oinarrituta, 2B eta 9B parametro dituzten ereduak sortu dituzte. Oinarrizko ereduari euskaraz egiteko beharrezko jakintza txertatzea lortu dute. Kimu-ko bi ereduak GGUF formatura bihurtu ditut eta Hugging Face biltegian jarri ditut eskuragarri. Modu honetara, Kimu eredua Llama.cpp edo Ollama bezalako aplikazioetan erabiltzea posible da. Aldi berean, @urtzai-k eredu hauek Ollama-ko eredu katalogoan argitaratu ditu, Ollama bidez erabilera errazagoa eginez. ...

Euskarazko bat-bateko transkripzioak

Nazioarteko kongresu eta jardunaldietan, geroz eta ohikoago da bat-bateko transkripzio automatikoak eskuragarri izatea zuzeneko hitzaldietan. Teknologia hauek irisgarritasun-neurri gisa oso baliagarriak dira. Ez soilik entzumen-arazoak dituzten pertsonentzat edo arazo kognitiboak dituztenentzat, baita hizkuntza erabat menperatzen ez dutenentzat ere. Euskaraz horrelako zeozer posible al da? Orain arte ikusi ditudan adibideak ingelesez egiten dira. Duela gutxi euskarazko Whisper eredu berriak argitaratu nituela aprobetxatuz, esperimentu txiki bat egitea erabaki nuen. whisper-tiny-eu bezalako eredu txiki eta arin bat erabiliz, gai izango ote gara euskarazko bat-bateko transkripzio automatikoa egiteko? ...

Euskara hortzetik hitzera: transkripzio ereduak hobetzen

Hizketa-ezagutzaile (STT, speech-to-text) motako ereduek ahots-grabazioak testu idatzi bihurtzeko aukera ematen dute, hizkuntza naturalaren prozesamendu automatikoan oinarrituta. Teknologia honek gero eta garrantzi handiagoa hartzen ari da interfaze digitaletan. 2022. urteaz geroztik, Mozilla Common Voice datu-bilduma erabiliz, jatorrizko Whisper STT eredua euskararako doitzen aritu naiz, doitze fin teknika (ingelesez fine-tuning) bidez. Jatorrizko ereduekin alderatuta, emaitzetan hobekuntza nabarmenak ikusi ditut. Gainera, Mozilla Common Voice ekimena hazten joan den heinean, ereduaren kalitatea are gehiago hobetu da. ...