Zein hizkuntza eredu da hobea euskaraz?

Latxa eredua mugarri garrantzitsu bat izan zen euskarazko adimen artifizialrentzat. Ordurarte ez genuen euskaraz txukun egiten zuen pisu irekiko eredurik. Ondorenera bereziki euskaraz fin egiteko diseinatuak izan diren beste batzuk sortu dira: Kimu (Orai) edota Hitz-ek duela gutxi argitaratutako Latxa Qwen3 VL familiako ereduak.

Aldi berean, lehen mailako eredu lokal berriak agertzen joan dira: Qwen, Gemma, etab. Bereziki interesgarriak izan daitezkeenak agenteetan kanpo-tresnak erabiltzeko. Hauek ere ari dira nabarmenki euskara maila hobetzen. Latxa eredua bezain beste?

Hain zuzen ere hau da nire buruari egiten diodan galdera eredu interesgarri berri bat agertzen den bakoitzean. Eskuz proba batzuk egiteaz gain, ganorazko ebaluazio baten bidez ranking bat egitea beharrezkoa zela iruditu zitzaidan. Horrela jaio da EvalEU, euskarazko Hizkuntza Ereduen euskara maila neurtu eta alderatzeko proiektua.

Honetarako existitzen diren euskarazko ebaluazio benchmark edo datu-sortak erabili ditut (mila esker HiTZ eta Orai).

Hau da momentu honetan dugun rankinga Denboran zehar nola doa aldatzen?

Etorkizunean gehitu nahiko nituzkeen gauzen artean:

Itzulketa automatikoen ebaluazioak gehitu
Eredu lokalaz aratago, api bidezko hornitzaileek eskeinitako eredu erraldoiak ere gehitu (OpenAI, Google, Anthropic…)

Proiektua Itzune ekimenaren baitan argitaratu dut. Webguneaz gain, biltegian ebaluazioak sortzeko erabilitako tresnak ere aurkituko dituzue. Hobekuntzak eta ideiak eskertzen dira!