43.2a Metodologiari dagokionez, EUDIMA ikerketa proiektuko corpus zabalaz baliatu gara testuak eta datuak aztertzeko, ikerketa hori baita orain arte kontu hauetaz egin den lanik osoen eta sistematikoena. Egungo euskara zaindua islatu nahi du EUDIMA corpusak462 (Alberdi 2014b).
EUDIMA corpusaren osaera
Guztira 62,6 milioi testu-hitz ditu corpusak eta halako oreka bat lortu da testu itzulien eta jatorrizkoen artean.
Jatorrizkoak |
35,7 milioi testu-hitz |
Itzulpenak |
26,9 milioi testu-hitz |
GUZTIRA |
62,6 milioi testu-hitz |
43.2b Askotariko testu motak biltzen ditu EUDIMA corpusak: akademikoak, lege testuak, prentsa eta saiakera. Eta, bereziki, ahozko hizkuntzara hurbiltzen diren bi azpicorpus ditu: alde batetik, Goenkale, zeinak hein batean lagunarteko erregistroa imitatzen baitu; eta, bestetik, ETBko dokumentalen corpusa, zeinak, entzunak izateko testuen bidez, erregistro zaindua islatzen baitu. Dena dela, argi dago erregistro jasorantz eta hizkuntza idatzirantz lerratuta dagoela corpusa, baina ez berariaz hautu hori egin dugulako, ezpada eskuragarri genituen testuekin osatuko dugulako.
462 URL helbidea: http://www.ehu.es/ehg/eudima/corpusa