Corpusa handituz joan da urtez urte, 2008an zituen 4 milioi testu-hitzetatik abiatuta, eta handituz ez ezik baita edukien aniztasuna areagotuz ere. Euskaltzaindiak, hainbat komunikabide, argitaletxe, elkarte eta erakunderekin sinatuak dituen hitzarmenei esker, ondoko taulak erakusten dituen edukiak corpuseratu ditu:
Iturria | % |
Argia | 7,18 |
Berria | 39,9 |
Consumer | 5,6 |
Deia | 0,88 |
Diario Vasco | 4,76 |
Elhuyar Zientzia eta Teknika | 2,28 |
Jakin | 2,21 |
eitb.eus | 16,53 |
Aizu! | 0,65 |
Ortzadar | 0,59 |
El Correo | 0,17 |
HABE | 0,29 |
ETB | 4,13 |
Goenkale | 5,63 |
Karmel | 0,11 |
Elkar | 8,35 |
Laneki | 0,64 |
Edukiak 2001etik 2015era bitartekoak dira. Hasieran komunikabideei eman zitzaien lehentasuna baina apurka-apurka gai, genero, maila eta gainerako aldaeren arteko oreka lortuz doa.
Euskaltzaindia 1980. urtearen hamarkadan hasi zen lantzen corpusak, haietan oinarritzeko hizkuntzalaritza arloko ikerketa eta araugintza. Horren ondorio izan ziren Hiztegi Batuaren 1. argitaraldia, 2000an eta Orotariko Euskal Hiztegiaren 1. argitaraldia, paperean, 2005ean osatu zena.
Corpus hau Hiztegi Batua aberasteko eta, Euskaltzaindiaren Hiztegia. Adierak eta adibideak egitasmoaren bidez, Akademiaren hiztegi ofiziala lantzeko erabiltzen da. 2016. urtean hiztegi horrek 40.000 sarreratik gora izango ditu, beren kategoria gramatikal, euskalki-, espezialitate- eta erabilera-markekin, adieren definizio eta benetako testuen adibideekin eta azpisarrerekin. Horren oinarrian Orotariko Euskal Hiztegiaren corpusa, XX. mendeko testuena eta Lexikoaren Behatokiarena daude.
Oraingoz hiztegigintzan erabiltzen den arren, prestaturik dago hizkuntzaren beste arlo batzuk ikertzeko euskarria izango den Euskararen Erreferentzia Corpusa izateko, batez ere, testuen katalogazio zehatzaren bidez, une oro euskararen aldaera bakoitzak gizartean duen garrantziaren arabera hornitzen joan daitekeelako.
Nazioarteko estandarren arabera dago etiketatua eta linguistikoki anotatua.
Corpusa prozesatzeko teknologiari dagokionez, Euskaltzaindiarekin lankidetzan dihardute UZEI eta Elhuyar erakundeek eta EHUko Informatika Fakultateko IXA Taldeak.