Presentado o Novo Corpus Documental do Galego Actual, CORGA

0

Compostela, 4 de novembro do 2017 – O secretario xeral de Política Lingüística, Valentín García, presentou a nova versión ampliada do Corpus Documental do Galego Actual, o CORGA 3.0.

En palabras de García Gómez “o CORGA 3.0 dá un novo paso para poñer a disposición da comunidade científica e dos falantes e da cidadanía en xeral posibilidades para o estudo e a investigación lingüística, nomeadamente para a obtención de datos referidos aos aspectos morfolóxicos, sintácticos e léxicos” e “faino, de acordo coas directrices do Plan xeral de normalización lingüística, da man das tecnoloxías da información e da comunicación e do impulso aos recursos tecnolóxicos da lingua propia de Galicia”, destacou.

Acompañárono na presentación o coordinador científico do CRPIH, Manuel González; a directora do CORGA, Marisol López; o secretario da Real Academia Española e colaborador do CRPIH Guillermo Rojo, e os responsables da coordinación lingüística e informática do proxecto, os investigadores da Universidade de Santiago de Compostela (USC) Eva Domínguez e Mario Barcala, respectivamente.

Corpus de Referencia do Galego Actual

O CORGA é un corpus documental desenvolvido no CRPIH, por medio dun convenio de colaboración coa USC, e integrado por distintos tipos de textos -xornais, semanarios, revistas, ensaios e textos de ficción (novela, relato curto e teatro)- que abrangue temporalmente desde o ano 1975 ata a actualidade e que está codificado no estándar XML (eXtensible Markup Language). A amplitude de documentos que o configuran e os criterios empregados na súa selección, permiten considerar este corpus representativo do uso lingüístico do galego actual.

A nova versión ampliada, a versión 3.0, dispoñible na rede no enderezo http://corpus.cirp.es/corga , consta de case 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. Nela, unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca e preséntase un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre as numerosas novidades que achega destacan a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información a persoa usuaria ten, a maiores, a posibilidade de escoitar o fragmento de audio que corresponde ao contexto dos resultados obtidos. Porén, sen dúbida, a característica máis sobresaliente desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e polo grupo COLE das universidades da Coruña e Vigo.

O Centro Ramón Piñeiro

O CRPIH é un organismo dependente da Consellería de Cultura e Educación, por medio da Secretaría Xeral de Política Lingüística, que se ocupa de levar adiante e de difundir proxectos de investigación lingüística, literaria, histórica e antropolóxica centrados en Galicia. Actualmente, as súas liñas de traballo xiran arredor da lingüística aplicada, a literatura medieval, a recuperación de publicacións literarias ou a identidade colectiva desde un punto de vista antropolóxico.

Share.

Comments are closed.

Uso de cookies

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.plugin cookies

ACEPTAR
Aviso de cookies
Social media & sharing icons powered by UltimatelySocial