Foto: Secretaría Xeral de Política Lingüística

A versión 3.0 do Corpus de Referencia do Galego Actual (CORGA) está xa dispoñible, sen necesidade de rexistro previo e de balde, para a súa consulta en liña. Contén 36,8 millóns de palabras, das que algo máis de 570.000 son formas diferentes. O proxecto desenvólvese no Centro Ramón Piñeiro para a Investigación e Humanidades no marco do convenio subscrito entre a Universidade de Santiago de Compostela e a Consellería de Cultura, Educación e Ordenación Universitaria.



A presentación da nova versión tivo lugar este venres no Centro Ramón Piñeiro e nela interviñeron a directora do proxecto e profesora da USC, Marisol López; o secretario da RAE e tamén docente na USC, Guillermo Rojo; o secretario xeral de Política Lingüística, Valentín García; e o catedrático de Filoloxía Románica da USC e coordinador científico do Centro Ramón Piñeiro, Manolo González. Os coordinadores da parte lingüística e informática do CORGA, Eva Domínguez e Mario Barcala, respectivamente, fixeron ademais unha breve demostración do funcionamento do proxecto.

O CORGA é un corpus documental integrado por distintos tipos de textos, dende xornais, semanarios, revistas, blogs, ensaios, novelas e relatos curtos ata obras de teatro e guións televisivos. Os documentos codifícanse na linguaxe estándar XML e abranguen cronoloxicamente dende 1975 ata a actualidade. Nesta nova versión unifícanse os dous sistemas de consulta en liña dispoñibles anteriormente (o do CORGA e o do CORGAetq) nun único sistema que dá cabida ás diferentes aproximacións de busca. A amplitude de documentos dos que consta así como os criterios empregados na súa selección permiten considerar este corpus representativo do uso lingüístico do galego actual.

Á vangarda dos corpus
Entre as numerosas novidades que achega esta versión destaca a incorporación dunha pequena mostra representativa do rexistro oral da década dos 90, en cuxas transcricións se aliña o texto coa voz, de xeito que no sistema de recuperación de información o usuario ten non só a posibilidade de realizar pescudas en textos orais, senón tamén a posibilidade de escoitar o fragmento que corresponde ao contexto dos resultados obtidos.

Porén, sen dúbida, a característica máis sobresaínte desta versión do corpus é a etiquetaxe automática da totalidade dos documentos que o conforman empregando o Etiquetador/Lematizador do Galego Actual (XIADA), desenvolvido conxuntamente polo CIRP e o grupo COLE das universidades da Coruña e Vigo.

Deste xeito, a mera representación gráfica non restrinxe a potencialidade das consultas e pódese buscar no corpus, con ou sen expresións regulares, por palabra completa, parte dunha palabra ou varias palabras ou partes, contiguas ou non. Mais tamén é posible facer procuras por categoría gramatical, trazos morfolóxicos ou lemas, podendo empregar ademais como parámetros selectores os diversos criterios de clasificación textual, os cales poden combinarse entre si en función das necesidades/desexos do usuario: período temporal, tipo de documento, área temática, parte do documento etc. Así, o CORGA presenta un motor de busca excepcionalmente potente que sitúa o galego na vangarda dos corpus lingüísticos.

Entre outras melloras destacables figuran o incremento do volume textual coa inclusión de novos documentos pertencentes aos últimos lustros; o emprego dunha interfaz gráfica amigable que salienta a visualización dos resultados mediante concordancias e gráficas, as múltiples posibilidades de ordenación dos resultados ou a opción de deshabilitar a sensibilidade a acentos e maiúsculas nas procuras; a clasificación tipolóxica dos documentos, ou a engádega de abundante información nas páxinas estáticas sobre o corpus: descrición, documentos que o integran, historial de versións, publicacións que o referencian, guía de uso, descarga das listaxes de palabras, elementos gramaticais, lemas ou etiquetas etc.

Os recursos relacionados con este proxecto destínanse ás persoas interesadas no estudo da lingua galega actual nos diferentes eidos, fornecéndoos con ferramentas que lles permitan obter datos de diversa índole relacionados co emprego da lingua e desenvolver ferramentas de análise do galego cada vez máis sofisticadas.

  • Una trama piramidal que podría haber recaudado ya más de 500 millones de euros con material sanitario presuntamente falsificado apunta directamente a Feijóo.

    Xornal Galicia A Coruña Lugo Ourense Pontevedra Vigo Santiago Localidades[…]

    Una trama piramidal que podría haber recaudado ya más de 500 millones de euros con material sanitario presuntamente falsificado apunta directamente a Feijóo. El Gobierno liderado por Feijóo  APROVECHÓ LA PANDEMIA Y EL CORONAVIRUS PARA REALIZAR UN NEGOCIO PIRAMIDAL EN MATERIAL SANITARIO PRESUNTAMENTE FALSIFICADO POR TODO ESPAÑA, desde  la Xunta que ponía en funcionamiento su maquinaria comercial a través del (CECOP) Centro de Coordinación Operativa), para realizar un negocio piramidal compartido y utilizando como intermediaria  la empresa SIBUCO 360 S.L y las mascarillas que llegaron a la sede del Sergas en Negreira comenzando su venta a través y web institucional del Sergas con las líneas 902 077 333 como teléfono único de contacto con la Xunta de Galicia http://archive.is/FkQwZ cuya publicidad y campaña fue lanzada por María del Mar Sánchez Sierra ( Asesora del PPdeG ) bajo presupuesto de más de 390.000 euros en el que si incluye campañas pidiendo donativos con el ASUNTO ANÖNIMO, para justificar y presuntamente blanquear capitales a través de 4 cuentas bancarias en distintas entidades privadas, entre ellas ABANCA, SABADELL, SANTANDER etc . Comenzando la publicidad y pesca de[…]

Otros articulos relacionados.....