Programa do CILX2018

Ficha completa

TítuloCorpus de textos de estudantes galegos (CORTEGAL). Aspectos metodolóxicos
AutoríaMaría Álvarez de la Granja (Instituto da Lingua Galega-Universidade de Santiago de Compostela)
ResumoO obxectivo desta comunicación é presentar as características principais do Corpus de textos de estudantes galegos (CORTEGAL), un corpus que se está a desenvolver no Instituto da Lingua Galega da Universidade de Santiago de Compostela e que estará conformado por textos redactados en galego por alumnado de segundo de Bacharelato de Galicia. A fonte do corpus son as probas de Avaliación do Bacharelato para o acceso á Universidade (ABAU) da materia Lingua e literatura galegas, das que extraemos unha mostra das redaccións elaboradas como resposta á pregunta número 3, en que se solicita que o/a estudante redacte un texto de ao redor de 200-250 palabras en volta dun tema concreto.

Na comunicación, tras presentar os criterios de conformación da mostra, amosaremos aspectos metodolóxicos relativos á transcrición e á anotación dos textos. Estes serán etiquetados na plataforma TEITOK (Janssen 2016) de acordo cunha tipoloxía de formas non estándares, establecida con base en sistemas similares empregados en corpus de aprendentes con análise informatizada de erros (vid. por exemplo Dagneaux / Denness / Granger 1998; Díaz-Negrillo / Fernández-Domínguez 2006; Lüdeling / Hirschmann 2015), coas necesarias adaptacións derivadas das peculiaridades da lingua analizada e dos informantes (estudantes que teñen o galego como L1 ou L2, pero non como LE, fronte ao que é habitual nos corpus de aprendentes). Na comunicación presentaremos as principais características da tipoloxía de formas non estándares e do sistema de anotación dos textos, que atinxirá a todos os niveis lingüísticos: morfosintáctico, léxico, semántico, ortográfico e discursivo. Finalmente, mostraremos as posibilidades de busca que ofrecerá o recurso, que será de acceso libre en Internet.

Referencias bibliográficas

Dagneaux, Estelle / Sharon Denness / Sylviane Granger (1998): "Computer-aided error analysis", System 26, 126-174.

Díaz-Negrillo, Ana / Jesús Fernández-Domínguez (2006): "Error tagging systems for learner corpora", Revista Española de Lingüistica Aplicada 19, 83-102.

Janssen, Maarten (2016):"TEITOK: Text-Faithful Annotated Corpora", en Nicoletta Calzolari et al. (eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož: European Language Resources Association (ELRA), 4037-4043. <http://www.lrec-conf.org/proceedings/lrec2016/pdf/651_Paper.pdf>

Lüdeling, Anke / Hagen Hirschmann (2015): "Error annotation systems", en Sylviane Granger / Gaëtanelle Gilquin / Fanny Meunier (eds.), The Cambridge handbook of learner corpus research. Cambridge: Cambridge University Press, 135-158.
TipoComunicación
HorarioXoves 14 de xuño | 18:00 - 18:30 | Aula: B2