Un Blues

Un Blues
Del material conque están hechos los sueños

12 oct 2016

Cazadores de palabras............................................................................ José Luis Aranda.... JAIME CASAL

Así se elabora el Corpes XXI: un retrato del español actual que aspira a reunir 400 millones de formas.

 EPV / RAE

Tienen un objetivo: reunir 25 millones de palabras cada año.
 Valen libros, artículos de prensa, blogs y hasta testimonios orales (siempre que se transcriban, claro). 
Además, todos esos textos pueden venir de cuatro continentes diferentes. 
Pero hay que cumplir con un requisito: que el conjunto sea lo más representativo posible del castellano que se emplea en el mundo actualmente. 
Ese es el verdadero objetivo del Corpus del Español del Siglo XXI, más conocido como CORPES XXI y ya disponible en línea.
 Unas 70 personas trabajan en la codificación de los textos bajo la coordinación de la RAE, que vela por los objetivos de un proyecto que le encargó la Asociación de Academias dela Lengua Española. Sobrerrepresentación es la palabra prohibida. 
“Hay novelas que no podemos incorporar si son muy extensas porque un autor quedaría sobrerrepresentado”, ejemplifica Mercedes Sánchez, coordinadora del CORPES. 
Y lo mismo pasa con el resto de parámetros con que se clasifican los textos.
 En definitiva, que no tendría sentido incorporar más formas de Filipinas que de México porque los hablantes y la producción lingüística del país con más hispanohablantes son muy superiores a los del archipiélago del Pacífico.
 Cuando en 2018 se alcancen los 400 millones de formas (25 millones por cada año entre 2001 y 2016) será la recopilación hasta la fecha.
 Aunque advierte su director, el académico Guillermo Rojo, que no será una muestra total: “Los hablantes somos muchos y hablamos mucho”.

 

No hay comentarios: