Introducción a la lingüística computacional
Cursillo
Expositor: Rogelio Nazar
Universidad Nacional de Cuyo. Mendoza, Argentina
Fechas: 13, 14 y 15 de noviembre de 2019
Descripción:
La lingüística computacional es un campo interdisciplinario con vertientes tanto teóricas como
aplicadas y su misión fundamental es el estudio del lenguaje natural por medio de modelos
formales. Este cursillo presenta una introducción al campo, y pretende ofrecer una
perspectiva amplia de los distintos avances y desafíos pendientes de la disciplina. En
particular, el cursillo examinará las teorías y los recursos existentes para el análisis lingüístico
de textos, en los planos morfológico, léxico, sintáctico, semántico y discursivo. Además, se
hará énfasis en la parte práctica, dando siempre la oportunidad al estudiante de ejercitar lo
aprendido mediante la realización de tareas.
El cursillo propone una inmersión en las metodologías de análisis cuantitativo de corpus
centrado principalmente, aunque no exclusivamente, en el análisis del vocabulario, lo que
incluye tanto el estudio del léxico general como el de la terminología especializada.
Plantea un recorrido por distintas técnicas de análisis computacional de textos dispuestas en
un orden progresivo de complejidad, desde el análisis de concordancias en un corpus
monolingüe a análisis estadísticos más complejos y en más de una lengua, incluyendo la
utilización de lenguajes de scripting, que permiten el estudio de las relaciones paradigmáticas
y sintagmáticas. Al final el taller, los participantes tendrán las herramientas como para llevar a
cabo de manera autónoma un análisis lexicológico empírico.
Objetivos
El objetivo del cursillo es que el participante pueda integrar una síntesis estructurada y
coherente de los fundamentos teóricos y metodológicos del estudio computacional del
lenguaje. A la vez, se espera que el participante sea capaz de aplicar estos conocimientos en
una investigación y utilizar tecnologías para el procesamiento del lenguaje natural.
Cronograma:
- Día 1: 13 de noviembre. Introducción: conceptos generales. Contextualización
histórica y principales paradigmas; Lingüística computacional, lingüística cuantitativa y
lingüística de corpus; teoría lingüística y aplicaciones tecnológicas. Ejercicios
prácticos: herramientas básicas de análisis de corpus; expresiones regulares.
- Día 2: 14 de noviembre. Niveles de análisis. Morfología: etiquetado
morfosintáctico; Sintaxis: gramáticas y parsers; Semántica: categorización y
desambiguación. Herramientas avanzadas: lenguajes de scripting: Perl.
- Día 3: 15 de noviembre. Análisis estadístico de corpus. Tratamiento de corpus
bilingües. Ejercicios prácticos con Perl y R.
El sitio web tecling.com ofrece materiales diversos y documentación sobre lingüística computacional .
Software utilizado en el Cursillo:
Lectura recomendada para el taller:
Rogelio Nazar (2009). Invitación al estudio estadístico del lenguaje.
Traducción al castellano de Abril de 2018 de la versión original en catalán publicada en Jaume Martí y Marina Salse (coord.) La terminología y la documentación: relaciones y sinergias Barcelona: Instituto de Estudios Catalanes, 2010, p. 47-73
Bibliografía básica:
- Baayen, R. H. (2008). Analyzing Linguistic Data. A Practical
Introduction to Statistics Using R. Cambridge: Cambridge University
Press.
- Baroni, M.; Evert, S. (2009). Statistical methods for corpus
exploitation. En A. Luedeling & M. Kytö (Eds.), Corpus linguistics: An
international handbook (Vol. 2, pp. 777-802). Berlin: Mouton de
Gruyter.
- Butler, Ch. (1985). Statistics in Linguistics. New York: Basil Blackwell.
- Gries, S. (2009). Quantitative corpus linguistics with R: a practical
introduction. Londres & New York: Routledge, Taylor & Francis Group.
- Hammond, M. (2003). Programming for Linguists: Perl for Language
Researchers. Oxford: Wiley-Blackwell.
- Herdan, G. (1964). Quantitative Linguistics. Londres: Butterworths.
- Howell, D. (2010). Statistical Methods for Psychology. Belmont, CA:
Wadsworth, Cengage Learning.
- Litosseliti, L. (2010). Research methods in Linguistics. Londres: Continuum.
- Manning, C.; Schütze, H. (1999). Foundations of Statistical Natural
Language Processing. Cambridge: MIT Press.
- Marcus, Solomon; Nicolau, Edmond; Stati, Sorin. (1978). Introducción en la lingüística matemática. Barcelona: Teide.
- Pagano, R. (2006). Estadística para las ciencias del comportamiento.
México, D. F.: Thomson International.
- Stubbs, M. (1996). Text and Corpus Analysis. Oxford: Blackwell.
- Verzani, J. (2002). SimpleR: Using R for Introductory Statistics [en
línea]. Disponible en:
https://cran.r-project.org/
Contacto:
rogelio.nazar@pucv.cl