August 19, 2025We are moving back to Spain
 |
After eleven and a half years
and many adventures, Irene Renau and Rogelio Nazar
are moving back to Barcelona, to begin a new stage in their life.
This web site and all associated applications will be offline while the change is taking place. Please be patient. Everything will be back online as soon as possible. We need to change servers and this must happen one software at a time. We will be updating on this development.
We would like to express our gratitude to our employers at Pontificia Universidad Católica de Valparaíso for letting us develop our academic careers, for all the support, and the great moments we had.
|
5 de agosto de 2025Tuvo lugar el II Seminario de Invierno en Semántica Léxica y Lexicografía
Parece que el Instituto de Literatura y Ciencias del Lenguaje (ILCL) de la Pontificia Universidad Católica de Valparaíso (PUCV) se ha convertido en un foro internacional de la lingüística y, en particular, de la lexicología y la lingüística de corpus. Este martes 5 de agosto, en el Auditorio del ILCL, tuvimos unos invitados de lujo en nuestra
nueva edición de los Seminarios de Invierno en Semántica Léxica y Lexicografía
.
Presentó su trabajo José Ramón Carriazo, de la Universidad Nacional de Educación a Distancia (UNED) y Olga Batiukova, de la Universidad Autónoma de Madrid, dos profesores que en este momento coinciden en una estancia de investigación en el ILCL. Además, presentarán Javiera Ahumada y Constanza Suy, dos egresadas del Magíster en Lingüística Aplicada, y Sabela Fernández-Silva, Irene Renau y Rogelio Nazar, profesores de la PUCV.
|
 |
25 de julio de 2025Guillermo Rojo dictó una conferencia en la Pontificia Universidad Católica de Valparaíso
 |
El destacado lingüista español Guillermo Rojo,
profesor emérito de la Universidad de Santiago de Compostela, miembro de la Real Academia Española y una de las figuras más importantes de la lingüística española actual, dictó una conferencia para el Doctorado en Lingüística del Instituto de Literatura y Ciencias del Lenguaje de la Pontificia Universidad Católica de Valparaíso, con el título Corpus textuales, diccionarios de frecuencia dinámicos y otras explotaciones.
Aquí el enlace al video de la conferencia: https://youtu.be/IMlKBlg32V4
Resumen:
Los recursos informáticos, los corpus y la lingüística de corpus han
modificado fuertemente el modo de trabajar en lingüística y han tenido
también un impacto notable en algunos de los recursos y temas más tratados
tradicionalmente. El primero de esos aspectos es el constituido por los
llamados 'diccionarios de frecuencia', un tipo de obra sobre la que se han
acumulado las críticas desde sus orígenes hasta nuestros días. Los
recursos informáticos que tenemos ahora a nuestra disposición permiten
solucionar la mayor parte de los problemas planteados y construir DF que
sirvan realmente a los propósitos con los que son utilizados. Al tiempo,
la posibilidad de obtener datos de corpus textuales formados por cientos
de millones de palabras y seleccionar los resultados en función del origen
de los textos y el tipo al que pertenecen permite arrojar una nueva luz
sobre cuestiones como el tamaño del lemario necesario para desenvolverse
en español o la distribución del léxico en los diferentes países del mundo
hispánico.
|
23 de julio de 2025Presentamos ponencias en el Congreso de la Asociación Internacional de Hispanistas
Tres investigadores del Grupo Tecling estuvieron presentes en el XXII Congreso de la Asociación Internacional de Hispanistas, realizado en la Universidad de los Andes, Santiago de Chile, donde compartieron avances de investigación. El
Dr. Hernán Robledo expuso “Variación formal y funcional de los marcadores del discurso en interacciones digitales: el caso de los comentarios de YouTube en español”. A partir de 1.048 comentarios en videos de noticias chilenos, identificó y clasificó 1.191 ocurrencias de conectores y operadores discursivos, proponiendo un sistema de paradigmas formal-funcionales. Sus hallazgos muestran la alta productividad de conectores interactivos y operadores modales y argumentativos, propios del discurso digital, que evidencian que la variación en estos entornos es dinámica y expresiva, superando la rigidez de la escritura formal.
El Dr. Rogelio Nazar presentó “Análisis de los patrones léxicos parafrásticos del discurso especializado en castellano”. Con un corpus de 3.600 artículos y cerca de 30 millones de palabras, identificó patrones parafrásticos frecuentes y desarrolló un prototipo para su detección automática. Los resultados confirman que la paráfrasis puede predecir el carácter especializado de una unidad léxica, lo que abre nuevas posibilidades para la extracción automática de terminología y el análisis del discurso científico.
Finalmente, la Dra. Irene Renau expuso “Las metáforas en los diccionarios: hacia una propuesta de representación en Verbario”, donde analiza la metáfora en diccionarios generales del español y propone una microestructura innovadora para Verbario, diccionario de verbos basado en patrones sintáctico-semánticos. En el marco del proyecto Fondecyt Regular 1231594, integra análisis semiautomatizados para mapear metáforas, dominios y redes verbales, introduciendo cambios estructurales en su organización y microestructura
|
 |
3 de julio de 2025Ayer tuvimos la presentación de Imma López-Solà
 |
El miércoles 2 de julio de 2025 tuvo lugar esta charla de la profesora Imma López-Solà en el Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso. El título de la exposición es 'Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español', y en ella, Imma nos habló de su investigación en aprendizaje de español como segunda lengua, que forma parte de su tesis doctoral de la de la Universitat Pompeu Fabra, de Barcelona.
El video de la exposición completa está disponible en este enlace:
https://youtu.be/FzvphPDO3sw
El trabajo fue recientemente publicado en forma de artículo en la revista Applied Linguistics:
https://doi.org/10.1093/applin/amaf017
Aquí un twit de la autora en el que describe esta investigación:
https://x.com/immakoolaid/status/1925255695248572726
El siguiente es un resumen de esta exposición:
Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español
El uso de lecturas graduadas (LGs) en la enseñanza de lenguas extranjeras es una práctica habitual, ya que permiten ofrecer input contextualizado adaptado al nivel de cada estudiante. Sin embargo y pese a que su elaboración se basa en criterios poco sistematizados (Claridge, 2012; Nation y Waring, 2020), se da por sentado que están bien calibradas y se utilizan, entre otras cosas, para desarrollar recursos y sistemas de aprendizaje de lenguas asistido por ordenador (ALAO) (p. ej., Dürlich y François, 2018). En este estudio analizamos la progresión de la complejidad lingüística en un conjunto representativo de LGs en español y, dado que su disponibilidad es limitada, evaluamos hasta qué punto determinadas obras literarias (OLs) dirigidas a hablantes nativos de distintas edades presentan una graduación comparable que permita su aprovechamiento didáctico. Con este objetivo, combinamos técnicas de procesamiento del lenguaje natural y aprendizaje automático del siguiente modo: a partir de un corpus compuesto por 50 LGs, 50 OLs y 8585 unidades léxicas graduadas, calculamos 40 medidas de complejidad léxica y morfosintáctica, y entrenamos modelos de bosque aleatorio para analizar la variación de la complejidad entre niveles. Posteriormente, realizamos tests de permutación con las cuatro medidas más informativas para comparar la complejidad entre subcorpus y también con un corpus de referencia de español general. Por último, empleamos técnicas distribucionales para estudiar la progresión del vocabulario más allá de cualquier lista predefinida de unidades léxicas graduadas. Los resultados evidencian que la complejidad lingüística no progresa de forma sistemática en ninguno de los dos tipos de lectura, siendo especialmente inconsistente en las LGs de nivel avanzado. Asimismo, se observa una diferencia sustancial entre los niveles iniciales de las LGs y las OLs, pero también una convergencia progresiva en los niveles intermedios y avanzados. Estos hallazgos tienen implicaciones relevantes tanto para el diseño de materiales educativos adecuados al nivel del estudiantado como para el desarrollo de aplicaciones de ALAO, que podrían beneficiarse del uso de OLs para ampliar sus datos de entrenamiento y generar input graduado. Recomendamos, en consecuencia, una mayor sistematización en la elaboración de las LGs, complementando el proceso cualitativo de escritura con análisis cuantitativos que optimicen la calibración de la complejidad lingüística en este tipo de materiales didácticos.
Referencias
Claridge, G. (2012). Graded readers: How publishers make the grade. Reading in a Foreign Language 24(1): 106–119.
Dürlich, L., y François, T. (2018). EFLLex: A graded lexical resource for learners of English as a foreign language. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), pp. 873–879. European Language Resources Association.
Nation, P. y Waring, R. (2020). Teaching extensive reading in another language. Routledge.
|
10 de junio de 2025Olga Batiukova dictó una clase en el Doctorado en Lingüística
Hoy martes 10 de junio tuvimos una clase abierta, organizada por el Doctorado en Lingüística de la PUCV, en el marco de la asignatura “Estudios Gramaticales: de la palabra al texto”. La expositora, en esta oportunidad, fue la distinguida profesora Dra. Olga Batiukova, de la Universidad Autónoma de Madrid. Olga es una especialista de renombre internacional en semántica léxica, y para nosotros es un gran honor que haya querido venir a visitarnos.
En esta oportunidad, desarrolló el tema de la polisemia léxica. En particular, se centró en el tema de la polisemia regular, que ha trabajado desde la teoría del lexicón generativo, junto con James Pustejovsky, creador de esta línea teórica y coautor de esta profesora en uno de sus libros más recientes. Desde esta teoría, la investigadora ha propuesto una explicación para la diferencia entre polisemia y homonimia. Además, desarrolló, entre otros temas, el fenómeno de la copredicación, en la que coexisten, en una misma palabra y en un mismo contexto, más de un significado. Explicó, también, una de sus últimas investigaciones, publicada en la Revista Signos, en la que aborda la relación entre la polisemia regular y la morfología de la derivación denominal en español.
|
 |
June 1st, 2025We have a new version of Kind, the taxonomy project
24 de mayo, 2025Hernán Robledo presenta ponencia en Congreso ArDis
Nuestro colega y colaborador Hernán Robledo presentó una ponencia en el Congreso ArDis 2025 (La arquitectura del discurso: categorías, unidades y relaciones). Su ponencia se titula ``Variación formal y funcional de los conectores y operadores discursivos en interacciones digitales: el caso de los comentarios de YouTube en español'' y consite en una propuesta de metodología híbrida para sistematizar la variación formal y funcional de los marcadores del discurso en español. Esta investigación se enmarca en su proyecto Fondecyt de Postdoctorado N°3230617, titulado ``Variación formal de marcadores del discurso en español: extracción y clasificación de variantes mediante técnicas semiautomáticas de explotación de corpus'', patrocinado por la Pontificia Universidad Católica de Valparaíso (PUCV) y la profesora Irene Renau.
En su exposición, Hernán presentó los primeros hallazgos del análisis de un corpus de interacciones escritas extraídas de YouTube aplicando la distinción teórica entre conectores y operadores discursivos propuesta por Catalina Fuentes Rodríguez, directora del Grupo APL de la Universidad de Sevilla. Señaló además que, dado el caracter altamente interactivo, expresivo, argumentativo y dinámico de los intercambios en esta plataforma, es posible observar tanto las formas plenamente gramaticalizadas como aquellas construcciones emergentes o parcialmente fijadas, que aún presentan rasgos de flexibilidad estructural y semántica.
Felicitamos a nuestro amigo y nos enorgullece que lleve adelante un trabajo investigativo de calidad.
|
 |
29 de abril, 2025Imma López vino a hacer su estancia de investigación predoctoral
 |
Tenemos el gran honor de recibir a
Inmaculada López-Solá, profesora y doctoranda del Departamento de Traducción y Ciencias del Lenguaje de la Universitat Pompeu Fabra,
quien ha decidido venir a Viña del Mar a realizar su estancia de investigación predoctoral con el Grupo Tecling.
Imma trabaja en el campo del Español como Lengua Extranjera aplicando sus conocimientos de lingüística computacional y lexicografía,
y se interesa por el desarrollo de sistemas que sean capaces de detectar los errores de vocabulario, ofrecer retroalimentación y generar actividades de seguimiento personalizada para los estudiantes.
En el marco de su visita, participará de diferentes actividades, entre las que se incluye la presentación de una charla en el
Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso para dar a conocer los resultados de su investigación doctoral.
Pronto estaremos difundiendo por diferentes medios la fecha, hora y lugar de este evento.
Por ahora, le damos la bienvenida y estamos encantados con su presencia.
|
11 de abril, 2025Tuvimos una conferencia de Cecilio Garriga
Hoy hemos tenido la Ceremonia de Inauguración del Año Académico del Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso, y nuestro conferencista invitado fue Cecilio Garriga Escribano, quien nos presentó la charla titulada 'Los diccionarios, entre la tradición y la inteligencia artificial'.
El Prof. Garriga es catedrático de la Universidad Autónoma de Barcelona y director del Grupo de Lexicografía y Diacronía, del Departamento de Filología Española.
Sus líneas de investigación son la lexicografía, la historia de la lengua, los lenguajes de especialidad, la morfología, y la enseñanza de la lengua.
Para quienes no pudieron asistir, aquí está el enlace a la grabación en video del evento.
|
 |
4 de abril, 2025Publicamos nuevo artículo sobre terminologización
 |
Esta semana nos han publicado un nuevo paper en la Revista Procesamiento del Lenguaje Natural, titulado
Detección de terminologización en sustantivos y firmado por Javiera Ahumada y Rogelio Nazar.
Este artículo está basado en la tesis de Magíster de Javiera, defendida recientemente, y dirigida por el
ahora coautor.
Este es el resumen del artículo:
Este artículo presenta una propuesta metodológica para detectar automáticamente la terminologización de sustantivos en un dominio especializado. La metodología se basa en la detección de alteraciones en los perfiles de coocurrencia de los sustantivos y es evaluada aplicándola a un corpus especializado compuesto por artículos de investigación en el ámbito del procesamiento del lenguaje natural. Si bien se trata de un trabajo aun preliminar, los resultados muestran que el método propuesto puede ser de utilidad, ya que permite identificar sustantivos con alta probabilidad de terminologización. La implementación es, por tanto, de interés para terminólogos e investigadores trabajando en el tema del cambio semántico. Además de una valoración del método, se señalan las limitaciones del enfoque y algunas ideas para su ulterior desarrollo.
Y aquí la referencia completa, con el enlace:
Ahumada, J.; Nazar, R. (2025). Detección de terminologización en sustantivos. Procesamiento del Lenguaje Natural, 74: 277-289.
|
1º de abril, 2025¡Nos dieron una medalla!
Hace unos días, la Pontificia Universidad Católica de Valparaíso nos ha entregado a Irene y a mí (Rogelio), en gran ceremonia, una medalla (una a cada uno), por superar los 10 años de permanencia en el puesto (para ser exactos, 11 años y 4 meses).
Nos ha llamado la atención el objeto: tiene un peso extraordinario. No sabemos de qué material es, pero tiene gran densidad. Es como si condensara en tan poco volumen todo lo que pasamos.
¡Agradecemos sinceramente este reconocimiento!
|
 |
February 20, 2025We presented a talk about semantic typing at Universiteit Leiden
 |
Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.
Abstract
Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora.
A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications.
Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.
References
Colman, L., & Tiberius, C. (2018). A good Match: A Dutch Collocation, Idiom and Pattern Dictionary Combined. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek (Eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 233–246). Ljubljana University Press.
PDF
Grefenstette, G., & Hanks, P. (2023). Competing Views of Word Meaning: Word Embeddings and Word Senses. International Journal of Lexicography, 36(2), 211–219.
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud.
PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Hanks, P. (Ed.). (Online). Pattern Dictionary of English Verbs. https://pdev.org.uk/
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA).
PDF
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901.
PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language.
PDF
| |
Tools & demos
We have implemented different types of applications and most of them can be tested online. Take a look.
+ Bifid: a parallel corpus aligner
+ Compare: a simple script to compare two lists of words
+ Cryptoman: a script to generate cryptograms
+ Dismark: a multilingual taxonomy of discourse markers
+ Dsele: a model dictionary for ELE learners
+ Estilector: computer assisted writing for Spanish
+ GeNom: a program to detect the gender of proper nouns
+ Jaguar: a tool for statistic corpus analysis
+ Kind: a lexical taxonomy induction algorithm
+ Kwico: a concordancer for big corpora
+ Lealem: a reading pacer for parallel German-Spanish texts
+ Leafran: a reading pacer for parallel French-Spanish texts
+ Linguini: a language detector
+ Neven: a program to detect eventive nouns
+ POL: named entity recognition and classification
+ Poppins: a supervised text classifier
+ Porcus: an interface for various taggers and parsers for Spanish
+ pullPOS: a project for the detection of plurals in Spanish
+ Punkt: punktuation of discourse markers in Spanish
+ Randall: a list randomizer
+ Readeutsch: a reading pacer for parallel German-English texts
+ Regex: a Perl script for regular expressions
+ Sapo: a program to detect similarities between documents
+ Sicam: a program to analyze Spanish poetry
+ Termout: a terminology extraction system
+ TEXT·A·GRAM: a program to analyze Spanish texts
+ Verbario: corpus pattern analysis in Spanish
|