Technologies for Linguistic Analysis

February 20, 2025
We presented a talk about semantic typing at Universiteit Leiden

Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.


Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora. A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications. Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.

13 de febrero, 2025
Presentamos seminario en la Universitat de Barcelona

Irene Renau y Rogelio Nazar presentaron un seminario titulado ``Estrategias para la tipificación semántica de sustantivos en textos: aplicaciones en Verbario y Text·a·Gram''

El seminario tuvo lugar en la Facultad de Filologia i Comunicació de la Universitat de Barcelona,


En este seminario presentamos los avances del grupo de investigación Tecling en la tipificación semántica de sustantivos en dos herramientas: Verbario y Text·a·Gram , a las que se dedicarán sendas partes de la exposición. La tipificación semántica (semantic typing) es la asignación sistemática de clases semánticas a los argumentos en una oración (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). Por ejemplo, en la frase La nave se hundió, se asigna el tipo semántico [[Objeto Físico]] al sustantivo nave. El uso de una ontología (Ježek y Hanks, 2010; Nazar y Renau, 2016), junto al uso de cálculos estadísticos que miden la coocurrencia léxica de los sustantivos diana (Renau, Nazar y Mora, 2024), permiten etiquetar automáticamente dichas unidades en un texto con alta precisión.

En la primera parte del seminario presentaremos el proyecto Verbario, una base de datos de verbos del español analizados con Corpus Pattern Analysis, una técnica para el análisis de patrones sintagmáticos asociados al significado léxico (Hanks, 2004, 2013). Trataremos especialmente del etiquetado automatizado de sustantivos y de los pasos para la construcción de los patrones, así como del trabajo en curso para la detección de metáforas en Verbario con inteligencia artificial generativa (Renau et al., 2019; Renau, Nazar y Mora, 2024; Renau, 2021; Puraivan, Renau y Riquelme, 2024). En la segunda parte del seminario, presentaremos Text·a·Gram, una herramienta para el análisis textual (Nazar, Renau y Robledo, 2024), con especial énfasis en las estrategias para la incorporación de información semántica al análisis de textos. Ambos proyectos buscan contribuir a la automatización del análisis semántico y al desarrollo de métodos más eficientes para el estudio del léxico en corpus.
January 27, 2025
We have a new paper on discourse markers

We have a new paper published, actually a book chapter, where we describe some of our work with discourse markers. The following is the bibliographical reference:

Nazar, R.; Renau, I.; Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In: Cecilia-Mihaela Popescu & Oana-Adriana Dută (eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond. Berlin: Peter Lang.

The chapter offers an overview of Project Dismark and its discourse marker database, along with a description of Text·a·Gram, the program we made to detect discourse markers and other particles in texts.

2 de enero, 2025
Comenzamos el año con nuevo paper!

No hay nada mejor que empezar el año con un nuevo artículo: tenemos el agrado de compartir con ustedes la publicación 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', por Yvone Laines y Rogelio Nazar, en el número 2 del volumen 62 de RLA: Revista de lingüística teórica y aplicada.
Dejamos aquí el enlace al paper: https://www.scielo.cl/pdf/rla/v62n2/0718-4883-rla-62-02-37.pdf

December 18, 2024
We are back online

Happy times! We are back online after a scheduled interruption of our services due to maintenance. Tell us if you find anything off.

Estamos nuevamente en el aire después de un corte programado de nuestros servicios debido a necesidades de mantenimiento. Por favor avisen si encuentran que algo falla.

December 15, 2024
Servers down for maintenance on Tuesday, 17 December

Next Tuesday our university is temporarily shutting down internet access for maintenance. That means that all our servers and software demos will be offline. Hopefully, we will be back on Wednesday morning.

El próximo martes nuestra universidad va a interrumpir temporalmente la conexión a internet debido a tareas de mantenimiento. Esto significa que todos nuestros servidores y aplicaciones estarán fuera de línea. Esperamos estar otra vez conectados el miércoles por la mañana.

6 de diciembre, 2024
Nicolás Acosta presenta en Sochil-Sael 2024

Nuestro querido colega y colaborador Nicolás Acosta, de la Universidad Nacional de Cuyo, hizo hoy su presentación en las Jornadas de estudios lingüísticos internacionales SOCHIL-SAEL 2024, la primera jornada transcordillerana de asociaciones lingüísticas. El título de su ponencia es 'Una evaluación de la precisión de analizadores de dependencia sintáctica en oraciones subordinadas de relativo en español'. Muy interesante trabajo, con rigor metodológico y con una perspectiva crítica más allá de los resultados cuantitativos. Qué orgullo tenerlo en Tecling!

November 25, 2024
Irene Renau receives best paper award at ICAI 2024

Today, the best paper award at the 7th International Conference on Applied Informatics (ICAI 2024) was announced, and the winner is... Irene Renau and her coauthors Eduardo Puraivan and Nicolás Riquelme, for their paper entitled 'Metaphor identification and interpretation in corpora with ChatGPT'. Bravo! We're gonna need some more champagne over here.

21 de noviembre, 2024
Tres pósters de Tecling en la PUCV

En el contexto del evento 'Encontrémonos en la investigación', organizado por el Instituto de Literatura y Ciencias del Lenguaje de la Pontificia Universidad Católica de Valparaíso y realizado el día jueves 21 de noviembre, se difundieron en formato póster tres investigaciones actualmente en desarrollo en el Grupo Tecling. Presentaron: Javiera Ahumada (en foto), con el trabajo titulado 'Propuesta metodológica para detectar la terminologización de sustantivos'; Constanza Suy, con el trabajo 'ChatGPT 4o para el análisis de metáforas conceptuales de sustantivos en el discurso especializado de la medicina genética' y, finalmente, el trabajo 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', presentado por Yvone Laines y Rogelio Nazar.
Todos los expositores están agradecidos de haber podido participar en esta instancia para compartir sus resultados. Los organizadores hasta se encargaron de imprimir los pósters. Un lujo.

11 de noviembre, 2024
R. Nazar presenta charla online en la Univ. Nac. de San Marcos (Perú)

Rogelio Nazar hizo una presentación el pasado lunes 11 de noviembre en el Ciclo: 'Perspectivas de la corrección de textos', organizado por Gildo Valero, de la Facultad de Letras de Universidad Nacional Mayor de San Marcos, en Lima (Perú). La charla estuvo enmarcada en los problemas de la corrección de estilo, y se centró en algunos estudios descriptivos sobre el uso de marcadores discursivos que pueden servir, en un futuro, para aplicaciones de redacción asistida.
Fue una excelente oportunidad para difundir resultados de investigación y dialogar con los colegas del Perú. Desde aquí, agradecemos la oportunidad.

8 de noviembre, 2024
I. Renau y R. Nazar presentan en el II Seminario UAM (Madrid)

Irene Renau y Rogelio Nazar realizaron una presentación titulada 'La lingüística aplicada en acción: experimentos con herramientas para el procesamiento de texto', en el II Seminario UAM: “Jornadas de lexicología y lexicografía del español: modelos, metodologías y herramientas”, evento organizado por Rosario González, Beatriz Méndez, Elena de Miguel y Alberto Anula.
Ha sido un privilegio poder participar en este evento, compartir resultados de investigación del grupo Tecling y aprender también de las exposiciones de los otros colegas. ¡Muchas gacias por la invitación!

October 26, 2024
We presented two papers at ICAI 2024

We presented two papers at the 7th International Conference on Applied Informatics (ICAI 2024), held at the Universidad Andrés Bello, in Viña del Mar, Chile. One of the papers is titled 'Metaphor identification and interpretation in corpora with ChatGPT', by I. Renau, E. Puraivan and J. Riquelme, and the title of the other one is 'Statistical modeling of discourse genres: the case of the opinion column in Spanish', by R. Nazar. Both papers have been selected as 'best papers', and were published in the Springer Nature Computer Science Journal.

26 de octubre, 2024
Disponible tutorial de Python

Hace algunas semanas, Daniel Mora y Rogelio Nazar presentaron un taller de introducción a Python en el marco del doctorado en lingüística del Instituto de Literatura y Ciencias del Lenguaje de la PUCV. En aquella ocasión se hizo un repaso de las características principales del lenguaje, tales como los conceptos de variable, funciones, instrucciones de control de flujo como las condiciones y los bucles, sumado a algunas cosas más.
En el rincón de las promesas había quedado pasar en limpio en un documento coherente todo lo que se discutió aquella vez pero ahora finalmente el momento ha llegado. A disfrutar con moderación.

October 14, 2024
New paper on statistical models of discourse genres

Rogelio Nazar just pusblished a new paper on the Springer Nature Computer Science journal:
Nazar, R. Statistical Modeling of Discourse Genres: The Case of the Opinion Column in Spanish. SN COMPUT. SCI. 5, 959 (2024). https://doi.org/10.1007/s42979-024-03329-8
The paper describes how the new version of Text·a·Gram can be used to explore some interesting quantitative characteristics of discourse genres. In particular, in this occasion the paper describes how different discourse mechanisms such as discourse markers, deictics and modal operators are distributed from beginning to end of a typically opinion column.

4 de octubre, 2024
Rogelio Nazar dictará charla sobre Text·a·Gram

Rogelio Nazar hará una presentación en línea este martes 8 de octubre a las 17 h titulada 'Text·a·Gram: métodos cuantitativos para el análisis del discurso'. Este evento es organizado por el IDI Research Group, de la Universidad de las Américas. El objetivo es presentar una línea de investigación sobre modelado de géneros discursivos y la herramienta Text·a·Gram, generada en el marco de ese proyecto, que permite extraer estadísticas descriptivas sobre la distribución de marcadores discursivos, deícticos y operadores modales en lengua castellana. La charla servirá, además, como presentación de una nueva versión del sistema, con nuevas funcionalidades.


Ya está disponible el código fuente del programa para descargar desde la web del proyecto:

Muy probablemente estaremos actualizando esta versión del código en los próximos días.

September 5, 2024
Prof. Elisabetta Jezek in the Winter Seminars on Lexical Semantics 2024

Great talks in the Winter Seminars on Lexical Semantics 2024 by Prof. Elisabetta Jezek, from University of Pavia. We had a room crowded with PhD, MA and undergrad students. We talked about syntax, semantics, word sense disambiguation and Corpus Pattern Analysis. We are thrilled to have Elisabetta with us these days at @ILCLPUCV!

5 de septiembre, 2024
Hernán Robledo presentó su trabajo en la Universidad de Londres

Hernán presentó hoy su trabajo en el V Congreso Internacional RECoD:
celebrado en Birkbeck, Inglaterra. La ponencia se titula “Variantes formales de marcadores del dicurso del español: exploraciones en tres géneros académicos” y se enmarca dentro del proyecto Fondecyt de Postdoctorado ANID no. 3230617, patrocinado por Irene Renau y la PUCV.
Bien, colega! Ahora toca pasear por las calles de Londres...

22 de agosto, 2024
Impresionante convocatoria del taller de Python

Esperábamos un total de entre 3 y 4 interesados en el taller de introducción a Python y en lugar de eso estuvimos a sala llena. De hecho, tuvimos que dejar a 16 personas afuera porque ya no entraban más.
Tendremos que hacer una segunda edición del taller en las próximas semanas para darle oportunidad de participar a aquellos que se inscribieron pero quedaron fuera de cupo. Estaremos informando pronto sobre las fechas de esta segunda edición.

This is the view from where we are located, in the Sausalito lagoon, a quiet and lovely place in Viña del Mar, Chile. Sunny days. Birds can be seen in the center of the lagoon (click to enlarge).

As researchers, we are currently affiliated to:
Pontificia Universidad Católica de Valparaíso
Instituto de Literatura y Ciencias del Lenguaje

Av. El Bosque 1290, Viña del Mar, Chile

Latest ideas & research projects

We are developing new projects in computational linguistics and natural language processing:

+ Fondecyt Regular (2023-2027): "Mapa de las metáforas conceptuales en sustantivos y verbos del español: un estudio de los patrones metafóricos basado en corpus". Lead researcher: Irene Renau. Co-researcher: Rogelio Nazar. Ref.: 1231594.

+ Fondecyt Regular (2019-2021): "Polisemia regular de los sustantivos del español: análisis semiautomático de corpus, caracterización y tipología" (Regular polysemy of nouns in Spanish: semiautomatic analysis of corpus, characterization and tipology). Lead researcher: Irene Renau. Ref.: 1191204.

+ Fondecyt Regular (2019-2021): "Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües" (Automatic induction of taxonomies of discourse markers from multilingual corpora). Lead researcher: Rogelio Nazar. Ref.: 1191481.

+ Ecos-Sud (International Project between Chile and France): "Inducción automática de taxonomías del español y el francés mediante técnicas cuantitativas y estadística de corpus". Lead researcher: Irene Renau. Ref.: C16H02.

+ Fondecyt Regular: "Desarrollo de la competencia terminológica a lo largo de la inserción disciplinar". Lead Researcher: Sabela Fernández. Co-researcher: Rogelio Nazar. Ref.: 11121597.

Recent publications

+ Nazar, R.; Renau, I.; Robledo, H. (In press). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In Proceedings of DISROM 2022 (Discourse Markers in Romance Languages, Craiova, 16-18 June 2022).

+ Obreque, J.; Nazar, R. (2023). Detección de operadores modales: una primera exploración en castellano. Linguamatica. 15(2): 37--49. PDF

+ Renau, Irene. (2023). A corpus-based study of semantic neology of the Covid-19 pandemic. Quaderns de Filologia: Estudis Lingüístics XXVIII: 55-76. PDF

+ Nazar, R. (2023). Extensión, variación y evolución del léxico español. In Battaner, P., Torner, S, Renau, I. Lexicografía hispánica / The Routledge Handbook of Spanish Lexicography. Cap. 14, pp. 204-218.

+ López-Hidalgo, B.; Renau, I.; Nazar, R. (2023). Correlación entre la metáfora orientacional BUENO ES ARRIBA / MALO ES ABAJO y polaridad positiva/negativa en verbos del español: un estudio con estadística de corpus. Humanidades Digitales, Corpus y Tecnología del Lenguaje. University of Groningen Press, pp. 307-323. PDF

+ Nazar, R. & Acosta, N. (2023). Termout: a tool for the semi-automatic creation of term databases. In Haddad, Amal; Terryn, Ayla; Mitkov, Ruslan; Rapp, Reinhard; Zweigenbaum, Pierre and Sharoff, Serge (eds.) Proceedings of the Workshop on Computational Terminology in NLP and Translation Studies (ConTeNTS) Incorporating the 16th Workshop on Building and Using Comparable Corpora (BUCC), INCOMA, Shoumen, Bulgaria, pp. 9-18. PDF

+ Nazar, R. & Renau, I. (2023). Estilector: un sistema de evaluación automática de la escritura académica en castellano. Revista Perspectiva Educacional, 62(2): 37-59. PDF

+ Robledo, H.; Nazar, R. (2023). A proposal for the inductive categorisation of parenthetical discourse markers in Spanish using parallel corpora. International Journal of Corpus Linguistics. http://doi.org/10.1075/ijcl.20017.rob

+ Renau, I.; Nazar, R. (2022). Towards a multilingual dictionary of discourse markers: automatic extraction of units from parallel corpus. In: Klosa-Kückelhaus, A.; Engelberg, S.; Möhrs, C.; Storjohann, P. Dictionaries and Society. Proceedings of the XX EURALEX International Congress, Mannheim: IDS-Verlag, pp. 262-272. PDF

+ Nazar, R; Lindemann, D. (2022). Terminology extraction using co-occurrence patterns as predictors of semantic relevance. Proceedings of the TERM21 Workshop. Language Resources and Evaluation Conference (LREC 2022), Marseille, 20-25 June 2022, pp. 26-29. PDF

Solutions for text processing

It is critical for organizations to have the ability to process information automatically, and very often that information is contained in documents to be read by humans rather than machines. We have different methods for text processing depending on the goal.

We can be helpful teaching people how to automatize their text processing routines. We can batch-process thousands of documents to extract information from them or to derive different types of statistics. We can also change these document, or generate databases or email correspondence based on information extracted from them. Anything that involves intelligent management of information can benefit from different degrees of automatization, and by doing that we can free time, effort and resources.

Tell us which are your needs and we will show you what we can do about it.