February 20, 2025We presented a talk about semantic typing at Universiteit Leiden
 |
Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.
Abstract
Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora.
A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications.
Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.
References
Colman, L., & Tiberius, C. (2018). A good Match: A Dutch Collocation, Idiom and Pattern Dictionary Combined. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek (Eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 233–246). Ljubljana University Press.
PDF
Grefenstette, G., & Hanks, P. (2023). Competing Views of Word Meaning: Word Embeddings and Word Senses. International Journal of Lexicography, 36(2), 211–219.
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud.
PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Hanks, P. (Ed.). (Online). Pattern Dictionary of English Verbs. https://pdev.org.uk/
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA).
PDF
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901.
PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language.
PDF
|
13 de febrero, 2025Presentamos seminario en la Universitat de Barcelona
Irene Renau y Rogelio Nazar presentaron un seminario
titulado ``Estrategias para la tipificación semántica de sustantivos en textos: aplicaciones en Verbario y Text·a·Gram''
El seminario tuvo lugar en la Facultad de Filologia i Comunicació de la Universitat de Barcelona,
Resumen
En este seminario presentamos los avances del grupo de investigación Tecling en la tipificación semántica de sustantivos en dos herramientas:
Verbario y
Text·a·Gram , a las que se dedicarán sendas partes de la exposición. La tipificación semántica (semantic typing) es la asignación sistemática de clases semánticas a los argumentos en una oración (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). Por ejemplo, en la frase La nave se hundió, se asigna el tipo semántico [[Objeto Físico]] al sustantivo nave. El uso de una ontología (Ježek y Hanks, 2010; Nazar y Renau, 2016), junto al uso de cálculos estadísticos que miden la coocurrencia léxica de los sustantivos diana (Renau, Nazar y Mora, 2024), permiten etiquetar automáticamente dichas unidades en un texto con alta precisión.
En la primera parte del seminario presentaremos el proyecto Verbario, una base de datos de verbos del español analizados con Corpus Pattern Analysis, una técnica para el análisis de patrones sintagmáticos asociados al significado léxico (Hanks, 2004, 2013). Trataremos especialmente del etiquetado automatizado de sustantivos y de los pasos para la construcción de los patrones, así como del trabajo en curso para la detección de metáforas en Verbario con inteligencia artificial generativa (Renau et al., 2019; Renau, Nazar y Mora, 2024; Renau, 2021; Puraivan, Renau y Riquelme, 2024). En la segunda parte del seminario, presentaremos Text·a·Gram, una herramienta para el análisis textual (Nazar, Renau y Robledo, 2024), con especial énfasis en las estrategias para la incorporación de información semántica al análisis de textos. Ambos proyectos buscan contribuir a la automatización del análisis semántico y al desarrollo de métodos más eficientes para el estudio del léxico en corpus.
Referencias
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud. PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Ježek, E., & Hanks, P. (2010). What lexical sets tell us about conceptual categories. Lexis, 4, 7–22.
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA). PDF
Nazar, R., & Renau, I. (2016). A taxonomy of Spanish nouns, a statistical algorithm to generate it and its implementation in open source code. In N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) (pp. 1485–1492). European Language Resources Association (ELRA). PDF
Nazar, R., Renau, I., & Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In C.-M. Popescu & O.-A. Duță (Eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond (pp. 165–184). Peter Lang.
Puraivan, E., Renau, I., & Riquelme, N. (2024). Metaphor identification and interpretation in corpora with ChatGPT. SN Computer Science, 5(8), 976.
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I. (2021). Using verb patterns to find recurrent metaphors in corpus. In Z. Gavriilidou, L. Mitits, & S. Kiosses (Eds.), Lexicography for Inclusion: Proceedings of the 19th EURALEX International Congress (pp. 673–682). Democritus University of Thrace. PDF
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901. PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language. PDF
|
 |
January 27, 2025We have a new paper on discourse markers
 |
We have a new paper published, actually a book chapter, where we describe some of our work with discourse markers. The following is the bibliographical reference:
Nazar, R.; Renau, I.; Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In: Cecilia-Mihaela Popescu & Oana-Adriana Dută (eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond. Berlin: Peter Lang.
The chapter offers an overview of Project Dismark and its discourse marker database, along with a description of Text·a·Gram, the program we made to detect discourse markers and other particles in texts.
|
2 de enero, 2025Comenzamos el año con nuevo paper!
No hay nada mejor que empezar el año con un nuevo artículo: tenemos el agrado de compartir con ustedes la publicación 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', por Yvone Laines y Rogelio Nazar, en el número 2 del volumen 62 de RLA: Revista de lingüística teórica y aplicada.
Dejamos aquí el enlace al paper:
https://www.scielo.cl/pdf/rla/v62n2/0718-4883-rla-62-02-37.pdf
|
 |
December 18, 2024We are back online
 |
Happy times! We are back online
after a scheduled interruption of
our services due to maintenance.
Tell us if you find anything off.
Estamos nuevamente en el aire
después de un corte programado
de nuestros servicios debido a
necesidades de mantenimiento.
Por favor avisen si encuentran
que algo falla.
|
December 15, 2024Servers down for maintenance on Tuesday, 17 December
Next Tuesday our university is
temporarily shutting down internet
access for maintenance. That means that all our servers and software demos will be offline.
Hopefully, we will be back on Wednesday morning.
El próximo martes nuestra universidad
va a interrumpir temporalmente la conexión a internet debido a tareas de mantenimiento.
Esto significa que todos nuestros servidores y aplicaciones estarán fuera de línea.
Esperamos estar otra vez conectados el miércoles por la mañana.
|
 |
6 de diciembre, 2024Nicolás Acosta presenta en Sochil-Sael 2024
 |
Nuestro querido colega y colaborador Nicolás Acosta,
de la Universidad Nacional de Cuyo, hizo
hoy su presentación en las Jornadas de estudios lingüísticos
internacionales SOCHIL-SAEL 2024, la primera jornada
transcordillerana de asociaciones lingüísticas.
El título de su ponencia es 'Una evaluación de la precisión de
analizadores de dependencia sintáctica en oraciones subordinadas
de relativo en español'. Muy interesante trabajo, con rigor
metodológico y con una perspectiva crítica más allá de
los resultados cuantitativos.
Qué orgullo tenerlo en Tecling!
|
November 25, 2024Irene Renau receives best paper award at ICAI 2024
Today, the best paper award at the 7th International Conference on Applied Informatics (ICAI 2024) was announced, and the winner is... Irene Renau and her coauthors Eduardo Puraivan and Nicolás Riquelme, for their paper entitled 'Metaphor identification and interpretation in corpora with ChatGPT'. Bravo! We're gonna need some more champagne over here. |
 |
21 de noviembre, 2024Tres pósters de Tecling en la PUCV
 |
En el contexto del evento
'Encontrémonos en la investigación', organizado por el Instituto de Literatura y Ciencias del Lenguaje de la Pontificia Universidad Católica de Valparaíso y realizado el día jueves 21 de noviembre, se difundieron en formato póster tres investigaciones actualmente en desarrollo en el Grupo Tecling. Presentaron: Javiera Ahumada (en foto), con el trabajo titulado 'Propuesta metodológica para detectar la terminologización de sustantivos'; Constanza Suy, con el trabajo 'ChatGPT 4o para el análisis de metáforas conceptuales de sustantivos en el discurso especializado de la medicina genética' y, finalmente, el trabajo 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', presentado por Yvone Laines y Rogelio Nazar.
Todos los expositores están agradecidos de haber podido participar en esta instancia para compartir sus resultados. Los organizadores hasta se encargaron de imprimir los pósters. Un lujo.
|
11 de noviembre, 2024R. Nazar presenta charla online en la Univ. Nac. de San Marcos (Perú)
Rogelio Nazar hizo una presentación el pasado lunes 11 de noviembre en el Ciclo: 'Perspectivas de la corrección de textos', organizado por
Gildo Valero, de la Facultad de Letras de Universidad Nacional Mayor de San Marcos, en Lima (Perú). La charla estuvo enmarcada en los problemas de la corrección de estilo, y se centró en algunos estudios descriptivos sobre el uso de marcadores discursivos que pueden servir, en un futuro, para aplicaciones de redacción asistida.
Fue una excelente oportunidad para difundir resultados de investigación y dialogar con los colegas del Perú. Desde aquí, agradecemos la oportunidad. |
 |
8 de noviembre, 2024I. Renau y R. Nazar presentan en el II Seminario UAM (Madrid)
 |
Irene Renau y Rogelio Nazar realizaron una presentación titulada 'La lingüística aplicada en acción: experimentos con herramientas para el procesamiento de texto', en el II Seminario UAM: “Jornadas de lexicología y lexicografía del español: modelos, metodologías y herramientas”, evento organizado por Rosario González, Beatriz Méndez, Elena de Miguel y Alberto Anula.
Ha sido un privilegio poder participar en este evento, compartir resultados de investigación del grupo Tecling y aprender también de las exposiciones de los otros colegas. ¡Muchas gacias por la invitación! |
October 26, 2024We presented two papers at ICAI 2024
26 de octubre, 2024Disponible tutorial de Python
October 14, 2024New paper on statistical models of discourse genres
4 de octubre, 2024Rogelio Nazar dictará charla sobre Text·a·Gram
September 5, 2024Prof. Elisabetta Jezek in the Winter Seminars on Lexical Semantics 2024
Great talks in the Winter Seminars on Lexical Semantics 2024
by Prof. Elisabetta Jezek, from University of Pavia.
We had a room crowded with PhD, MA and undergrad students.
We talked about syntax, semantics, word sense disambiguation
and Corpus Pattern Analysis.
We are thrilled to have Elisabetta with us these days at @ILCLPUCV!
|
 |
5 de septiembre, 2024Hernán Robledo presentó su trabajo en la Universidad de Londres
 |
Hernán presentó hoy su trabajo en el V Congreso Internacional RECoD:
https://recod.org/
celebrado en Birkbeck, Inglaterra. La ponencia se titula “Variantes formales de marcadores del dicurso del español: exploraciones en tres géneros académicos” y se enmarca dentro del proyecto Fondecyt de Postdoctorado ANID no. 3230617, patrocinado por Irene Renau y la PUCV.
Bien, colega! Ahora toca pasear por las calles de Londres...
|
22 de agosto, 2024Impresionante convocatoria del taller de Python
Esperábamos un total de entre 3 y 4 interesados en
el taller de introducción a Python
y en lugar de eso estuvimos a sala llena. De hecho, tuvimos que
dejar a 16 personas afuera porque ya no entraban más.
Tendremos que hacer una segunda edición del taller en las próximas
semanas para darle oportunidad de participar a aquellos que se inscribieron
pero quedaron fuera de cupo. Estaremos informando pronto sobre las fechas de
esta segunda edición.
|
 | |
Tools & demos
We have implemented different types of applications and most of them can be tested online. Take a look.
+ Bifid: a parallel corpus aligner
+ Compare: a simple script to compare two lists of words
+ Cryptoman: a script to generate cryptograms
+ Dismark: a multilingual taxonomy of discourse markers
+ Estilector: computer assisted writing for Spanish
+ GeNom: a program to detect the gender of proper nouns
+ Jaguar: a tool for statistic corpus analysis
+ Kind: a lexical taxonomy induction algorithm
+ Kwico: a concordancer for big corpora
+ Lealem: a reading pacer for parallel German-Spanish texts
+ Leafran: a reading pacer for parallel French-Spanish texts
+ Linguini: a language detector
+ Neven: a program to detect eventive nouns
+ POL: named entity recognition and classification
+ Poppins: a supervised text classifier
+ Porcus: an interface for various taggers and parsers for Spanish
+ pullPOS: a project for the detection of plurals in Spanish
+ Punkt: punktuation of discourse markers in Spanish
+ Randall: a list randomizer
+ Readeutsch: a reading pacer for parallel German-English texts
+ Regex: a Perl script for regular expressions
+ Sapo: a program to detect similarities between documents
+ Sicam: a program to analyze Spanish poetry
+ Termout: a terminology extraction system
+ TEXT·A·GRAM: a program to analyze Spanish texts
+ Verbario: corpus pattern analysis in Spanish
|