29 de abril, 2025Imma López vino a hacer su estancia de investigación predoctoral
 |
Tenemos el gran honor de recibir a
Inmaculada López-Solá, profesora y doctoranda del Departamento de Traducción y Ciencias del Lenguaje de la Universitat Pompeu Fabra,
quien ha decidido venir a Viña del Mar a realizar su estancia de investigación predoctoral con el Grupo Tecling.
Imma trabaja en el campo del Español como Lengua Extranjera aplicando sus conocimientos de lingüística computacional y lexicografía,
y se interesa por el desarrollo de sistemas que sean capaces de detectar los errores de vocabulario, ofrecer retroalimentación y generar actividades de seguimiento personalizada para los estudiantes.
En el marco de su visita, participará de diferentes actividades, entre las que se incluye la presentación de una charla en el
Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso para dar a conocer los resultados de su investigación doctoral.
Pronto estaremos difundiendo por diferentes medios la fecha, hora y lugar de este evento.
Por ahora, le damos la bienvenida y estamos encantados con su presencia.
|
11 de abril, 2025Tuvimos una conferencia de Cecilio Garriga
Hoy hemos tenido la Ceremonia de Inauguración del Año Académico del Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso, y nuestro conferencista invitado fue Cecilio Garriga Escribano, quien nos presentó la charla titulada 'Los diccionarios, entre la tradición y la inteligencia artificial'.
El Prof. Garriga es catedrático de la Universidad Autónoma de Barcelona y director del Grupo de Lexicografía y Diacronía, del Departamento de Filología Española.
Sus líneas de investigación son la lexicografía, la historia de la lengua, los lenguajes de especialidad, la morfología, y la enseñanza de la lengua.
Para quienes no pudieron asistir, aquí está el enlace a la grabación en video del evento.
|
 |
4 de abril, 2025Publicamos nuevo artículo sobre terminologización
 |
Esta semana nos han publicado un nuevo paper en la Revista Procesamiento del Lenguaje Natural, titulado
Detección de terminologización en sustantivos y firmado por Javiera Ahumada y Rogelio Nazar.
Este artículo está basado en la tesis de Magíster de Javiera, defendida recientemente, y dirigida por el
ahora coautor.
Este es el resumen del artículo:
Este artículo presenta una propuesta metodológica para detectar automáticamente la terminologización de sustantivos en un dominio especializado. La metodología se basa en la detección de alteraciones en los perfiles de coocurrencia de los sustantivos y es evaluada aplicándola a un corpus especializado compuesto por artículos de investigación en el ámbito del procesamiento del lenguaje natural. Si bien se trata de un trabajo aun preliminar, los resultados muestran que el método propuesto puede ser de utilidad, ya que permite identificar sustantivos con alta probabilidad de terminologización. La implementación es, por tanto, de interés para terminólogos e investigadores trabajando en el tema del cambio semántico. Además de una valoración del método, se señalan las limitaciones del enfoque y algunas ideas para su ulterior desarrollo.
Y aquí la referencia completa, con el enlace:
Ahumada, J.; Nazar, R. (2025). Detección de terminologización en sustantivos. Procesamiento del Lenguaje Natural, 74: 277-289.
|
1º de abril, 2025¡Nos dieron una medalla!
Hace unos días, la Pontificia Universidad Católica de Valparaíso nos ha entregado a Irene y a mí (Rogelio), en gran ceremonia, una medalla (una a cada uno), por superar los 10 años de permanencia en el puesto (para ser exactos, 11 años y 4 meses).
Nos ha llamado la atención el objeto: tiene un peso extraordinario. No sabemos de qué material es, pero tiene gran densidad. Es como si condensara en tan poco volumen todo lo que pasamos.
¡Agradecemos sinceramente este reconocimiento!
|
 |
February 20, 2025We presented a talk about semantic typing at Universiteit Leiden
 |
Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.
Abstract
Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora.
A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications.
Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.
References
Colman, L., & Tiberius, C. (2018). A good Match: A Dutch Collocation, Idiom and Pattern Dictionary Combined. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek (Eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 233–246). Ljubljana University Press.
PDF
Grefenstette, G., & Hanks, P. (2023). Competing Views of Word Meaning: Word Embeddings and Word Senses. International Journal of Lexicography, 36(2), 211–219.
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud.
PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Hanks, P. (Ed.). (Online). Pattern Dictionary of English Verbs. https://pdev.org.uk/
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA).
PDF
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901.
PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language.
PDF
|
13 de febrero, 2025Presentamos seminario en la Universitat de Barcelona
Irene Renau y Rogelio Nazar presentaron un seminario
titulado ``Estrategias para la tipificación semántica de sustantivos en textos: aplicaciones en Verbario y Text·a·Gram''
El seminario tuvo lugar en la Facultad de Filologia i Comunicació de la Universitat de Barcelona,
Resumen
En este seminario presentamos los avances del grupo de investigación Tecling en la tipificación semántica de sustantivos en dos herramientas:
Verbario y
Text·a·Gram , a las que se dedicarán sendas partes de la exposición. La tipificación semántica (semantic typing) es la asignación sistemática de clases semánticas a los argumentos en una oración (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). Por ejemplo, en la frase La nave se hundió, se asigna el tipo semántico [[Objeto Físico]] al sustantivo nave. El uso de una ontología (Ježek y Hanks, 2010; Nazar y Renau, 2016), junto al uso de cálculos estadísticos que miden la coocurrencia léxica de los sustantivos diana (Renau, Nazar y Mora, 2024), permiten etiquetar automáticamente dichas unidades en un texto con alta precisión.
En la primera parte del seminario presentaremos el proyecto Verbario, una base de datos de verbos del español analizados con Corpus Pattern Analysis, una técnica para el análisis de patrones sintagmáticos asociados al significado léxico (Hanks, 2004, 2013). Trataremos especialmente del etiquetado automatizado de sustantivos y de los pasos para la construcción de los patrones, así como del trabajo en curso para la detección de metáforas en Verbario con inteligencia artificial generativa (Renau et al., 2019; Renau, Nazar y Mora, 2024; Renau, 2021; Puraivan, Renau y Riquelme, 2024). En la segunda parte del seminario, presentaremos Text·a·Gram, una herramienta para el análisis textual (Nazar, Renau y Robledo, 2024), con especial énfasis en las estrategias para la incorporación de información semántica al análisis de textos. Ambos proyectos buscan contribuir a la automatización del análisis semántico y al desarrollo de métodos más eficientes para el estudio del léxico en corpus.
Referencias
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud. PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Ježek, E., & Hanks, P. (2010). What lexical sets tell us about conceptual categories. Lexis, 4, 7–22.
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA). PDF
Nazar, R., & Renau, I. (2016). A taxonomy of Spanish nouns, a statistical algorithm to generate it and its implementation in open source code. In N. Calzolari, K. Choukri, T. Declerck, S. Goggi, M. Grobelnik, B. Maegaard, J. Mariani, H. Mazo, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16) (pp. 1485–1492). European Language Resources Association (ELRA). PDF
Nazar, R., Renau, I., & Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In C.-M. Popescu & O.-A. Duță (Eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond (pp. 165–184). Peter Lang.
Puraivan, E., Renau, I., & Riquelme, N. (2024). Metaphor identification and interpretation in corpora with ChatGPT. SN Computer Science, 5(8), 976.
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I. (2021). Using verb patterns to find recurrent metaphors in corpus. In Z. Gavriilidou, L. Mitits, & S. Kiosses (Eds.), Lexicography for Inclusion: Proceedings of the 19th EURALEX International Congress (pp. 673–682). Democritus University of Thrace. PDF
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901. PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language. PDF
|
 |
January 27, 2025We have a new paper on discourse markers
 |
We have a new paper published, actually a book chapter, where we describe some of our work with discourse markers. The following is the bibliographical reference:
Nazar, R.; Renau, I.; Robledo, H. (2024). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In: Cecilia-Mihaela Popescu & Oana-Adriana Dută (eds.), Discourse Markers in Romance Languages. Crosslinguistic Approaches in Romance and Beyond. Berlin: Peter Lang.
The chapter offers an overview of Project Dismark and its discourse marker database, along with a description of Text·a·Gram, the program we made to detect discourse markers and other particles in texts.
|
2 de enero, 2025Comenzamos el año con nuevo paper!
No hay nada mejor que empezar el año con un nuevo artículo: tenemos el agrado de compartir con ustedes la publicación 'Comparación entre textos naturales y textos sintéticos del género tesis en función de variables discursivas', por Yvone Laines y Rogelio Nazar, en el número 2 del volumen 62 de RLA: Revista de lingüística teórica y aplicada.
Dejamos aquí el enlace al paper:
https://www.scielo.cl/pdf/rla/v62n2/0718-4883-rla-62-02-37.pdf
|
 | |
Tools & demos
We have implemented different types of applications and most of them can be tested online. Take a look.
+ Bifid: a parallel corpus aligner
+ Compare: a simple script to compare two lists of words
+ Cryptoman: a script to generate cryptograms
+ Dismark: a multilingual taxonomy of discourse markers
+ Estilector: computer assisted writing for Spanish
+ GeNom: a program to detect the gender of proper nouns
+ Jaguar: a tool for statistic corpus analysis
+ Kind: a lexical taxonomy induction algorithm
+ Kwico: a concordancer for big corpora
+ Lealem: a reading pacer for parallel German-Spanish texts
+ Leafran: a reading pacer for parallel French-Spanish texts
+ Linguini: a language detector
+ Neven: a program to detect eventive nouns
+ POL: named entity recognition and classification
+ Poppins: a supervised text classifier
+ Porcus: an interface for various taggers and parsers for Spanish
+ pullPOS: a project for the detection of plurals in Spanish
+ Punkt: punktuation of discourse markers in Spanish
+ Randall: a list randomizer
+ Readeutsch: a reading pacer for parallel German-English texts
+ Regex: a Perl script for regular expressions
+ Sapo: a program to detect similarities between documents
+ Sicam: a program to analyze Spanish poetry
+ Termout: a terminology extraction system
+ TEXT·A·GRAM: a program to analyze Spanish texts
+ Verbario: corpus pattern analysis in Spanish
|