Tecling logo » The universe is not perfect, but it's working on it.      ABOUT RESEARCH SOLUTIONS SOFTWARE CONTACT
Technologies for Linguistic Analysis

11 de noviembre, 2024
R. Nazar presenta charla online en la Univ. Nac. de San Marcos (Perú)


Rogelio Nazar hizo una presentación el pasado lunes 11 de noviembre en el Ciclo: 'Perspectivas de la corrección de textos', organizado por Gildo Valero, de la Facultad de Letras de Universidad Nacional Mayor de San Marcos, en Lima (Perú). La charla estuvo enmarcada en los problemas de la corrección de estilo, y se centró en algunos estudios descriptivos sobre el uso de marcadores discursivos que pueden servir, en un futuro, para aplicaciones de redacción asistida.
Fue una excelente oportunidad para difundir resultados de investigación y dialogar con los colegas del Perú. Desde aquí, agradecemos la oportunidad.


8 de noviembre, 2024
I. Renau y R. Nazar presentan en el II Seminario UAM (Madrid)


Irene Renau y Rogelio Nazar realizaron una presentación titulada 'La lingüística aplicada en acción: experimentos con herramientas para el procesamiento de texto', en el II Seminario UAM: “Jornadas de lexicología y lexicografía del español: modelos, metodologías y herramientas”, evento organizado por Rosario González, Beatriz Méndez, Elena de Miguel y Alberto Anula.
Ha sido un privilegio poder participar en este evento, compartir resultados de investigación del grupo Tecling y aprender también de las exposiciones de los otros colegas. ¡Muchas gacias por la invitación!


October 26, 2024
We presented two papers at ICAI 2024


We presented two papers at the 7th International Conference on Applied Informatics (ICAI 2024), held at the Universidad Andrés Bello, in Viña del Mar, Chile. One of the papers is titled 'Metaphor identification and interpretation in corpora with ChatGPT', by I. Renau, E. Puraivan and J. Riquelme, and the title of the other one is 'Statistical modeling of discourse genres: the case of the opinion column in Spanish', by R. Nazar. Both papers have been selected as 'best papers', and were published in the Springer Nature Computer Science Journal.


26 de octubre, 2024
Disponible tutorial de Python


Hace algunas semanas, Daniel Mora y Rogelio Nazar presentaron un taller de introducción a Python en el marco del doctorado en lingüística del Instituto de Literatura y Ciencias del Lenguaje de la PUCV. En aquella ocasión se hizo un repaso de las características principales del lenguaje, tales como los conceptos de variable, funciones, instrucciones de control de flujo como las condiciones y los bucles, sumado a algunas cosas más.
En el rincón de las promesas había quedado pasar en limpio en un documento coherente todo lo que se discutió aquella vez pero ahora finalmente el momento ha llegado. A disfrutar con moderación.


October 14, 2024
New paper on statistical models of discourse genres


Rogelio Nazar just pusblished a new paper on the Springer Nature Computer Science journal:
Nazar, R. Statistical Modeling of Discourse Genres: The Case of the Opinion Column in Spanish. SN COMPUT. SCI. 5, 959 (2024). https://doi.org/10.1007/s42979-024-03329-8
The paper describes how the new version of Text·a·Gram can be used to explore some interesting quantitative characteristics of discourse genres. In particular, in this occasion the paper describes how different discourse mechanisms such as discourse markers, deictics and modal operators are distributed from beginning to end of a typically opinion column.


4 de octubre, 2024
Rogelio Nazar dictará charla sobre Text·a·Gram


Rogelio Nazar hará una presentación en línea este martes 8 de octubre a las 17 h titulada 'Text·a·Gram: métodos cuantitativos para el análisis del discurso'. Este evento es organizado por el IDI Research Group, de la Universidad de las Américas. El objetivo es presentar una línea de investigación sobre modelado de géneros discursivos y la herramienta Text·a·Gram, generada en el marco de ese proyecto, que permite extraer estadísticas descriptivas sobre la distribución de marcadores discursivos, deícticos y operadores modales en lengua castellana. La charla servirá, además, como presentación de una nueva versión del sistema, con nuevas funcionalidades.

Update:

Ya está disponible el código fuente del programa para descargar desde la web del proyecto:
https://www.tecling.com/textagram

Muy probablemente estaremos actualizando esta versión del código en los próximos días.


September 5, 2024
Prof. Elisabetta Jezek in the Winter Seminars on Lexical Semantics 2024


Great talks in the Winter Seminars on Lexical Semantics 2024 by Prof. Elisabetta Jezek, from University of Pavia. We had a room crowded with PhD, MA and undergrad students. We talked about syntax, semantics, word sense disambiguation and Corpus Pattern Analysis. We are thrilled to have Elisabetta with us these days at @ILCLPUCV!


5 de septiembre, 2024
Hernán Robledo presentó su trabajo en la Universidad de Londres


Hernán presentó hoy su trabajo en el V Congreso Internacional RECoD:
https://recod.org/
celebrado en Birkbeck, Inglaterra. La ponencia se titula “Variantes formales de marcadores del dicurso del español: exploraciones en tres géneros académicos” y se enmarca dentro del proyecto Fondecyt de Postdoctorado ANID no. 3230617, patrocinado por Irene Renau y la PUCV.
Bien, colega! Ahora toca pasear por las calles de Londres...


22 de agosto, 2024
Impresionante convocatoria del taller de Python


Esperábamos un total de entre 3 y 4 interesados en el taller de introducción a Python y en lugar de eso estuvimos a sala llena. De hecho, tuvimos que dejar a 16 personas afuera porque ya no entraban más.
Tendremos que hacer una segunda edición del taller en las próximas semanas para darle oportunidad de participar a aquellos que se inscribieron pero quedaron fuera de cupo. Estaremos informando pronto sobre las fechas de esta segunda edición.

Tools & demos

We have implemented different types of applications and most of them can be tested online. Take a look.

+ Bifid: a parallel corpus aligner

+ Compare: a simple script to compare two lists of words

+ Cryptoman: a script to generate cryptograms

+ Dismark: a multilingual taxonomy of discourse markers

+ Estilector: computer assisted writing for Spanish

+ GeNom: a program to detect the gender of proper nouns

+ Jaguar: a tool for statistic corpus analysis

+ Kind: a lexical taxonomy induction algorithm

+ Kwico: a concordancer for big corpora

+ Lealem: a reading pacer for parallel German-Spanish texts

+ Leafran: a reading pacer for parallel French-Spanish texts

+ Linguini: a language detector

+ Neven: a program to detect eventive nouns

+ POL: named entity recognition and classification

+ Poppins: a supervised text classifier

+ Porcus: an interface for various taggers and parsers for Spanish

+ pullPOS: a project for the detection of plurals in Spanish

+ Punkt: punktuation of discourse markers in Spanish

+ Randall: a list randomizer

+ Readeutsch: a reading pacer for parallel German-English texts

+ Regex: a Perl script for regular expressions

+ Sapo: a program to detect similarities between documents

+ Sicam: a program to analyze Spanish poetry

+ Termout: a terminology extraction system

+ TEXT·A·GRAM: a program to analyze Spanish texts

+ Verbario: corpus pattern analysis in Spanish

Sausalito

This is the view from where we are located, in the Sausalito lagoon, a quiet and lovely place in Viña del Mar, Chile. Sunny days. Birds can be seen in the center of the lagoon (click to enlarge).

As researchers, we are currently affiliated to:
Pontificia Universidad Católica de Valparaíso
Instituto de Literatura y Ciencias del Lenguaje

Av. El Bosque 1290, Viña del Mar, Chile

Upcoming Events
[UPDATED: November 14, 2024]

    January-February, 2025: Irene Renau and Rogelio Nazar will be in a research stay at Universitat de Barcelona, in the Departament de Llengües i Literatures Modernes i d'Estudis Anglesos and the research group GRIAL. More on this soon!

Latest ideas & research projects

We are developing new projects in computational linguistics and natural language processing:

+ Fondecyt Regular (2023-2027): "Mapa de las metáforas conceptuales en sustantivos y verbos del español: un estudio de los patrones metafóricos basado en corpus". Lead researcher: Irene Renau. Co-researcher: Rogelio Nazar. Ref.: 1231594.

+ Fondecyt Regular (2019-2021): "Polisemia regular de los sustantivos del español: análisis semiautomático de corpus, caracterización y tipología" (Regular polysemy of nouns in Spanish: semiautomatic analysis of corpus, characterization and tipology). Lead researcher: Irene Renau. Ref.: 1191204.

+ Fondecyt Regular (2019-2021): "Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües" (Automatic induction of taxonomies of discourse markers from multilingual corpora). Lead researcher: Rogelio Nazar. Ref.: 1191481.

+ Ecos-Sud (International Project between Chile and France): "Inducción automática de taxonomías del español y el francés mediante técnicas cuantitativas y estadística de corpus". Lead researcher: Irene Renau. Ref.: C16H02.

+ Fondecyt Regular: "Desarrollo de la competencia terminológica a lo largo de la inserción disciplinar". Lead Researcher: Sabela Fernández. Co-researcher: Rogelio Nazar. Ref.: 11121597.

+ See more.

Recent publications

+ Nazar, R.; Renau, I.; Robledo, H. (In press). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In Proceedings of DISROM 2022 (Discourse Markers in Romance Languages, Craiova, 16-18 June 2022).

+ Obreque, J.; Nazar, R. (2023). Detección de operadores modales: una primera exploración en castellano. Linguamatica. 15(2): 37--49. PDF

+ Renau, Irene. (2023). A corpus-based study of semantic neology of the Covid-19 pandemic. Quaderns de Filologia: Estudis Lingüístics XXVIII: 55-76. PDF

+ Nazar, R. (2023). Extensión, variación y evolución del léxico español. In Battaner, P., Torner, S, Renau, I. Lexicografía hispánica / The Routledge Handbook of Spanish Lexicography. Cap. 14, pp. 204-218.

+ López-Hidalgo, B.; Renau, I.; Nazar, R. (2023). Correlación entre la metáfora orientacional BUENO ES ARRIBA / MALO ES ABAJO y polaridad positiva/negativa en verbos del español: un estudio con estadística de corpus. Humanidades Digitales, Corpus y Tecnología del Lenguaje. University of Groningen Press, pp. 307-323. PDF

+ Nazar, R. & Acosta, N. (2023). Termout: a tool for the semi-automatic creation of term databases. In Haddad, Amal; Terryn, Ayla; Mitkov, Ruslan; Rapp, Reinhard; Zweigenbaum, Pierre and Sharoff, Serge (eds.) Proceedings of the Workshop on Computational Terminology in NLP and Translation Studies (ConTeNTS) Incorporating the 16th Workshop on Building and Using Comparable Corpora (BUCC), INCOMA, Shoumen, Bulgaria, pp. 9-18. PDF

+ Nazar, R. & Renau, I. (2023). Estilector: un sistema de evaluación automática de la escritura académica en castellano. Revista Perspectiva Educacional, 62(2): 37-59. PDF

+ Robledo, H.; Nazar, R. (2023). A proposal for the inductive categorisation of parenthetical discourse markers in Spanish using parallel corpora. International Journal of Corpus Linguistics. http://doi.org/10.1075/ijcl.20017.rob

+ Renau, I.; Nazar, R. (2022). Towards a multilingual dictionary of discourse markers: automatic extraction of units from parallel corpus. In: Klosa-Kückelhaus, A.; Engelberg, S.; Möhrs, C.; Storjohann, P. Dictionaries and Society. Proceedings of the XX EURALEX International Congress, Mannheim: IDS-Verlag, pp. 262-272. PDF

+ Nazar, R; Lindemann, D. (2022). Terminology extraction using co-occurrence patterns as predictors of semantic relevance. Proceedings of the TERM21 Workshop. Language Resources and Evaluation Conference (LREC 2022), Marseille, 20-25 June 2022, pp. 26-29. PDF

Solutions for text processing

It is critical for organizations to have the ability to process information automatically, and very often that information is contained in documents to be read by humans rather than machines. We have different methods for text processing depending on the goal.

We can be helpful teaching people how to automatize their text processing routines. We can batch-process thousands of documents to extract information from them or to derive different types of statistics. We can also change these document, or generate databases or email correspondence based on information extracted from them. Anything that involves intelligent management of information can benefit from different degrees of automatization, and by doing that we can free time, effort and resources.

Tell us which are your needs and we will show you what we can do about it.