Tecling logo » The universe is not perfect, but it's working on it.      ABOUT RESEARCH SOLUTIONS SOFTWARE CONTACT
Technologies for Linguistic Analysis

August 19, 2025
We are moving back to Spain


After eleven and a half years and many adventures, Irene Renau and Rogelio Nazar are moving back to Barcelona, to begin a new stage in their life.
This web site and all associated applications will be offline while the change is taking place. Please be patient. Everything will be back online as soon as possible. We need to change servers and this must happen one software at a time. We will be updating on this development.
We would like to express our gratitude to our employers at Pontificia Universidad Católica de Valparaíso for letting us develop our academic careers, for all the support, and the great moments we had.


5 de agosto de 2025
Tuvo lugar el II Seminario de Invierno en Semántica Léxica y Lexicografía


Parece que el Instituto de Literatura y Ciencias del Lenguaje (ILCL) de la Pontificia Universidad Católica de Valparaíso (PUCV) se ha convertido en un foro internacional de la lingüística y, en particular, de la lexicología y la lingüística de corpus. Este martes 5 de agosto, en el Auditorio del ILCL, tuvimos unos invitados de lujo en nuestra nueva edición de los Seminarios de Invierno en Semántica Léxica y Lexicografía .
Presentó su trabajo José Ramón Carriazo, de la Universidad Nacional de Educación a Distancia (UNED) y Olga Batiukova, de la Universidad Autónoma de Madrid, dos profesores que en este momento coinciden en una estancia de investigación en el ILCL. Además, presentarán Javiera Ahumada y Constanza Suy, dos egresadas del Magíster en Lingüística Aplicada, y Sabela Fernández-Silva, Irene Renau y Rogelio Nazar, profesores de la PUCV.


25 de julio de 2025
Guillermo Rojo dictó una conferencia en la Pontificia Universidad Católica de Valparaíso


El destacado lingüista español Guillermo Rojo, profesor emérito de la Universidad de Santiago de Compostela, miembro de la Real Academia Española y una de las figuras más importantes de la lingüística española actual, dictó una conferencia para el Doctorado en Lingüística del Instituto de Literatura y Ciencias del Lenguaje de la Pontificia Universidad Católica de Valparaíso, con el título Corpus textuales, diccionarios de frecuencia dinámicos y otras explotaciones.

Aquí el enlace al video de la conferencia:
https://youtu.be/IMlKBlg32V4


Resumen: Los recursos informáticos, los corpus y la lingüística de corpus han modificado fuertemente el modo de trabajar en lingüística y han tenido también un impacto notable en algunos de los recursos y temas más tratados tradicionalmente. El primero de esos aspectos es el constituido por los llamados 'diccionarios de frecuencia', un tipo de obra sobre la que se han acumulado las críticas desde sus orígenes hasta nuestros días. Los recursos informáticos que tenemos ahora a nuestra disposición permiten solucionar la mayor parte de los problemas planteados y construir DF que sirvan realmente a los propósitos con los que son utilizados. Al tiempo, la posibilidad de obtener datos de corpus textuales formados por cientos de millones de palabras y seleccionar los resultados en función del origen de los textos y el tipo al que pertenecen permite arrojar una nueva luz sobre cuestiones como el tamaño del lemario necesario para desenvolverse en español o la distribución del léxico en los diferentes países del mundo hispánico.


23 de julio de 2025
Presentamos ponencias en el Congreso de la Asociación Internacional de Hispanistas


Tres investigadores del Grupo Tecling estuvieron presentes en el XXII Congreso de la Asociación Internacional de Hispanistas, realizado en la Universidad de los Andes, Santiago de Chile, donde compartieron avances de investigación. El
Dr. Hernán Robledo expuso “Variación formal y funcional de los marcadores del discurso en interacciones digitales: el caso de los comentarios de YouTube en español”. A partir de 1.048 comentarios en videos de noticias chilenos, identificó y clasificó 1.191 ocurrencias de conectores y operadores discursivos, proponiendo un sistema de paradigmas formal-funcionales. Sus hallazgos muestran la alta productividad de conectores interactivos y operadores modales y argumentativos, propios del discurso digital, que evidencian que la variación en estos entornos es dinámica y expresiva, superando la rigidez de la escritura formal.
El Dr. Rogelio Nazar presentó “Análisis de los patrones léxicos parafrásticos del discurso especializado en castellano”. Con un corpus de 3.600 artículos y cerca de 30 millones de palabras, identificó patrones parafrásticos frecuentes y desarrolló un prototipo para su detección automática. Los resultados confirman que la paráfrasis puede predecir el carácter especializado de una unidad léxica, lo que abre nuevas posibilidades para la extracción automática de terminología y el análisis del discurso científico.
Finalmente, la Dra. Irene Renau expuso “Las metáforas en los diccionarios: hacia una propuesta de representación en Verbario”, donde analiza la metáfora en diccionarios generales del español y propone una microestructura innovadora para Verbario, diccionario de verbos basado en patrones sintáctico-semánticos. En el marco del proyecto Fondecyt Regular 1231594, integra análisis semiautomatizados para mapear metáforas, dominios y redes verbales, introduciendo cambios estructurales en su organización y microestructura


3 de julio de 2025
Ayer tuvimos la presentación de Imma López-Solà


El miércoles 2 de julio de 2025 tuvo lugar esta charla de la profesora Imma López-Solà en el Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso. El título de la exposición es 'Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español', y en ella, Imma nos habló de su investigación en aprendizaje de español como segunda lengua, que forma parte de su tesis doctoral de la de la Universitat Pompeu Fabra, de Barcelona.
El video de la exposición completa está disponible en este enlace:
https://youtu.be/FzvphPDO3sw

El trabajo fue recientemente publicado en forma de artículo en la revista Applied Linguistics:
https://doi.org/10.1093/applin/amaf017

Aquí un twit de la autora en el que describe esta investigación:
https://x.com/immakoolaid/status/1925255695248572726

El siguiente es un resumen de esta exposición:

Lecturas (mal) graduadas: Inconsistencias en la progresión de la complejidad lingüística en materiales de lectura para aprender español

El uso de lecturas graduadas (LGs) en la enseñanza de lenguas extranjeras es una práctica habitual, ya que permiten ofrecer input contextualizado adaptado al nivel de cada estudiante. Sin embargo y pese a que su elaboración se basa en criterios poco sistematizados (Claridge, 2012; Nation y Waring, 2020), se da por sentado que están bien calibradas y se utilizan, entre otras cosas, para desarrollar recursos y sistemas de aprendizaje de lenguas asistido por ordenador (ALAO) (p. ej., Dürlich y François, 2018). En este estudio analizamos la progresión de la complejidad lingüística en un conjunto representativo de LGs en español y, dado que su disponibilidad es limitada, evaluamos hasta qué punto determinadas obras literarias (OLs) dirigidas a hablantes nativos de distintas edades presentan una graduación comparable que permita su aprovechamiento didáctico. Con este objetivo, combinamos técnicas de procesamiento del lenguaje natural y aprendizaje automático del siguiente modo: a partir de un corpus compuesto por 50 LGs, 50 OLs y 8585 unidades léxicas graduadas, calculamos 40 medidas de complejidad léxica y morfosintáctica, y entrenamos modelos de bosque aleatorio para analizar la variación de la complejidad entre niveles. Posteriormente, realizamos tests de permutación con las cuatro medidas más informativas para comparar la complejidad entre subcorpus y también con un corpus de referencia de español general. Por último, empleamos técnicas distribucionales para estudiar la progresión del vocabulario más allá de cualquier lista predefinida de unidades léxicas graduadas. Los resultados evidencian que la complejidad lingüística no progresa de forma sistemática en ninguno de los dos tipos de lectura, siendo especialmente inconsistente en las LGs de nivel avanzado. Asimismo, se observa una diferencia sustancial entre los niveles iniciales de las LGs y las OLs, pero también una convergencia progresiva en los niveles intermedios y avanzados. Estos hallazgos tienen implicaciones relevantes tanto para el diseño de materiales educativos adecuados al nivel del estudiantado como para el desarrollo de aplicaciones de ALAO, que podrían beneficiarse del uso de OLs para ampliar sus datos de entrenamiento y generar input graduado. Recomendamos, en consecuencia, una mayor sistematización en la elaboración de las LGs, complementando el proceso cualitativo de escritura con análisis cuantitativos que optimicen la calibración de la complejidad lingüística en este tipo de materiales didácticos.

Referencias

Claridge, G. (2012). Graded readers: How publishers make the grade. Reading in a Foreign Language 24(1): 106–119. Dürlich, L., y François, T. (2018). EFLLex: A graded lexical resource for learners of English as a foreign language. Proceedings of the 11th International Conference on Language Resources and Evaluation (LREC 2018), pp. 873–879. European Language Resources Association.
Nation, P. y Waring, R. (2020). Teaching extensive reading in another language. Routledge.


10 de junio de 2025
Olga Batiukova dictó una clase en el Doctorado en Lingüística


Hoy martes 10 de junio tuvimos una clase abierta, organizada por el Doctorado en Lingüística de la PUCV, en el marco de la asignatura “Estudios Gramaticales: de la palabra al texto”. La expositora, en esta oportunidad, fue la distinguida profesora Dra. Olga Batiukova, de la Universidad Autónoma de Madrid. Olga es una especialista de renombre internacional en semántica léxica, y para nosotros es un gran honor que haya querido venir a visitarnos.
En esta oportunidad, desarrolló el tema de la polisemia léxica. En particular, se centró en el tema de la polisemia regular, que ha trabajado desde la teoría del lexicón generativo, junto con James Pustejovsky, creador de esta línea teórica y coautor de esta profesora en uno de sus libros más recientes. Desde esta teoría, la investigadora ha propuesto una explicación para la diferencia entre polisemia y homonimia. Además, desarrolló, entre otros temas, el fenómeno de la copredicación, en la que coexisten, en una misma palabra y en un mismo contexto, más de un significado. Explicó, también, una de sus últimas investigaciones, publicada en la Revista Signos, en la que aborda la relación entre la polisemia regular y la morfología de la derivación denominal en español.


June 1st, 2025
We have a new version of Kind, the taxonomy project


We have a new version of Kind, our lexical taxonomy project. This one is based on the English and Spanish sides of Wiktionary, so at the moment it is only available in these two languages. A French version will also be available soon.

This database has 25081 nouns in English and 44159 en Spanish. Each noun may have more than one hypernymy chain if it's a polysemous noun.
Take a look:
http://www.tecling.com/kind

You can, for instance, enter any arbitrary common single-noun (or a list of them, one per line) and obtain the corresponding hypernymy chains.
You can also request random samples of 100 entries to evaluate the quality.

As of today, the project is well documented and all the source code and the data is available for download.
Enjoy with moderation!


24 de mayo, 2025
Hernán Robledo presenta ponencia en Congreso ArDis


Nuestro colega y colaborador Hernán Robledo presentó una ponencia en el Congreso ArDis 2025 (La arquitectura del discurso: categorías, unidades y relaciones). Su ponencia se titula ``Variación formal y funcional de los conectores y operadores discursivos en interacciones digitales: el caso de los comentarios de YouTube en español'' y consite en una propuesta de metodología híbrida para sistematizar la variación formal y funcional de los marcadores del discurso en español. Esta investigación se enmarca en su proyecto Fondecyt de Postdoctorado N°3230617, titulado ``Variación formal de marcadores del discurso en español: extracción y clasificación de variantes mediante técnicas semiautomáticas de explotación de corpus'', patrocinado por la Pontificia Universidad Católica de Valparaíso (PUCV) y la profesora Irene Renau.

En su exposición, Hernán presentó los primeros hallazgos del análisis de un corpus de interacciones escritas extraídas de YouTube aplicando la distinción teórica entre conectores y operadores discursivos propuesta por Catalina Fuentes Rodríguez, directora del Grupo APL de la Universidad de Sevilla. Señaló además que, dado el caracter altamente interactivo, expresivo, argumentativo y dinámico de los intercambios en esta plataforma, es posible observar tanto las formas plenamente gramaticalizadas como aquellas construcciones emergentes o parcialmente fijadas, que aún presentan rasgos de flexibilidad estructural y semántica.

Felicitamos a nuestro amigo y nos enorgullece que lleve adelante un trabajo investigativo de calidad.


29 de abril, 2025
Imma López vino a hacer su estancia de investigación predoctoral


Tenemos el gran honor de recibir a Inmaculada López-Solá, profesora y doctoranda del Departamento de Traducción y Ciencias del Lenguaje de la Universitat Pompeu Fabra, quien ha decidido venir a Viña del Mar a realizar su estancia de investigación predoctoral con el Grupo Tecling.
Imma trabaja en el campo del Español como Lengua Extranjera aplicando sus conocimientos de lingüística computacional y lexicografía, y se interesa por el desarrollo de sistemas que sean capaces de detectar los errores de vocabulario, ofrecer retroalimentación y generar actividades de seguimiento personalizada para los estudiantes.
En el marco de su visita, participará de diferentes actividades, entre las que se incluye la presentación de una charla en el Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso para dar a conocer los resultados de su investigación doctoral.
Pronto estaremos difundiendo por diferentes medios la fecha, hora y lugar de este evento.
Por ahora, le damos la bienvenida y estamos encantados con su presencia.


11 de abril, 2025
Tuvimos una conferencia de Cecilio Garriga


Hoy hemos tenido la Ceremonia de Inauguración del Año Académico del Doctorado en Lingüística de la Pontificia Universidad Católica de Valparaíso, y nuestro conferencista invitado fue Cecilio Garriga Escribano, quien nos presentó la charla titulada 'Los diccionarios, entre la tradición y la inteligencia artificial'.
El Prof. Garriga es catedrático de la Universidad Autónoma de Barcelona y director del Grupo de Lexicografía y Diacronía, del Departamento de Filología Española. Sus líneas de investigación son la lexicografía, la historia de la lengua, los lenguajes de especialidad, la morfología, y la enseñanza de la lengua.

Para quienes no pudieron asistir, aquí está el enlace a la grabación en video del evento.


4 de abril, 2025
Publicamos nuevo artículo sobre terminologización


Esta semana nos han publicado un nuevo paper en la Revista Procesamiento del Lenguaje Natural, titulado Detección de terminologización en sustantivos y firmado por Javiera Ahumada y Rogelio Nazar. Este artículo está basado en la tesis de Magíster de Javiera, defendida recientemente, y dirigida por el ahora coautor.
Este es el resumen del artículo:
Este artículo presenta una propuesta metodológica para detectar automáticamente la terminologización de sustantivos en un dominio especializado. La metodología se basa en la detección de alteraciones en los perfiles de coocurrencia de los sustantivos y es evaluada aplicándola a un corpus especializado compuesto por artículos de investigación en el ámbito del procesamiento del lenguaje natural. Si bien se trata de un trabajo aun preliminar, los resultados muestran que el método propuesto puede ser de utilidad, ya que permite identificar sustantivos con alta probabilidad de terminologización. La implementación es, por tanto, de interés para terminólogos e investigadores trabajando en el tema del cambio semántico. Además de una valoración del método, se señalan las limitaciones del enfoque y algunas ideas para su ulterior desarrollo.
Y aquí la referencia completa, con el enlace:
Ahumada, J.; Nazar, R. (2025). Detección de terminologización en sustantivos. Procesamiento del Lenguaje Natural, 74: 277-289.


1º de abril, 2025
¡Nos dieron una medalla!


Hace unos días, la Pontificia Universidad Católica de Valparaíso nos ha entregado a Irene y a mí (Rogelio), en gran ceremonia, una medalla (una a cada uno), por superar los 10 años de permanencia en el puesto (para ser exactos, 11 años y 4 meses).
Nos ha llamado la atención el objeto: tiene un peso extraordinario. No sabemos de qué material es, pero tiene gran densidad. Es como si condensara en tan poco volumen todo lo que pasamos.
¡Agradecemos sinceramente este reconocimiento!


February 20, 2025
We presented a talk about semantic typing at Universiteit Leiden


Irene Renau and Rogelio Nazar presented a seminar with the title ``Semantic Typing Adventures for Corpus Pattern Analysis''. Hosted by Carole Tiberius, the talk took place in the fine building of the Dutch Language Institute (Instituut voor de Nederlandse Taal), of Universiteit Leiden.

Abstract

Corpus Pattern Analysis (CPA) is a corpus-driven method that seeks to map the meanings of words in usage with recurrent syntagmatic patterns (Hanks, 2004, 2013; Greffenstete and Hanks, 2023). CPA has been successfully applied to verbs in different languages (Hanks, online; Jezek et al., 2014; Colman and Tiberius, 2018; Renau et al., 2019, among others). However, its manual implementation remains time-consuming and dependent on expert judgment. In this seminar, we present the Verbario project (http://www.verbario.com), which aims to automatize CPA by developing computational methods for extracting and classifying patterns in large corpora. A key challenge in CPA automation is semantic typing, i.e., the systematic assignment of semantic classes to argument slots in syntactic patterns (Ježek et al., 2014; Pustejovsky and Batiukova, 2019: 188-194). We will outline our strategy for achieving this, focusing on how different corpus-driven approaches can be integrated to improve the reliability of semantic classification. To illustrate our approach, we will show our current work in Spanish (Renau, Nazar and Mora, 2024) and present a pilot experiment on semantic typing for English verbs, showcasing preliminary results and discussing their implications. Finally, we will explore how this methodology can be extended to metaphor analysis, particularly in identifying and classifying metaphorical patterns in corpus data (Renau, 2021). By leveraging semantic typing, we aim to refine the automatic detection of metaphorical mappings and contribute to a more structured understanding of metaphor usage across domains. We conclude by discussing the broader implications of CPA automation for lexicography, computational linguistics, and cognitive semantics.

References
Colman, L., & Tiberius, C. (2018). A good Match: A Dutch Collocation, Idiom and Pattern Dictionary Combined. In J. Čibej, V. Gorjanc, I. Kosem, & S. Krek (Eds.), Proceedings of the XVIII EURALEX International Congress: Lexicography in Global Contexts (pp. 233–246). Ljubljana University Press. PDF
Grefenstette, G., & Hanks, P. (2023). Competing Views of Word Meaning: Word Embeddings and Word Senses. International Journal of Lexicography, 36(2), 211–219.
Hanks, P. (2004). Corpus Pattern Analysis. In G. Williams & S. Vessier (Eds.), 11th Euralex International Congress (Vol. 1, pp. 87–97). Université de Bretagne-Sud. PDF
Hanks, P. (2013). Lexical Analysis: Norms and Exploitations. The MIT Press.
Hanks, P. (Ed.). (Online). Pattern Dictionary of English Verbs. https://pdev.org.uk/
Ježek, E., Magnini, B., Feltracco, A., Bianchini, A., & Popescu, O. (2014). T-PAS; A resource of Typed Predicate Argument Structures for linguistic analysis and semantic processing. In N. Calzolari, K. Choukri, T. Declerck, H. Loftsson, B. Maegaard, J. Mariani, A. Moreno, J. Odijk, & S. Piperidis (Eds.), Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (pp. 890–895). European Language Resources Association (ELRA). PDF
Pustejovsky, J., & Batiukova, O. (2019). The Lexicon. Cambridge University Press.
Renau, I., Nazar, R., Castro, A., López, B., & Obreque, J. (2019). Verbo y contexto de uso: Un análisis basado en corpus con métodos cualitativos y cuantitativos. Revista Signos, 52(101), 878–901. PDF
Renau, I., Nazar, R., & Mora, D. (2024). Towards the automatic generation of a pattern-based dictionary of spanish verbs. In K. Š. Despot, A. Ostroški Anic, & I. Brač (Eds.), Lexicography and Semantics. Proceedings of the XXI EURALEX International Congress (pp. 345–360). Institute for the Croatian Language. PDF

Tools & demos

We have implemented different types of applications and most of them can be tested online. Take a look.

+ Bifid: a parallel corpus aligner

+ Compare: a simple script to compare two lists of words

+ Cryptoman: a script to generate cryptograms

+ Dismark: a multilingual taxonomy of discourse markers

+ Dsele: a model dictionary for ELE learners

+ Estilector: computer assisted writing for Spanish

+ GeNom: a program to detect the gender of proper nouns

+ Jaguar: a tool for statistic corpus analysis

+ Kind: a lexical taxonomy induction algorithm

+ Kwico: a concordancer for big corpora

+ Lealem: a reading pacer for parallel German-Spanish texts

+ Leafran: a reading pacer for parallel French-Spanish texts

+ Linguini: a language detector

+ Neven: a program to detect eventive nouns

+ POL: named entity recognition and classification

+ Poppins: a supervised text classifier

+ Porcus: an interface for various taggers and parsers for Spanish

+ pullPOS: a project for the detection of plurals in Spanish

+ Punkt: punktuation of discourse markers in Spanish

+ Randall: a list randomizer

+ Readeutsch: a reading pacer for parallel German-English texts

+ Regex: a Perl script for regular expressions

+ Sapo: a program to detect similarities between documents

+ Sicam: a program to analyze Spanish poetry

+ Termout: a terminology extraction system

+ TEXT·A·GRAM: a program to analyze Spanish texts

+ Verbario: corpus pattern analysis in Spanish

Sausalito

This is the view from where we are located, in the Sausalito lagoon, a quiet and lovely place in Viña del Mar, Chile. Sunny days. Birds can be seen in the center of the lagoon (click to enlarge).

As researchers, we are currently affiliated to:
Pontificia Universidad Católica de Valparaíso
Instituto de Literatura y Ciencias del Lenguaje

Av. El Bosque 1290, Viña del Mar, Chile

Upcoming Events
[UPDATED: August 15, 2025]

Very soon: We will be presenting the new version of our semantic tagger, called Tatatag. This program will be added to the Text·a·Gram software as a module. It accepts a text and tags every noun, proper noun or noun phrase in the text with a semantic type from Hanks CPA Ontology. It works in English and Spanish. We will be posting about this in the next few days.

Latest ideas & research projects

We are developing new projects in computational linguistics and natural language processing:

+ Fondecyt Regular (2023-2027): "Mapa de las metáforas conceptuales en sustantivos y verbos del español: un estudio de los patrones metafóricos basado en corpus". Lead researcher: Irene Renau. Co-researcher: Rogelio Nazar. Ref.: 1231594.

+ Fondecyt Regular (2019-2021): "Polisemia regular de los sustantivos del español: análisis semiautomático de corpus, caracterización y tipología" (Regular polysemy of nouns in Spanish: semiautomatic analysis of corpus, characterization and tipology). Lead researcher: Irene Renau. Ref.: 1191204.

+ Fondecyt Regular (2019-2021): "Inducción automática de taxonomías de marcadores discursivos a partir de corpus multilingües" (Automatic induction of taxonomies of discourse markers from multilingual corpora). Lead researcher: Rogelio Nazar. Ref.: 1191481.

+ Ecos-Sud (International Project between Chile and France): "Inducción automática de taxonomías del español y el francés mediante técnicas cuantitativas y estadística de corpus". Lead researcher: Irene Renau. Ref.: C16H02.

+ Fondecyt Regular: "Desarrollo de la competencia terminológica a lo largo de la inserción disciplinar". Lead Researcher: Sabela Fernández. Co-researcher: Rogelio Nazar. Ref.: 11121597.

+ See more.

Recent publications

+ Nazar, R.; Renau, I.; Robledo, H. (In press). Dismark and Text·a·Gram: Automatic identification and categorization of discourse markers in texts. In Proceedings of DISROM 2022 (Discourse Markers in Romance Languages, Craiova, 16-18 June 2022).

+ Obreque, J.; Nazar, R. (2023). Detección de operadores modales: una primera exploración en castellano. Linguamatica. 15(2): 37--49. PDF

+ Renau, Irene. (2023). A corpus-based study of semantic neology of the Covid-19 pandemic. Quaderns de Filologia: Estudis Lingüístics XXVIII: 55-76. PDF

+ Nazar, R. (2023). Extensión, variación y evolución del léxico español. In Battaner, P., Torner, S, Renau, I. Lexicografía hispánica / The Routledge Handbook of Spanish Lexicography. Cap. 14, pp. 204-218.

+ López-Hidalgo, B.; Renau, I.; Nazar, R. (2023). Correlación entre la metáfora orientacional BUENO ES ARRIBA / MALO ES ABAJO y polaridad positiva/negativa en verbos del español: un estudio con estadística de corpus. Humanidades Digitales, Corpus y Tecnología del Lenguaje. University of Groningen Press, pp. 307-323. PDF

+ Nazar, R. & Acosta, N. (2023). Termout: a tool for the semi-automatic creation of term databases. In Haddad, Amal; Terryn, Ayla; Mitkov, Ruslan; Rapp, Reinhard; Zweigenbaum, Pierre and Sharoff, Serge (eds.) Proceedings of the Workshop on Computational Terminology in NLP and Translation Studies (ConTeNTS) Incorporating the 16th Workshop on Building and Using Comparable Corpora (BUCC), INCOMA, Shoumen, Bulgaria, pp. 9-18. PDF

+ Nazar, R. & Renau, I. (2023). Estilector: un sistema de evaluación automática de la escritura académica en castellano. Revista Perspectiva Educacional, 62(2): 37-59. PDF

+ Robledo, H.; Nazar, R. (2023). A proposal for the inductive categorisation of parenthetical discourse markers in Spanish using parallel corpora. International Journal of Corpus Linguistics. http://doi.org/10.1075/ijcl.20017.rob

+ Renau, I.; Nazar, R. (2022). Towards a multilingual dictionary of discourse markers: automatic extraction of units from parallel corpus. In: Klosa-Kückelhaus, A.; Engelberg, S.; Möhrs, C.; Storjohann, P. Dictionaries and Society. Proceedings of the XX EURALEX International Congress, Mannheim: IDS-Verlag, pp. 262-272. PDF

+ Nazar, R; Lindemann, D. (2022). Terminology extraction using co-occurrence patterns as predictors of semantic relevance. Proceedings of the TERM21 Workshop. Language Resources and Evaluation Conference (LREC 2022), Marseille, 20-25 June 2022, pp. 26-29. PDF

Solutions for text processing

It is critical for organizations to have the ability to process information automatically, and very often that information is contained in documents to be read by humans rather than machines. We have different methods for text processing depending on the goal.

We can be helpful teaching people how to automatize their text processing routines. We can batch-process thousands of documents to extract information from them or to derive different types of statistics. We can also change these document, or generate databases or email correspondence based on information extracted from them. Anything that involves intelligent management of information can benefit from different degrees of automatization, and by doing that we can free time, effort and resources.

Tell us which are your needs and we will show you what we can do about it.