Update: February 24, 2023
The new version of
Termout.org is now online,
so this web site is now obsolete and will soon be dismantled.
|
Lista de candidatos sometidos a examen:
1)
n-gram (*)
(*) Términos presentes en el nuestro glosario de lingüística
Is in goldstandard
1
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectM
e. Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28 ). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la
Evaluando al candidato n-gram:
n-gram
Lengua:
Frec: 9
Docs: 4
Nombre propio: / 9 = 0%
Coocurrencias con glosario:
Puntaje: 0.231 = ( + (1+0) / (1+3.32192809488736)));
Candidato aceptado
Referencias bibliográficas encontradas sobre cada término
(Que existan referencias dedicadas a un término es también indicio de
terminologicidad.)
n-gram |
: Lin, Ch. & Hovy, E. (2003). Automatic evaluation of summaries using n-gram co-occurrence statistics. En Actas del 2003 Language Technology Conference, Edmonton, Canadá .
: Nazar, R. & Renau, I. (2012). Google Books N-gram corpus used as a grammar checker. Proceedings of EACL 2012: Second Workshop on Computational Linguistics and Writing. Avignon, France [en línea]. Disponible en:
: The statistical module of Atenea relies on the BiLingual Evaluation Understudy (BLEU) algorithm (Papineni, Roukos, Ward & Zhu, 2001). Basically, it looks for n-gram coincidences between the student's answer and the references. Its pseudocode is as follows:
|