Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) n-gram (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: n-gram


Is in goldstandard

1
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe. Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28 ). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

Evaluando al candidato n-gram:



n-gram
Lengua:
Frec: 9
Docs: 4
Nombre propio: / 9 = 0%
Coocurrencias con glosario:
Puntaje: 0.231 = ( + (1+0) / (1+3.32192809488736)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
n-gram
: Lin, Ch. & Hovy, E. (2003). Automatic evaluation of summaries using n-gram co-occurrence statistics. En Actas del 2003 Language Technology Conference, Edmonton, Canadá .
: Nazar, R. & Renau, I. (2012). Google Books N-gram corpus used as a grammar checker. Proceedings of EACL 2012: Second Workshop on Computational Linguistics and Writing. Avignon, France [en línea]. Disponible en:
: The statistical module of Atenea relies on the BiLingual Evaluation Understudy (BLEU) algorithm (Papineni, Roukos, Ward & Zhu, 2001). Basically, it looks for n-gram coincidences between the student's answer and the references. Its pseudocode is as follows: