Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) n-gramas (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: n-gramas


Is in goldstandard

1
paper corpusSignosTxtLongLines340 - : Para el etiquetado del corpus de entrenamiento elaborado a mano, se tomó como base el etiquetador probabilístico Freeling 2.0 (que se encuentra disponible en la web en su versión demo). El etiquetado de la entrada de los alumnos se realiza con la técnica de N-gramas, más precisamente tri-gramas; es decir, por cada palabra de la oración ingresada el etiquetador revisa los dos contextos precedentes a la unidad a etiquetar y elige la etiqueta más probable . Luego busca en el corpus la misma palabra, revisa el contexto y ‘memoriza’ la palabra con su contexto y etiqueta asociada.

2
paper corpusSignosTxtLongLines374 - : Los métodos de clasificación se dividen en dos grupos: aquellos que son métodos supervisados, como es el caso del algoritmo de n-gramas, el cual necesita un conjunto de entrenamiento para crear el modelo del lenguaje que usará el algoritmo para su clasificación, y el segundo grupo es aquel donde no se genera el conjunto de entrenamiento, como es el uso de la ontología, y en este es a través de los datos que tiene la ontología que trata de clasificar los documentos (Dragu, Elkhoury, Miyazaki, Morelli & Tada, 2010 ).

3
paper corpusSignosTxtLongLines374 - : Con base en los resultados obtenidos se puede asegurar que el algoritmo de n-gramas es un buen candidato para la tarea planteada en esta investigación . Sin embargo, como se hizo notar en los párrafos precedentes, el desempeño del algoritmo de n-gramas en el último nivel de la taxonomía no es tan alto como en los dos niveles anteriores, por lo que se optó por el acoplamiento de un segundo algoritmo para mejorar la clasificación en este nivel, donde se observó el más bajo rango de aciertos en la categorización.

4
paper corpusSignosTxtLongLines375 - : A continuación, describimos brevemente nuestra adaptación de la medida tf-idf para determinar el peso y la relevancia de los n-gramas en el corpus:

Evaluando al candidato n-gramas:


1) algoritmo: 5 (*)
3) entrenamiento: 3 (*)
4) clasificación: 3 (*)
5) corpus: 3 (*)

n-gramas
Lengua: spa
Frec: 35
Docs: 6
Nombre propio: 1 / 35 = 2%
Coocurrencias con glosario: 4
Puntaje: 4.795 = (4 + (1+3.90689059560852) / (1+5.16992500144231)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
n-gramas
: Sidorov, G. (2013). N-gramas sintácticos no-continuos. Polibits, 48, 69-78.