temout/ling

/LING

Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) algoritmo (*)
(*) Términos presentes en el nuestro glosario de lingüística

1
paper corpusSignosTxtLongLines176 - : El LSA (del inglés Latent Semantic Analysis) es un tipo de análisis computacional que permite determinar y cuantificar la similitud semántica entre piezas textuales -sean palabras, documentos o palabras y documentos- de un corpus de textos pertenecientes a un mismo dominio de conocimiento. Para ello, el sistema computacional del LSA sigue un algoritmo matemático que tiene como centro a la técnica de factorización lineal conocida como descomposición de valores singulares (SVD, sigla del inglés Singular Value Decomposition), a partir de la cual se genera una representación vectorial del corpus o espacio semántico en cuya conformación y posterior utilización reconocemos dos supuestos lingüísticos acerca del significado: (1 ) el significado es contextualmente dependiente y (2) en el uso contextual hay relaciones de similitud semántica que están latentes.

2
paper corpusSignosTxtLongLines176 - : El supuesto que estamos comentando es claramente identificable en el algoritmo operativo del LSA. Primero, en los requerimientos del corpus de entrenamiento del sistema, donde el dominio de conocimiento al que pertenecen los textos funciona como el contexto (ambiente) a partir del cual cada palabra y/o documento (unidad de significado) adquiere el peso con el que será representado. Luego, en la representación euclidiana, donde, en consonancia con el hecho de que el valor de un vector se define por su relación con los otros vectores del espacio semántico, el significado de una palabra se deriva a partir de las relaciones contextuales que mantiene con otras palabras dentro de un mismo ambiente (Kintsch & Bowles, 2002). En cada uno de estos pasos del algoritmo del LSA, podemos reconocer dos diferentes niveles de contexto verbal: contexto verbal inmediato, representado por la co-ocurrencia de palabras, y contexto verbal más amplio, representado por el dominio de conocimiento al que pertenecen

3
paper corpusSignosTxtLongLines179 - : Tal como se ha mostrado en los apartados anteriores de este trabajo, la construcción de un sistema adaptativo inteligente con capacidad de conocimiento incremental ha debido enfrentar una serie de desafíos muy estimulantes. Algunos de ellos aquí se presentan como avances con soporte de avanzada. Tal como se ha informado, el algoritmo para la selección del diálogo actualmente implementado en el AutoTutor es una medida aproximada . Es decir, no provee un encuadre perfecto del conocimiento de dominio, más bien selecciona el movimiento apropiado más cercano. Mejorar la actuación de este mecanismo dialógico requeriría un incremento drástico en la actuación de las capacidades de comprensión del lenguaje natural que las que tenemos disponibles hoy en día. También es importante observar que los análisis presentados en este artículo son correlacionales. No realizamos un verdadero experimento que manipule el punto hasta el cual el AutoTutor selecciona las movidas del diálogo sensibles al conocimiento

4
paper corpusSignosTxtLongLines213 - : En síntesis, la clasificación automática de documentos puede concebirse como un proceso de aprendizaje matemático-estadístico, durante el cual un algoritmo implementado computacionalmente capta las características que distinguen cada categoría o clase de documentos de las demás, es decir, aquellas que deben poseer los documentos para pertenecer a esa categoría . Estas características no tienen porqué indicar de forma absoluta e inequívoca la pertenencia a una clase o categoría, sino que más bien lo hacen en función de una escala o graduación. De esta forma, por ejemplo, documentos que posean una cierta característica tendrán un factor de posibilidades de pertenecer a determinada clase, de modo que la acumulación de dichas características arrojará un resultado que consiste en un coeficiente asociado a cada una de las clases ya conocidas. Este coeficiente lo que expresa en realidad es el grado de confianza o certeza de que el documento en cuestión pertenezca a la clase asociada al coef

5
paper corpusSignosTxtLongLines281 - : Los 'etiquetadores estadísticos' se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos (data-driven taggers). El costo es por ello mucho menor aunque también es menor su grado de precisión, superior en cualquier caso al 97%, suficiente en algunas aplicaciones. Los sistemas son independientes de la lengua y fácilmente adaptables a otras lenguas y dominios. El problema de estos sistemas reside en el aprendizaje del modelo estadístico utilizado. En este sentido es notable, y creciente, el uso de técnicas de aprendizaje automático. Se han utilizado técnicas de aprendizaje supervisado partiendo de corpus etiquetados manualmente y técnicas de aprendizaje no supervisado en las que no es precisa (o está limitada) esa intervención manual. Un algoritmo clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos de Markov (del inglés, Hidden Markov Models, HMM ). Este enfoque se caracteriza por asumir que la probabilidad de una cadena de símbolos puede ser

6
paper corpusSignosTxtLongLines374 - : Para realizar una evaluación rigurosa del sistema se seleccionaron tres algoritmos de clasificación de textos incluidos en el entorno Weka (Hall, 2009), con los cuales se compararon los resultados obtenidos. Se eligió Weka porque permite la ejecución de algoritmos de clasificación que utilizan diferentes aproximaciones, como por ejemplo SVM, árboles de decisión, reglas de asociación, funciones, etcétera. En concreto, se seleccionaron tres algoritmos: un algoritmo de clasificación basado en reglas (OneR ), un algoritmo basado en árboles de decisión (J48) y un algoritmo basado en funciones (VFI).

7
paper corpusSignosTxtLongLines374 - : Los métodos de clasificación se dividen en dos grupos: aquellos que son métodos supervisados, como es el caso del algoritmo de n-gramas, el cual necesita un conjunto de entrenamiento para crear el modelo del lenguaje que usará el algoritmo para su clasificación, y el segundo grupo es aquel donde no se genera el conjunto de entrenamiento, como es el uso de la ontología, y en este es a través de los datos que tiene la ontología que trata de clasificar los documentos (Dragu, Elkhoury, Miyazaki, Morelli & Tada, 2010 ).

8
paper corpusSignosTxtLongLines374 - : En cuanto al algoritmo basado en ontologías, muestra el mejor desempeño con un 80.1%, superando al algoritmo de funciones en un 1.1%, que es más que el porcentaje obtenido en la comparación entre el algoritmo basado en funciones y el algoritmo basado en n-gramas con una diferencia del 0.91%. Por lo tanto, el mejoramiento que se pudo realizar entre el algoritmo basado en n-grama de letras y el algoritmo basado en ontología es de un 12%, la cual es una diferencia representativa .

9
paper corpusSignosTxtLongLines374 - : Con base en los resultados obtenidos se puede asegurar que el algoritmo de n-gramas es un buen candidato para la tarea planteada en esta investigación . Sin embargo, como se hizo notar en los párrafos precedentes, el desempeño del algoritmo de n-gramas en el último nivel de la taxonomía no es tan alto como en los dos niveles anteriores, por lo que se optó por el acoplamiento de un segundo algoritmo para mejorar la clasificación en este nivel, donde se observó el más bajo rango de aciertos en la categorización.

10
paper corpusSignosTxtLongLines389 - : Para comparar el método, se definió un algoritmo básico (una ‘línea base’), el cual consiste en seleccionar los primeros conceptos de la noticia hasta llegar al porcentaje de compresión establecido (excepto palabras auxiliares: artículos, preposiciones, etc .). También, usamos métricas estándares como precisión y recall (términos comúnmente usados en recuperación de información). Recall es la fracción de conceptos elegidos por el humano que fueron correctamente identificados por el método, ecuación (3). La precisión está definida como la fracción de conceptos elegidos por el método que fueron correctos, ecuación (4). La Medida-F es la media harmónica de precisión y recall, ecuación (5).

11
paper corpusSignosTxtLongLines415 - : El funcionamiento del corrector es sencillo: contrasta las combinaciones de palabras utilizadas en el texto con los datos de esas mismas palabras obtenidos en el corpus de textos y, dependiendo del resultado del algoritmo, nos avisa de si los bigramas son poco o nada frecuentes (y deberían serlo más, dada la frecuencia de las palabras que los forman), lo cual puede ser un indicio de que contienen un error. Para evaluar la eficacia del algoritmo, hemos recopilado textos escritos por hablantes nativos que incluyen errores que encontramos con cierta frecuencia –muchos de ellos están recogidos en la sección de ‘preguntas frecuentes’ de la página web de la Real Academia Española ([25]http://www .rae.es/consultas-linguisticas/preguntas-frecuentes)–. En general, las palabras usadas erróneamente existen en español y son correctas en otros contextos –de ahí la dificultad de detectar sus usos incorrectos o, en muchos casos, impropios–.

12
paper corpusSignosTxtLongLines415 - : Volviendo al algoritmo, tras aplicar la fórmula anterior, se analiza si el par de palabras aparece en el corpus más (o menos) veces de lo que sería esperable según su probabilidad –es decir, se calcula el umbral (U)– mediante esta fórmula: U = F(ab ) / P(ab).

13
paper corpusSignosTxtLongLines415 - : en cambio, al aplicar el algoritmo tendremos evidencias claras de que en estas combinaciones de palabras hay un error (véase Tabla 2):

14
paper corpusSignosTxtLongLines415 - : Si nos fijamos en los resultados (véase Tabla 5) comprobamos que la frecuencia de todas las combinaciones que contienen errores es cero; con lo cual, queda demostrada la eficacia del algoritmo basado en el análisis estadístico: está por encima de la del corrector del procesador .

15
paper corpusSignosTxtLongLines415 - : Hasta ahora nos hemos limitado a probar el algoritmo con fragmentos breves, pero quizá la mayor utilidad es la que proporciona al corrector de un texto extenso si lo ayuda a localizar aquellos errores que han podido pasar desapercibidos en una primera lectura . Para comprobar la eficacia en estos casos, hemos analizado el capítulo de un libro destinado a ser incluido en una publicación universitaria, y que consta de 9.000 palabras. Estos son los fragmentos del capítulo en los que se han encontrado bigramas muy poco frecuentes (se indican subrayados) y todos contienen algún error, ya sea ortográfico, como, por ejemplo, la omisión de la tilde en ‘módulo’ y ‘diálogo’:

16
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe. Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

17
paper corpusSignosTxtLongLines415 - : Una forma de mejorar el funcionamiento de la aplicación del algoritmo que hemos empleado aquí para que sea todavía más útil es ampliar la extensión de la combinación de palabras analizadas; es decir, que en vez de ser solo pares, fueran grupos de tres, cuatro o, incluso, cinco palabras ; de esta manera sería posible detectar algunos de los errores que no pueden ser descubiertos solo con el análisis de dos palabras adyacentes. Así lo han constatado Wu y Su (2006) en su estudio de un corrector utilizado para detectar el uso erróneo de preposiciones en inglés, en el que se ha empleado un ‘modelo’ de análisis de pares y otro de grupos de tres palabras (trigramas): ‘The experiment results show that tri-gram language model can find most of the correct prepositions’.

18
paper corpusSignosTxtLongLines415 - : En definitiva, pensamos que la aplicación del algoritmo es una herramienta útil que puede contribuir a que los textos escritos en español, al menos los producidos por la comunidad universitaria, contengan un menor número de errores, ya que es capaz de detectar faltas que otros correctores no identifican . Asimismo, esa misma aplicación dispone de una versión adaptada para estudiantes de español como L2, la cual esperamos que se beneficie también del análisis aquí realizado.

19
paper corpusSignosTxtLongLines427 - : Efectivamente, el desarrollo de este GAE requiere llevar a cabo un análisis profundo y acabado de los hechos que se entregan como datos y además definir un tipo de razonamiento para elaborar la estrategia que se utilizará en la resolución. Por otro lado, es posible que se requiera de la integración de dos o más algoritmos, lo que da cuenta de un problema de mayor complejidad. De hecho, la selección del algoritmo apropiado para resolver una situación cuya solución se alcanza utilizando uno solo, también implica un juicio y un cierto grado de comprensión mayor . Esta es una forma de reconocer y elegir una estrategia o un patrón de resolución que puede considerarse como un componente y /o condición de la resolución de problemas.

20
paper corpusSignosTxtLongLines522 - : A partir de las concordancias de un verbo i, el algoritmo aplica Syntaxnet, cuyo demostrador en línea se ha instalado también en nuestro repositorio para facilitar la descripción de cada paso del análisis ([93]http://www .tecling.com/syntaxnet). A modo ilustrativo, la [94]Tabla 3 muestra el resultado del análisis sintáctico de dependencias expresado por Syntaxnet para una de las concordancias que habíamos utilizado como ejemplo en la [95]Tabla 2; el análisis se expresa en el formato CONLL (^[96]Buchholz & Marsi, 2006). La [97]Figura 3 muestra el resultado del mismo análisis por el parser DepPattern (^[98]Gamallo & González, 2012) a modo de grafo dirigido.

21
paper corpusSignosTxtLongLines522 - : Considérese, a modo de ejemplo, el resultado de cadena hiperonímica que se obtiene con esta taxonomía para la palabra ‘maíz’, en la [104]Figura 4. Este grafo representa las diferentes hipótesis que el algoritmo de la taxonomía almacenó sobre las formas de conceptualizar la unidad elegida: como un tipo de alimento, como un material, como un tipo de planta y como parte de una planta . Los arcos entre los nodos, que representan las relaciones de hiperonimia, están coloreados ya que los enlaces tienen asociado un valor de certeza en una escala de colores: verde si es existe alta certeza, azul para una certeza moderada, negro para el neutro y rojo para indicar poca certeza. En cuanto al enlace meronímico que también aparece, la CPA Ontology contiene un apartado para las ‘partes de’, aunque en general la taxonomía se compone de relaciones de hiponimia.

22
paper corpusSignosTxtLongLines555 - : Los métodos para resolver este problema se encuentran agrupados en dos enfoques, los cuales son: transformación del problema y adaptación del modelo (^[46]Tsoumakas & Katakis, 2007). El enfoque de transformación del problema es independiente del algoritmo, es decir, transforma la tarea de aprendizaje de multi-etiqueta en una tarea de clasificación de una sola etiqueta . De esta forma, este método puede ser implementado usando algoritmos existentes. El método más común de transformación del problema, llamado Relevancia Binaria (Binary Relevance, BR) aprende |L| clasificadores binarios H[ λj ]: X→{λ[ j ],¬λ[ j ]}, uno para cada etiqueta diferente λ[ j ]en L. A través del uso de Relevancia Binaria se transforma el conjunto de datos original en |L| conjuntos de datos

Evaluando al candidato algoritmo:

1) palabras: 16 (*)
2) análisis: 11
4) basado: 9
5) corpus: 9 (*)
6) clasificación: 8 (*)
7) textos: 6 (*)
8) documentos: 6
10) errores: 6
12) frecuencia: 5 (*)
13) combinaciones: 5 (*)
14) aprendizaje: 5
17) método: 5
19) dominio: 4 (*)
20) certeza: 4

algoritmo
Lengua: spa
Frec: 127
Docs: 26
Nombre propio: / 127 = 0%
Coocurrencias con glosario: 7
Puntaje: 7.955 = (7 + (1+6.64385618977473) / (1+7)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)

algoritmo

: Corpas Pastor, G. & Seghiri, M. (2007b). Determinación del umbral de representatividad de un corpus mediante el algoritmo N- Cor. SEPLN: Revista de la Sociedad Española para el Procesamiento del Lenguaje Natural, 39, 165-172.
: Guerrero, V., López, C., Faba, C., Reyes, M., Zapico, F. & Moya, F. (2003). Clasificación de términos mediante el algoritmo de Kohonen [en línea]. Disponible en: [44]http://scimago.ugr.es/file.php?file=/1/Documents/JOTRI-03.pdf

/LING

1) Candidate: algoritmo

Evaluando al candidato algoritmo:

Referencias bibliográficas encontradas sobre cada término