Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) etiqueta (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: etiqueta


Is in goldstandard

1
paper corpusSignosTxtLongLines183 - : A diferencia de lo visto en las Figuras 2 a 4, en mi modelo de análisis prefiero usar la etiqueta 'Afectado' en el paradigma ergativo y dejar la de 'Medio' para el sistema general. Dado que este sistema general atraviesa los diferentes tipos de procesos, me parece más conveniente emplear la etiqueta de 'Medio' de la manera en que lo hace Halliday, es decir, para referirse al participante más nuclear, circunscribiendo la presencia del Afectado a los procesos materiales ergativos, ya que es en estos procesos donde el Medio realmente se ve afectado, como es el caso de el coche en (13 ). Por el contrario, el participante más nuclear de los procesos transitivos –como Pedro en (14)– con frecuencia carece de cualquier rastro de ser afectado por el proceso; más bien aparece como un ejecutor de la acción expresada por el verbo que realiza el Proceso. De esta manera, los ejemplos (9-14), según mi análisis, quedan tal como los hemos visto arriba en el análisis de Davidse, con la simple permuta de las

2
paper corpusSignosTxtLongLines274 - : Para ilustrar este funcionamiento, nos detendremos en un caso en el que la etiqueta genérica adoptada para designar un ejemplar textual no corresponde a las propiedades textuales del ejemplar sino directa y únicamente a sus condiciones comunicativas . A su vez, es ilustrativo porque muestra tempranamente el desplazamiento que se produciría desde el punto de vista diacrónico entre la declaración y el comunicado.

3
paper corpusSignosTxtLongLines274 - : [33]^4 En el marco de la confluencia entre la lingüística textual y el análisis del discurso de la escuela francesa, Adam y Heidmann (2004) emplean el concepto de "efecto de genericidad" para designar la carga semiótica que la etiqueta genérica produce con respecto al texto al que se aplica: "Dès qu'il y a texte -c'est-à-dire la reconnaissance du fait qu'une suite d'énoncés forme un tout de communication-, il y a effet de généricité -c'est-à-dire inscription de cette suite d'énoncés dans une classe de discours . La généricité est une nécessité socio-cognitive qui relie tout texte à l'interdiscours d'une formation sociale" (Adam & Heidmann, 2004: 62).

4
paper corpusSignosTxtLongLines281 - : Un Sistema Tutorial Inteligente (STI) está basado en los desarrollos de la Inteligencia Artificial, principalmente, en lo que compete a la utilización de técnicas de comprensión de lenguaje natural o de generación de lenguaje. Un STI es un programa para la enseñanza-aprendizaje basado en el computador cuya finalidad última es la facilitación de los procesos de aprendizaje personalizados. La etiqueta inteligente se refiere a la capacidad del sistema para analizar gramaticalmente la entrada y luego generar un feedback adecuado para el error del estudiante . Para ello, se deben implementar técnicas de procesamiento de lenguaje natural que se basan en teorías gramaticales para procesar la entrada del estudiante con el objeto de generar una estrategia de feedback. En materia de enseñanza de lenguas extranjeras, se ha corroborado empíricamente el interés en el aprendizaje que despierta por parte de los alumnos la incorporación de plataformas e-learning habilitadas con tecnologías de información y

5
paper corpusSignosTxtLongLines281 - : El objetivo de un etiquetador es el de asignar a cada palabra la categoría más 'apropiada' dentro de un contexto . Por supuesto, la calidad de éste dependerá del grado de precisión ('granularidad') del etiquetado, del contexto considerado y de la información de que se disponga para considerar apropiada una etiqueta o secuencia de etiquetas. A veces, los etiquetadores no resuelven totalmente el problema de la ambigüedad gramatical y se limitan a eliminar las opciones imposibles o menos probables. Este es el caso de los denominados 'desambiguadores reduccionistas'.

6
paper corpusSignosTxtLongLines281 - : Existen tres grandes tipos de etiquetadores o métodos de etiquetado: los basados en reglas, los estadísticos o probabilísticas y los híbridos basados en transformaciones . Los 'etiquetadores basados en reglas' utilizan conocimiento lingüístico (knowledge-driven taggers), generalmente expresado en forma de reglas o restricciones para establecer las combinaciones de etiquetas aceptables o prohibidas. Las reglas se escriben manualmente, responden a criterios lingüísticos y se representan en forma explícita. Los primeros sistemas de etiquetado basado en reglas constaban de dos etapas. La primera etapa contenía un diccionario que asignaba a cada palabra una lista de todas las etiquetas posibles para esa palabra y la segunda etapa constaba de una lista de reglas de desambiguación escritas a mano para lograr que a cada palabra se le asigne una sola etiqueta. Se trata de sistemas de muy alta precisión, por ejemplo, el ENGTWOL de Karlsson (Voutilainen, 1995, cit. en Jurafsky & Martin, 2000) que

7
paper corpusSignosTxtLongLines281 - : En tercer lugar, los 'sistemas híbridos' combinan métodos estadísticos y basados en reglas para intentar recoger los aspectos positivos de cada una de ellas y evitar sus limitaciones. Un ejemplo de este sistema son los sistemas basados en transformaciones (del inglés, Transformation-Based-Tagging, también llamado Transformation-Based-Learning (TBL) o Brill Tagging). Este sistema fue introducido por Brill (1995) y se basa en el aprendizaje automático (Jurafsky & Martin, 2000). Cada palabra se rotula con la etiqueta más probable, luego se cambia la etiqueta aplicando reglas del tipo 'si palabra -1 es un determinante cambie la etiqueta a nombre' y se re-etiqueta la palabra . Se obtiene de esta manera una secuencia de reglas de transformación. Recientemente, han comenzado a utilizarse sistemas de desambiguación por combinación. Se trata de combinación de diferentes modelos del lenguaje en un único desambiguador, de combinación de desambiguadores mediante votación u otros procedimientos más

8
paper corpusSignosTxtLongLines281 - : 2. Se etiqueta la entrada usando un etiquetador que aplica la técnica de 'n-gramas' (en este parser en particular se utiliza un sistema de 3-gramas que consiste en la revisión del contexto de dos etiquetas precedentes ).

9
paper corpusSignosTxtLongLines323 - : Resumen: La escritura académica ha perdido gradualmente su etiqueta tradicional de discurso objetivo e impersonal y se ha convertido en una empresa persuasiva que implica la interacción entre escritor y lector . Sin embargo, la noción de voz dista mucho aún de ser un concepto unívoco y su significado varía en función de la perspectiva desde la que se aborde su estudio. Los problemas atañen tanto a su definición, a las relaciones de la noción de voz con otros conceptos afines como a problemas metodológicos respecto a las dimensiones necesarias y suficientes para abordar su estudio y los indicadores relevantes a la hora de observar, analizar y valorar su presencia en un texto determinado. El propósito de este artículo es triple. En primer lugar, pretendemos revisar los trabajos que en los últimos años se han ocupado del estudio de la voz en los textos, delimitando desde qué orientaciones disciplinares y teóricas han abordado este estudio; nuestra revisión no pretende ser exhaustiva sino

10
paper corpusSignosTxtLongLines323 - : En los contextos educativos de secundaria y universidad, es habitual que los profesores exijan a sus estudiantes escribir textos complejos que requieren algo más que resumir o sintetizar de forma impersonal la información (Castelló, Iñesta, Miras, Solé, Teberosky & Zannoto, 2007). La escritura académica ha perdido gradualmente su etiqueta tradicional de discurso objetivo e impersonal y se ha convertido en una empresa persuasiva que implica la interacción entre escritor y lector (Hyland, 2005 ). En este sentido, cada vez se valora más que los estudiantes adopten una posición con respecto a los temas sobre los que escriben, es decir, que construyan su propia voz y la reflejen o la trasladen al texto. Sin embargo, la noción de voz, a pesar de su popularidad, dista mucho de ser un concepto unívoco y su significado varía en función de la perspectiva desde la que se aborde su estudio. Los problemas atañen tanto a su definición y, consiguientemente, a la explicación acerca de cómo los escritores

11
paper corpusSignosTxtLongLines340 - : Para que una secuencia pueda ser analizada por el analizador a cada unidad léxica debe asignársele una etiqueta dentro de un conjunto de etiquetas seleccionado. El conjunto de etiquetas de este sistema se basa en las etiquetas creadas por el grupo EAGLES (2011) para la anotación morfosintáctica de lexicones y corpus de lenguas europeas. Dependiendo de la lengua hay atributos que no están especificados y, por lo tanto, hay que crear etiquetas ad hoc. También puede ocurrir el caso contrario, que se cuente con etiquetas que para el corpus no se consideran relevantes y no haya que incluirlas. A modo de ejemplo, para este analizador en particular, hubo que crear etiquetas para diferenciar las preposiciones, ya que dentro de la lista de etiquetas propuestas solo se ofrece una etiqueta para todas las preposiciones (SPS00) y, dado que el dominio de las preposiciones es un tópico importante en la enseñanza/aprendizaje del español, fue necesario crear una etiqueta para diferenciar cada preposición .

12
paper corpusSignosTxtLongLines340 - : Para el etiquetado del corpus de entrenamiento elaborado a mano, se tomó como base el etiquetador probabilístico Freeling 2.0 (que se encuentra disponible en la web en su versión demo). El etiquetado de la entrada de los alumnos se realiza con la técnica de N-gramas, más precisamente tri-gramas; es decir, por cada palabra de la oración ingresada el etiquetador revisa los dos contextos precedentes a la unidad a etiquetar y elige la etiqueta más probable . Luego busca en el corpus la misma palabra, revisa el contexto y ‘memoriza’ la palabra con su contexto y etiqueta asociada.

13
paper corpusSignosTxtLongLines459 - : Como se puede ver en todos los casos, la clave es la palabra ingresada. El valor, por otro lado, en la mayoría de los casos es la etiqueta SIN_ERROR. En dos palabras, sin embargo, esto difiere. Como ya se adelantó, el nombre ‘Wanderers’ es desconocido para el corrector, por lo tanto, como valor se obtiene la etiqueta PALABRA_DESCONOCIDA. La otra salida distinta es justamente para la palabra en que se omitió tildar, esto es, ‘Concepcion. En este caso el valor es una lista de Python que contiene la palabra con el error, su forma correcta y la etiqueta que identifica el error, es decir, la omisión de la tilde en una palabra aguda: OMI_ORTO_AGUDA .

14
paper corpusSignosTxtLongLines475 - : De la inexistencia de *bipulmón y *prosahara como sustantivos deducimos con facilidad que son los prefijos los que han generado las nuevas unidades. Sin embargo, existe un significativo 28% del total de prefijados (91 ocurrencias) en los que la etiqueta de adjetivo ha sido asignada a unidades sin sufijos adjetivales:

15
paper corpusSignosTxtLongLines522 - : En la [100]Tabla 3, la forma ‘hay’ en posición 8 es seleccionada como núcleo de la oración principal y ‘gente’, en la posición 9, se encuentra como objeto directo de este verbo sin que se encuentre ningún sustantivo marcado con función de sujeto. A su vez, la secuencia ‘Santa María Xadani’ es correctamente encapsulada como un mismo sintagma nominal y como un nombre propio, tal como se indica en las columnas de categoría gramatical y la dependencia, aunque selecciona ‘Santa’ como núcleo del sintagma. El ejemplo también sirve para ilustrar algunos problemas del etiquetador: además de este nombre propio y el objeto directo ‘gente’, el sistema presenta la secuencia que comienza con ‘edad’ en la posición 11 como un tercer argumento del verbo principal con la etiqueta nmod (‘nominal modifier’ ) según el etiquetario ‘Universal Dependency’ (^[101]Jurafsky & Martin, en preparación), que aplica cuando un sustantivo funciona como un complemento de un nombre, diferenciándose

16
paper corpusSignosTxtLongLines522 - : de otros complementos como el adjetivo amod (‘adjectival modifier’). La etiqueta sería correcta si ‘edad’ dependiera de ‘gente’ y no del verbo núcleo de la oración. Más adelante, también, se cometen otros errores, como por ejemplo etiquetar erróneamente como nombres las formas verbales ‘siembra’ y ‘cosecha’, perjudicando naturalmente el resto del análisis a partir de allí . Errores como estos, por supuesto, repercuten en los pasos subsiguientes del análisis y perjudican los resultados.

17
paper corpusSignosTxtLongLines555 - : Tradicionalmente, la clasificación (o categorización) de textos se ha definido como la asignación de un valor Booleano (verdadero o falso) a cada par 〈d [j ],c [i ]〉 ∈ D × C, donde D es el dominio de los documentos (corpus) y C = {[c1],…,c [|c| ]} es el conjunto de etiquetas (clases) predeterminadas. Si un documento está categorizado solo bajo una etiqueta (categorías no sobrepuestas) o bajo múltiples etiquetas a la vez (categorías sobrepuestas), se le llama un ‘problema de una etiqueta’ o un ‘problema multi-etiqueta’ respectivamente (^[39]Sebastiani, 2002). El caso más estudiado para resolver problemas de clasificación de texto es el de ‘una etiqueta’ y el enfoque principal es el llamado de Clasificación Binaria (Binary classification, BC ), donde un documento es clasificado, ya sea a la categoría c [i ]o a su complemento

18
paper corpusSignosTxtLongLines555 - : En un problema multi-etiqueta existe un número de etiquetas finito L = {λ [j ]: j = 1…l}, donde λ [j ]corresponde a la etiqueta j-ésima, y al set de documentos etiquetados D= f x i , 𝐘 i :i=1…d D = {f{x[i],Y[ i ]: i=1…d}}, donde x[i] representa el vector de características y Y[i] ⊂ L es el conjunto de etiquetas del texto i-ésimo .

19
paper corpusSignosTxtLongLines555 - : La nueva representación para el problema de etiquetado múltiple, que se propone en este trabajo, llamado bin-rfl, se basa en una representación del modelo de Bernoulli multivariado que se pondera usando el término frecuencia de una etiqueta y se calcula como en la Ecuación número 3:

20
paper corpusSignosTxtLongLines555 - : Para describir las medidas de desempeño, se utiliza la siguiente notación: considerando el vector Y[i] ∈{0,1}^ |L| ∶i = 1…d , entonces cada etiqueta será relevante si y[ i,j ]= 1, y por su parte, la predicción del clasificador automático será y^ ' [i,j ]= 1 , donde d es el número de documentos y |L| es el número de posibles etiquetas .

21
paper corpusSignosTxtLongLines555 - : La medida F, comúnmente utilizada en recuperación de información, es muy popular en clasificación de textos multi-etiquetados. La medida F es la media armónica entre precisión y exhaustividad (recall). La medida F (F[ 1 ]) para cada etiqueta se calcula como se muestra en la Ecuación 6:

22
paper corpusSignosTxtLongLines556 - : [2]vol.53 número104 [3]Clasificación de Textos Multi-etiquetados con Modelo Bernoulli Multi-variado y Representación Dependiente de la Etiqueta [4]Criterios para la diccionarización de neologismos: De la teoría a la práctica [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

Evaluando al candidato etiqueta:


2) reglas: 9
4) análisis: 6
5) basados: 5
6) textos: 5 (*)
7) corpus: 5 (*)
10) secuencia: 5 (*)
11) clasificación: 5 (*)
13) procesos: 5
17) verbo: 4 (*)
20) texto: 4 (*)

etiqueta
Lengua: spa
Frec: 75
Docs: 37
Nombre propio: 1 / 75 = 1%
Coocurrencias con glosario: 6
Puntaje: 6.932 = (6 + (1+5.75488750216347) / (1+6.24792751344359)));
Candidato aceptado

No se encontraron referencias bibliográficas sociadas al/ alos término(s)

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)