Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) etiquetas (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: etiquetas


Is in goldstandard

1
paper corpusSignosTxtLongLines194 - : considera un conjunto amplio de etiquetas para facilitar la clasificación de las respuestas de los estudiantes en el diálogo tutorial. En relación con nuestro dominio, clases de lengua extranjera, necesitamos agregar a la anotación cuatro etiquetas de corrección para cubrir las respuestas de estudiantes en el contexto de dichas clases:

2
paper corpusSignosTxtLongLines194 - : Como el esquema de Core et al. (2002) no define categorías y etiquetas para los distintos tipos de estrategias de feedback (explicadas en las sección 3.1) propias en la enseñanza de lengua extranjera, como tampoco para los distintos tipos de errores de lengua observados, tuvimos que desarrollar nuestro propio esquema de clasificación tanto para los turnos de los profesores, con el objeto de poder determinar cuándo y cómo el profesor proporciona el feedback al estudiante como para los diferentes tipos de errores de lengua observados en las respuestas de los estudiantes. Es así como se estableció una serie de etiquetas: el feedback positivo fue anotado en inglés como repetition, rephrasing, acknowledgement o accept^[28]2 . El Grupo 1 de feedback correctivo fue anotado con cuatro etiquetas: repetition-error (repetición del error), recast (reformulación), correction (corrección explícita) y given-answer (proveer la forma esperada (target-form)). El Grupo 2 consideró tres etiquetas:

3
paper corpusSignosTxtLongLines194 - : Los registros de las clases fueron transcritos por hablantes nativos de español (estudiantes de post-grado), obteniéndose un total de 19 transcripciones, las cuales fueron posteriormente anotadas (por los investigadores), es decir, cada uno de los enunciados emitidos por el profesor y estudiantes fue clasificado con las etiquetas definidas en el esquema de anotación tutorial descrito anteriormente. Se utilizó una herramienta de anotación que inserta frases XML en archivos de información, de manera que puedan ser procesados utilizando variadas herramientas XML, que incluyen herramientas para extraer y ver los datos. Nos concentramos en las etiquetas que están relacionadas con nuestras preguntas de investigación, es decir, las expresiones etiquetadas con los tipos de feedback, corrección y errores con el propósito de obtener su frecuencia . En lo específico, nos interesa precisar:

4
paper corpusSignosTxtLongLines281 - : Para que el procesamiento morfológico sea posible, cada lema debe ser previamente etiquetado. Se denomina 'etiquetado', POS tagging (del inglés, part-of-speech tagging, etiquetado de partes del habla) o simplemente tagging al procedimiento de asignar a cada una de las unidades léxicas presentes el conjunto de sus categorías gramaticales posibles (Jurafsky & Martin, 2000). El problema es que las palabras tomadas en forma aislada son ambiguas respecto de su categoría. Si se considera el siguiente ejemplo: 'Yo bajo con el hombre bajo a tocar el bajo bajo la escalera'. La palabra 'bajo' puede pertenecer, dependiendo del conjunto de etiquetas que se manejen, a un mínimo de cuatro categorías diferentes: verbo, adjetivo, nombre y preposición . El analizador morfológico devolverá toda ellas para cada una de las apariciones de la forma 'bajo' en la oración. Afortunadamente, la categoría de la mayoría de las palabras no es ambigua respecto de su contexto. Para un humano es relativamente simple

5
paper corpusSignosTxtLongLines281 - : con su secuencia de etiquetas:

6
paper corpusSignosTxtLongLines281 - : 4. El análisis morfológico utiliza una técnica llamada chunking, que sirve para la detección de ciertas identidades o secuencias específicas de texto, de esta forma esta técnica se usa para buscar errores morfológicos dentro de una oración mediante reglas similares a las buggy rules, pero que en este caso se centra en la búsqueda de secuencias de etiquetas específicas dentro de una oración que representa un error morfológico, como por ejemplo: una oración con error de tiempo o número . Los errores morfológicos son informados mediante una codificación del mismo. Actualmente se informa el tipo de error (modo, número, género, etc.), seguido del rasgo esperado, por ejemplo, 'error de número, se esperaba una oración escrita en singular'.

7
paper corpusSignosTxtLongLines340 - : llamada chunking, que sirve para la detección de ciertas identidades o secuencias específicas de texto, de esta forma esta técnica se usa para buscar errores morfológicos dentro de una oración mediante reglas similares a las buggy rules, pero que en este caso se centra en la búsqueda de secuencias de etiquetas específicas dentro de una oración que representa un error morfológico, como por ejemplo: una oración con error de tiempo o número . Los errores morfológicos son informados mediante una codificación del mismo. El análisis sintáctico utiliza técnicas de parsing basadas en gramáticas de contexto libre o de estructura de frase. En particular, se utiliza chart-parsing, que se diferencia de los otros métodos de parsing por la utilización de la programación dinámica, lo que la hace más eficiente en lenguas con ambigüedad, además evita el back-tracking o retroceso y previene de una explosión combinatoria. Esta gramática incluye reglas de errores sintácticos que corresponden principalm

8
paper corpusSignosTxtLongLines340 - : Para que una secuencia pueda ser analizada por el analizador a cada unidad léxica debe asignársele una etiqueta dentro de un conjunto de etiquetas seleccionado. El conjunto de etiquetas de este sistema se basa en las etiquetas creadas por el grupo EAGLES (2011) para la anotación morfosintáctica de lexicones y corpus de lenguas europeas. Dependiendo de la lengua hay atributos que no están especificados y, por lo tanto, hay que crear etiquetas ad hoc. También puede ocurrir el caso contrario, que se cuente con etiquetas que para el corpus no se consideran relevantes y no haya que incluirlas. A modo de ejemplo, para este analizador en particular, hubo que crear etiquetas para diferenciar las preposiciones, ya que dentro de la lista de etiquetas propuestas solo se ofrece una etiqueta para todas las preposiciones (SPS00) y, dado que el dominio de las preposiciones es un tópico importante en la enseñanza/aprendizaje del español, fue necesario crear una etiqueta para diferenciar cada preposición .

9
paper corpusSignosTxtLongLines386 - : Los sistemas de anotación de errores están basados en la combinación de varias dimensiones propuestas para las taxonomías de error. Granger (2004) propone una serie de criterios para la elaboración de un sistema de anotación con la finalidad de mantener la estandarización de las etiquetas y su codificación: (1) Informativo pero práctico: debe tener información detallada para proveer datos útiles de los errores de los aprendientes . (2) Reutilizable: las categorías deben ser lo suficientemente generales para ser usadas en otras lenguas. (3) Flexible: debe permitir la adición o eliminación de etiquetas en el estado de anotación del corpus. (4) Consistente: la taxonomía y el sistema de anotación deben compararse por separado en archivos diferentes.

10
paper corpusSignosTxtLongLines389 - : Los nodos que se generan a partir de la relación nsubj son Bell, AGNT (agente) y distribute (distribuir), y para la relación dobj son THME (tema) y Computer:{*} (número indeterminado de computadoras). Las características sintácticas del concepto, por ejemplo, en el caso del verbo, se mantienen codificadas en el nodo correspondiente tal como distributes (etiqueta VBZ generada por el parser que significa: verbo, tercera persona del singular, tiempo presente) y solo la palabra normalizada (verbo en infinitivo) se muestra en el grafo. El conjunto de etiquetas para las categorías gramaticales usadas por el parser de Stanford es el definido en el marco del proyecto Penn TreeBank (Santorini, 1990 ).

11
paper corpusSignosTxtLongLines501 - : Según las clasificaciones individuales y la configuración general de los enunciados capturados en la matriz, los dos grupos recibieron las siguientes etiquetas descriptivas: Factor 1 (solo inglés ) y Factor 2 (multilingüe). Los dos factores representan diferentes tipos de actitud frente a la evaluación de los enunciados. La distribución de los participantes en dichos grupos se representa en la siguiente Tabla:

12
paper corpusSignosTxtLongLines514 - : Al ser nombres que se definen funcionalmente (^[81]Schmid, 2000, ^[82]2018), en este trabajo estudiamos los nombres rotuladores que aparecen como núcleo nominal de sintagmas nominales que hemos denominado ‘rótulos cohesivos’ (RRCC), basándonos en las categorías de ‘rótulos’ de ^[83]Francis (1994) y de ‘etiquetas discursivas’ de ^[84]López Samaniego (2013, ^[85]2015). Los RRCC, aunque conceptualmente muy próximos a los rótulos y las etiquetas discursivas, se distinguen por ser sintagmas nominales que realizan simultáneamente tres operaciones básicas para lograr la unidad y organización de los textos: sintetizan y rotulan el contenido de fragmentos textuales, establecen cohesión y enlazan partes del texto como nexos extraoracionales que marcan transiciones . Por su función conectiva y su capacidad de categorizar segmentos del texto, los rótulos cohesivos funcionan como enlaces y señalizadores textuales, de carácter anafórico o catafórico, que permiten conectar fragmentos textuales,

13
paper corpusSignosTxtLongLines539 - : En total, en español se utilizan 31 etiquetas, es decir, 31 movimientos y pasos, en tanto que en el subcorpus en lengua inglesa se han empleado 35 etiquetas, equivalentes a 35 movimientos y pasos . A continuación, procedemos a detallar la estructura retórica en cada una de las lenguas.

14
paper corpusSignosTxtLongLines539 - : Tras observar con el visor de corpus comparables el orden de las distintas etiquetas, las fichas descriptivas de embutidos en español estarían compuestas por los siguientes movimientos y pasos, cuya frecuencia de uso la hemos representado con estrellas, siendo cinco estrellas (*****) el símbolo de obligatoriedad (81% - 100%), cuatro estrellas (****) una alta aparición (61% - 80%), tres estrellas (***) una frecuencia media (41% - 60%), dos estrellas (**) poca frecuencia (21% - 40%) y una estrella (*) una escasa aparición (1% - 20%):

15
paper corpusSignosTxtLongLines539 - : Tras comprobar con el visor el orden de las etiquetas, las fichas descriptivas de embutidos en inglés estarían compuestas por los siguientes movimientos y pasos:

16
paper corpusSignosTxtLongLines544 - : En lo que respecta a la anotación, este trabajo se centró en los siguientes cinco tipos de lenguaje figurado: expresiones fijas, extensores, metonimias, metáforas y lenguaje retórico. De este modo, en primer lugar, se clasificaron todos los enunciados que incluían alguna de estas formas de lenguaje figurado según su tipo correspondiente y, a continuación, se clasificó cada uno de ellos con una de estas tres etiquetas: (i ) uso correcto, (ii) error en la estructura, (iii) uso en un contexto incorrecto (error de tipo pragmático). Con el objetivo de facilitar la comprensión del sistema de etiquetado, mostramos la [54]Tabla 2, con ejemplos de cada uno de los tipos de etiquetas que se utilizó en esta investigación.

17
paper corpusSignosTxtLongLines555 - : En un problema multi-etiqueta existe un número de etiquetas finito L = {λ [j ]: j = 1…l}, donde λ [j ]corresponde a la etiqueta j-ésima, y al set de documentos etiquetados D= f x i , 𝐘 i :i=1…d D = {f{x[i],Y[ i ]: i=1…d}}, donde x[i] representa el vector de características y Y[i] ⊂ L es el conjunto de etiquetas del texto i-ésimo .

18
paper corpusSignosTxtLongLines555 - : En esta sección se explica la bien conocida representación tf-idf (^[68]Salton & Buckley, 1988) y se presenta la representación basada en el modelo multinomial tf-rfl. Sobre la base de esta última, proponemos una nueva representación basada en el modelo Bernoulli Multinomial llamada bin-rfl. Se plantea con ello la hipótesis de que una modificación supervisada a la representación del texto que considere representaciones binarias, junto con una ponderación de los términos que está basada en los ejemplos conocidos, según sus etiquetas, puede mejorar significativamente el rendimiento de los clasificadores. Para el método de ponderación de términos para problemas de múltiples etiquetas usaremos como variables:

19
paper corpusSignosTxtLongLines555 - : Las medidas tradicionales de evaluación como la medida F y la Hamming Loss son útiles en el caso de conjuntos multi-etiquetados. Sin embargo, como ya hemos planteado, existen nuevas medidas destinadas a evaluar el desempeño en la asignación del conjunto de etiquetas, como lo es la precisión del conjunto de etiquetas (Label-Set Accuracy ).

20
paper corpusSignosTxtLongLines555 - : Otra medida multi-etiqueta es la precisión del conjunto de etiquetas (Label-Set Accuracy) y es definida como en la Ecuación 5:

21
paper corpusSignosTxtLongLines555 - : La clasificación automática con varias etiquetas es un tema importante en la recuperación de la información y el aprendizaje automático . La representación y clasificación de textos se han tratado tradicionalmente usando tf-idf debido a su simplicidad y buen desempeño.

22
paper corpusSignosTxtLongLines569 - : En esta investigación la atención se focaliza en el denominado por la comunidad de referencia con dos etiquetas, ‘informe de evaluación’-más empleada en el español peninsular-o ‘informe de arbitraje’ de revistas científicas, que guarda una estrecha relación con todos aquellos textos que cumplen una función comunicativa similar: evaluar o enjuiciar las características de un fenómeno y, en consecuencia, aprobarlo o rechazarlo . En este sentido, enlazan con otros dictámenes también elaborados en el propio ámbito académico universitario, como aquellos que evalúan la capacidad investigadora de los sujetos, los sexenios de investigación, o aquellos que valoran la concesión de los proyectos de investigación. Todos ellos se podrían considerar como ‘familias de géneros’, ya que presentan una función similar y actúan en el mismo contexto profesional o comunidad discursiva: el ámbito científico-académico. Algunos estudios, como el de ^[39]Bolívar Orellana (2014) o ^[40]Fuentes (2018

Evaluando al candidato etiquetas:


2) errores: 10
3) error: 9 (*)
4) anotación: 9 (*)
5) oración: 7 (*)
8) texto: 6 (*)
10) categorías: 6
11) morfológico: 5 (*)
12) feedback: 5 (*)
13) estrellas: 5
14) representación: 5 (*)
18) morfológicos: 4

etiquetas
Lengua: spa
Frec: 103
Docs: 42
Nombre propio: / 103 = 0%
Coocurrencias con glosario: 7
Puntaje: 7.931 = (7 + (1+6.16992500144231) / (1+6.70043971814109)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
etiquetas
: López Samaniego, A. (2011). La categorización de entidades del discurso en la escritura profesional. Las etiquetas discursivas como mecanismo de cohesión léxica. Tesis doctoral, Universitat de Barcelona, Barcelona, España.
: López Samaniego, A. (2013). Las etiquetas discursivas: Mantenimiento a la construcción del referente. ELUA, 27, 167-197.
: López Samaniego, A. (2015). Etiquetas discursivas, hiperónimos y encapsuladores: Una propuesta de clasificación de las relaciones de cohesión referencial. Revista de Filología Hispánica, 31(2), 435-462.