Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) categorización (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: categorización


Is in goldstandard

1
paper corpusSignosTxtLongLines171 - : La situación en el centro de atención es retomada desde una plataforma apreciativa moralizante. Los "genomas" son reinterpretados como "esencias" y su investigación como`"jugar con". La nueva imagen ubicada en el espacio de atención trae consigo un sistema de valores. El enunciante proyecta el juicio negativo (White, 1997) como si fuera compartido por todos los participantes en la medida en que la ancla en sus respectivos espacios experienciales mediante el adjetivo posesivo "nuestras". Su categorización corresponde al dominio estructural . Esta conceptualización se refuerza mediante la construcción "Esto de...". Este esquema de estructuración trata el juicio como si fuera retomado de otro discurso e insertado en el escenario que está construyendo el enunciante (ver Figura 6).

2
paper corpusSignosTxtLongLines191 - : En el primer caso, Venegas tiene como propósito establecer una categorización de los rasgos lingüísticos relevantes de la argumentación, para lo cual emprende, como primera tarea, una amplia revisión bibliográfica . Lo anterior le permite determinar dieciséis categorías y cincuenta y un rasgos lingüísticos específicos que son característicos de la argumentación, de los cuales aplica cuarenta en su estudio. El autor, a la luz de sus hallazgos, concluye que la mayor argumentación se encuentra en los textos contenidos en el Corpus de Entrevistas Orales (CEO), seguido por el Corpus Técnico-Científico (CTC) y luego por el Corpus Literario (CLL). Los resultados de esta investigación –presentados in extenso– constituyen, a nuestro parecer, un aporte importante para los propósitos actuales del estudio de la argumentación en la educación media chilena en general.

3
paper corpusSignosTxtLongLines213 - : Ante este desafío hemos decidido acercarnos a algunos de estos métodos y técnicas, utilizados en el ámbito de la clasificación automática de documentos. En concreto, en esta investigación, utilizamos para la categorización de los textos del corpus dos métodos, desarrollados a partir de los modelos vectoriales de representación de documentos: el método de clasificación Bayes Ingenuo y el método conocido como Máquina de Soporte de Vectores . Además, los comparamos con el fin de determinar cuál de ellos puede clasificar con mayor exhaustividad y precisión los textos académicos de las cuatro disciplinas en investigación.

4
paper corpusSignosTxtLongLines263 - : En primer lugar, se procede a categorizar las imágenes en el corpus de trabajo. Es preciso considerar que las imágenes juegan un rol importante en la comunicación de emociones y para ello tomamos a Soulages (2004), quien propone una categorización de ellas en distintos niveles de organización, partiendo de un plano externo que contempla elementos plásticos para llegar a un plano interno, relacionado con lo discursivo y lo sociocultural:

5
paper corpusSignosTxtLongLines271 - : [2]vol.42 número71 [3]Metonimias ilocutivas y categorización de peticiones y órdenes en el español de Chile [4]La lectura y el lector estratégicos: Hacia una tipologización ciberdiscursiva [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

6
paper corpusSignosTxtLongLines294 - : ^[51]8 La tipificación se orienta también en la categorización de Brandt y Rosengren (1992) quienes distinguen cuatro tipos básicos, reformulando parcialmente la clásica propuesta de Searle: a ) representativos (aserción y pregunta); b) expresivos y c) regulativos; dentro de estos incluyen los directivos y los comisivos. Los distintos tipos responden a fórmulas específicas, en las que el criterio distintivo es el tipo de predicado ilocucionario. Las subcategorías que postulo en este trabajo para describir los actos de habla particulares (por ejemplo, 'criticar') se escogen tomando como criterio las definiciones lexicográficas de los verbos en correspondencia con el contenido del texto.

7
paper corpusSignosTxtLongLines331 - : Esta metodología pretende reflejar la gradación de las categorías aspectuales a dos niveles, en la línea de la distinción postulada por Aarts (2004) entre Subsective Gradience (SG) y Intersective Gradience (IG): por un lado, la SG, inherentemente intracategorial, permite que los miembros de una categoría manifiesten las propiedades de dicha categoría a diferentes niveles; por otro lado, la IG, inherentemente intercategorial, se refiere a la intersección de un conjunto de propiedades entre categorías, sin implicar una intersección total de las categorías. De este modo, la presente concepción de la gradación se sitúa en una posición intermedia entre los modelos que parten de una visión aristotélica de la categorización y los modelos que postulan una gradación sin restricciones, esto es, sin transiciones claras entre categorías .

8
paper corpusSignosTxtLongLines332 - : es 1 si se ha tomado la decisión de categorizar a d en c, 0 en caso contrario. A este tipo de categorización se le denomina categorización dura. Existen también categorizadores blandos que asignan un puntaje a cada par , permitiendo que eventualmente un documento pueda ser clasificado en más de una clase. Siguiendo la notación de Sebastiani (2002), la tarea de categorizar texto corresponde a la aproximación de una función objetivo desconocida Ø:DxC → {0.1} en el caso de categorización dura y Ø:DxC →[0,5] en el caso de categorización soft .

9
paper corpusSignosTxtLongLines332 - : Usando las versiones derivadas del modelo BM25 para categorización de textos expresadas en las ecuaciones [17] y [22], proponemos la siguiente variación para Tf' [i,d] , dado por el producto Tf-Idf que queda expresado de la siguiente forma:

10
paper corpusSignosTxtLongLines332 - : La colección documental corresponde a recursos de áreas productivas correspondientes a patentes, informes técnicos, artículos de tecnología y sitios Web. Los recursos corresponden a 4 sectores productivos: Agroalimentación, Energía, Materiales y TICs (Tecnologías de la Información y las Comunicaciones). El sector Agroalimentación contiene 128 documentos, Energía contiene 162, Materiales 22 y TICs 248. La categorización considerada es dura, esto es, un documento puede pertenecer solo a una clase y esta ha sido realizada por un grupo de expertos de IALE tecnologías .

11
paper corpusSignosTxtLongLines352 - : Para el análisis de las observaciones, nos fundamentamos en la metafunción interpersonal que nos permitiría caracterizar los roles en el intercambio de información en el aula entre maestra y alumnos, para lo cual nos centramos en la identificación de las funciones de habla utilizadas tanto por la maestra como por los estudiantes. Asimismo, nos apoyamos en el trabajo adelantado por Sinclair y Coulthard (1975) y Cazden (2001) para la identificación y análisis de las secuencias y el tipo de relación que se establece en la interacción. En el proceso da categorización del discurso de la maestra y los alumnos, se utilizaron categorías identificadas por otros autores, como es el caso de Andamiaje, pero también emergieron otras nuevas . Para asegurar la validez de este proceso recurrimos a la triangulación de los análisis (Cohen & Manion, 1994).

12
paper corpusSignosTxtLongLines374 - : Resumen: Esta investigación tiene como objetivo analizar y clasificar artículos biomédicos en el ámbito de neurociencias y, en particular, se consideran artículos científicos relacionados con hipoacusia. El proceso de categorización de textos generalmente consta de dos etapas: la primera, consistente en la delimitación de las clases que dividen al tema de nuestro interés, y la segunda, enfocada a la categorización de los textos de interés . En la mayoría de las aplicaciones, la categorización se resuelve basando el modelo en la obtención de clases que se encuentran dispersas, lo cual permite que los algoritmos de categorización existentes tengan buenos resultados dado que entre ellos hay una línea amplia de separación de las clases. El problema radica cuando la evaluación de las clases contiene una línea de separación estrecha entre ellas. En este trabajo se presenta un enfoque diferente al tradicional mediante la integración de dos algoritmos de categorización, el uso de n-gramas de let

13
paper corpusSignosTxtLongLines374 - : La tarea de clasificación automática de textos se basa en construir y usar las llamadas máquinas de aprendizaje supervisado. El proceso de crear una clasificación automática de textos consiste en descubrir variables que sean útiles en la discriminación de los textos que pertenecen a clases pre-existentes distintas (Sebastiani, 2002). Las principales contribuciones para el tema que nos ocupa son las estrategias de clasificación automática basadas en diferentes algoritmos de categorización. Con el fin de analizar las ventajas y desventajas de los algoritmos de categorización usados para esta tarea, mencionaremos algunos que han sido ampliamente probados por estudiosos del tema en diferentes contextos, como es el caso de los clasificadores con técnicas de Naive Bayes (Kononenko, 1991 ; Venegas, 2007; Zhang, Xue, Yu & Zha, 2009), máquinas de soporte vectorial (SVM) (Zhi-Hong, Tang, Yang, Zhang, Wu & Yang, 2002; Gunn, 2003) y árboles de decisión (Zhang, Dong & Ramamohanarao, 2000; Aitkenhead,

14
paper corpusSignosTxtLongLines374 - : En el [36]Gráfico 2 se muestra la comparación con los distintos métodos de clasificación, utilizados durante este trabajo de investigación, para el tercer nivel de categorización correspondiente a hipoacusia sindrómica e hipoacusia no sindrómica, donde se puede ver el desempeño final de cada uno de los algoritmos . Como se puede observar en la gráfica, el peor resultado lo obtuvo el algoritmo baseline con un 40.6% de asertividad en la clasificación; en cuanto al algoritmo basado en n-grama de letras, tiene una asertividad del 68.1%, y el algoritmo basado en funciones supera al algoritmo de n-gramas con un 79% de efectividad.

15
paper corpusSignosTxtLongLines398 - : En estos dos posicionamientos el grado de certeza está directamente relacionado con el tipo de evidencia. La evidencia puede ser directa e indirecta según apunta Willet (1988). Ferrari (2006) denomina la evidencialidad directa con el nombre de evidencialidad sensorial y a la indirecta como citativa. La categorización de las evidencias se resume en la Figura 1:

16
paper corpusSignosTxtLongLines399 - : [2]vol.48 número88 [3]Sobre la categorización de seem en inglés y su traducción en español: Análisis de un corpus paralelo [4]Una aproximación conexionista a la lingüística cognitivo-funcional: Clíticos pronominales y desinencias verbales del español en términos de redes relacionales [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

17
paper corpusSignosTxtLongLines407 - : [2]vol.48 número89 [3]Impacto de una intervención lingüística en la comprensión inferencial retórica y la metacognición durante la lectura académica en inglés lengua extranjera: Un estudio cuasi-experimental con métodos mixtos [4]Reconocimiento visual y categorización semántica de palabras nuevas en inglés como lengua extranjera (L2): El rol de la lectura y las actividades explícitas de vocabulario [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

18
paper corpusSignosTxtLongLines408 - : Reconocimiento visual y categorización semántica de palabras nuevas en inglés como lengua extranjera (L2): El rol de la lectura y las actividades explícitas de vocabulario^[23]*

19
paper corpusSignosTxtLongLines409 - : [2]vol.48 número89 [3]Reconocimiento visual y categorización semántica de palabras nuevas en inglés como lengua extranjera (L2): El rol de la lectura y las actividades explícitas de vocabulario [4]Configuraciones retórico-lingüísticas del resumen en artículos científicos de economía: Contrastes en el interior de la disciplina [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

20
paper corpusSignosTxtLongLines508 - : El análisis propuesto explica que los nombres ‘banco’, ‘colegio’ y ‘periódico’, aunque no son colectivos, designen un grupo de manera indirecta, cuando son coaccionados por los verbos ‘entrar’ y ‘salir’, que explotan una información codificada en una parte de su entrada léxica. Ahora bien, el contenido explotado mediante coacción no está codificado en el QF del nombre, sino que se recupera del QC de la definición del nombre, y no es, por tanto, accesible al conjunto de pruebas que establecen la categorización de un nombre como colectivo. La recategorización de ‘banco’, ‘colegio’ y ‘periódico’ supone un cambio de clase léxica transitorio y no estable .

21
paper corpusSignosTxtLongLines509 - : En general, las clasificaciones nominales suelen ser binarias: propios/comunes; individuales/colectivos; contables/incontables; concretos/abstractos (^[47]Bosque, 1999). La visión clásica de la categorización es discreta: un miembro pertenece a una determinada categoría si y solo si posee ciertas propiedades, sin posibilidad de situaciones intermedias .

22
paper corpusSignosTxtLongLines514 - : 3.1.2. Categorización semántica: Significados de los nombres rotuladores

23
paper corpusSignosTxtLongLines514 - : En esta sección nos centramos en el análisis de los significados de los nombres. Cabe hacer una puntualización respecto de la categorización que proponemos en nuestro estudio: como era de prever, en el proceso de clasificación nos enfrentamos a dificultades para establecer categorías semánticas mutuamente excluyentes, que puedan delimitarse de manera precisa . Esta dificultad para sistematizar nombres rotuladores en categorías discretas es señalada en la literatura (^[220]Francis, 1986, ^[221]1994; ^[222]Ivanic, 1991; ^[223]Schmid, 2000; ^[224]Flowerdew & Forest, 2015). En respuesta a esta dificultad, algunos autores han apelado a la semántica de prototipos (por ej., ^[225]Kleiber 1995; ^[226]Cruse, 2006) y han definido las categorías a base de un nombre que funciona como prototipo o núcleo central, que unifica la categoría, y nombres menos prototípicos que se aproximan más o menos al prototipo. Desde esta perspectiva, algunos nombres representan ejemplos característicos de una categoría,

24
paper corpusSignosTxtLongLines551 - : Concretamente, en nuestra investigación, se ha utilizado el análisis semántico y categorización del discurso escrito de los actantes que siguen los sitios oficiales de Twitter y Facebook de cuatro medios de comunicación españoles, en concreto, las cuatro cadenas de televisión generalistas comerciales, con mayor nivel de audiencia: @telecincoes, @LaSextaNoticias, @noticias-cuatro y @A3Noticias .

25
paper corpusSignosTxtLongLines555 - : Tradicionalmente, la clasificación (o categorización) de textos se ha definido como la asignación de un valor Booleano (verdadero o falso) a cada par 〈d [j ],c [i ]〉 ∈ D × C, donde D es el dominio de los documentos (corpus) y C = {[c1],…,c [|c| ]} es el conjunto de etiquetas (clases ) predeterminadas. Si un documento está categorizado solo bajo una etiqueta (categorías no sobrepuestas) o bajo múltiples etiquetas a la vez (categorías sobrepuestas), se le llama un ‘problema de una etiqueta’ o un ‘problema multi-etiqueta’ respectivamente (^[39]Sebastiani, 2002). El caso más estudiado para resolver problemas de clasificación de texto es el de ‘una etiqueta’ y el enfoque principal es el llamado de Clasificación Binaria (Binary classification, BC), donde un documento es clasificado, ya sea a la categoría c [i ]o a su complemento

26
paper corpusSignosTxtLongLines562 - : Aquí todavía se reconoce el significado de ‘modelo’, que es fundamental en el siglo XIX con el auge de la ingeniería y el desarrollo de máquinas a partir de prototipos particulares. Junto a los empleos en el ámbito técnico, ‘tipo’ se usa en la caracterización de personajes, también referido a prototipos, un rasgo típico del realismo por su afinidad con las ciencias sociales y el afán de categorización física, psicológica y social, como se observa en (8), donde la baronesa se asigna a la categoría de las mujeres marchitas:

27
paper corpusSignosTxtLongLines563 - : Para determinar los valores que desempeña la partícula ‘onda’ hemos tomado como referencia la categorización de funciones propuesta por ^[102]San Martín et al. (2016). Una primera exploración al corpus nos ha permitido notar que el valor de operador de concreción corresponde, en efecto, a un uso ejemplificador de la partícula y que el valor continuativo o aproximativo corresponde a dos usos diferentes, aunque relacionados. El primero se vincula a un uso retardador y el segundo da cuenta de un uso aproximador, que aporta imprecisión a lo que se dice a continuación. Además, esta exploración nos ha permitido observar que ‘onda’ puede desempeñar otras dos funciones no contempladas en la categorización previa: aproximación numérica o temporal y focalización . Así, hemos realizado el análisis de nuestro trabajo sobre la base de una clasificación que contempla siete funciones para ‘onda’: aproximación, aproximación numérica o temporal, retardación, introducción de discurso directo

Evaluando al candidato categorización:


1) clasificación: 12 (*)
2) textos: 10 (*)
3) categorías: 9
4) corpus: 8 (*)
5) análisis: 8
6) artículos: 8
7) índice: 8
9) autores: 6
10) clases: 5
13) funciones: 5 (*)
15) aproximación: 5
18) semántica: 5 (*)
19) corresponde: 5
20) lectura: 5 (*)

categorización
Lengua: spa
Frec: 205
Docs: 76
Nombre propio: 1 / 205 = 0%
Coocurrencias con glosario: 6
Puntaje: 6.880 = (6 + (1+6.64385618977473) / (1+7.68650052718322)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
categorización
: Bernal, M. (2007). Categorización sociopragmática de la cortesía y descortesía. Un estudio de la conversación coloquial española. Estocolmo: Stockholms Universitet.
: Figuerola, C., Zazo, A. & Berrocal, J. (2000). Categorización automática de documentos en español: Algunos resultados experimentales [en línea]. Disponible en: [44]http://imhotep.unizar.es/jbidi/jbidi2000/14_2000.pdf
: Godeo, M. (2000). Orden de palabras y categorización lingüística. Revista Española de Lingüística Aplicada, Volumen Monográfico, 395-408.
: Haverkate, H. (2004). El análisis de la cortesía comunicativa: Categorización pragmalingüística de la cultura Española. En D. Bravo & A. Briz (Coords.), Pragmática sociocultural: Estudios sobre el discurso de cortesía en español (pp. 55-65). Barcelona: Ariel.
: López Samaniego, A. (2011). La categorización de entidades del discurso en la escritura profesional. Las etiquetas discursivas como mecanismo de cohesión léxica. Tesis doctoral, Universitat de Barcelona, Barcelona, España.
: Soto, P., Sebastián, M. V., García-Bajos, E. & del Amo, T. (1994). Categorización y datos normativos en España. Madrid: Visor.
: Supuesto de Categorización (Adaptado de ^[38]Embick & Marantz, 2008: 5) Las raíces no pueden aparecer (no pueden pronunciarse o interpretarse) si no están categorizadas. Las raíces se categorizan a partir del ensamble sintáctico con núcleos funcionales que definen categorías.