Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) estadístico (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: estadístico


Is in goldstandard

1
paper corpusSignosTxtLongLines124 - : Si bien el LSA empieza con un análisis estadístico de las palabras en uso, termina con algo bastante diferente y mucho más poderoso, con una "verdadera representación semántica, un espacio que captura las relaciones semánticas esenciales" ([68]Kintsch, 2002: 5 ). Por ejemplo, se requieren a menudo palabras que son de significado similar en contextos diferentes. Así, las formas singulares y plurales de nombres (que son palabras diferentes para el LSA) normalmente no se emplean al mismo tiempo. Si alguien habla sobre "mountain" no usará cercanamente "mountains." En el espacio de LSA, sin embargo, la correlación entre "la montaña" y "las montañas" es bastante alto (0,84 en este caso), porque aunque las dos palabras no aparecen a menudo juntas, las dos pueden ser usadas en contextos similares. De esta manera LSA infiere que las dos tienen un significado similar ([69]Kintsch, 2002).

2
paper corpusSignosTxtLongLines140 - : El presente trabajo pretende ser un aporte en dicha dirección. Este estudio es parte de una investigación mayor, en la que, siguiendo la metodología de la lingüística de corpus, se aplicó un análisis estadístico multivariado ([28]Biber, 1986, [29]1988) sobre 65 rasgos lingüísticos (ver anexo 1) en tres corpora correspondientes a tres registros: Técnico-Científico (CTC ), Literario (CLL) y Entrevista Oral (CEO), pertenecientes al corpus PUCV-2003. Producto de este análisis cuantitativo, se configuraron 5 dimensiones, denominadas Foco Contextual e Interactivo, Foco Narrativo, Foco Compromiso, Foco Modalizador y Foco Informativo ([30]Parodi, 2004). Estas dimensiones deben ser entendidas como interpretaciones funcionales de patrones de co-ocurrencia de rasgos lingüísticos. Posteriormente, se determinó estadísticamente un puntaje para cada registro (CTC, CLL y CEO) en relación con cada dimensión. Así, sobre la base del puntaje que cada uno de ellos alcanzó con respecto a cada dimensión, se co

3
paper corpusSignosTxtLongLines153 - : Finalmente, se investigó la variabilidad de los verbos en los distintos registros. Para esto se llevó a cabo un análisis estadístico del clásico coeficiente entre tipos y casos verbales ( verbal type/token ratio) pero dado que, tal como ha demostrado el estudio de Lebart, Salem y Bécue ([76]2000), dicha tasa de variabilidad depende en un alto grado del número total de palabras, se complementó ese cálculo con una estimación del porcentaje de los verbos por el número total de palabras, es decir, cuánto (porcentualmente hablando) de un registro corresponde a unidades verbales .

4
paper corpusSignosTxtLongLines153 - : La investigación es de tipo descriptivo no experimental, no paramétrico y se enmarca dentro de los procedimientos metodológicos de la lingüística de corpus y de la estadística léxica. Es importante señalar que a pesar del énfasis en lo estadístico, el presente estudio no es puramente de índole cuantitativa, sino que también implica un análisis propio de los enfoques cualitativos .

5
paper corpusSignosTxtLongLines213 - : Ahora bien, como se sabe, una palabra puede aparecer más de una vez en el mismo documento y, además, algunas palabras pueden considerarse con más peso estadístico que otras, esto es, más significativas que otras, de forma que el valor numérico de cada uno de los componentes del vector obedece normalmente a cálculos más sofisticados que la simple asignación binaria . Por otro lado, también es importante normalizar los vectores para no privilegiar documentos.

6
paper corpusSignosTxtLongLines213 - : Ante esta situación, Vapnick (2000) propone, en su teoría de aprendizaje estadístico, un hiperplano de separación óptima el cual tiene dos propiedades importantes: es único para cada grupo de datos separables linealmente, y el riesgo asociado de sobreestimación es más reducido que para cualquier otro hiperplano de separación . El margen de separación M del clasificador será la distancia entre el hiperplano de separación y el ejemplo de entrenamiento más cercano. De este modo, el hiperplano de separación óptimo es aquel que tenga el máximo margen. Para calcularlo se comienza con la determinación de la distancia de un punto x del hiperplano de separación (ver Figura 2).

7
paper corpusSignosTxtLongLines281 - : Los 'etiquetadores estadísticos' se basan en la evidencia empírica obtenida de corpus lingüísticos voluminosos (data-driven taggers). El costo es por ello mucho menor aunque también es menor su grado de precisión, superior en cualquier caso al 97%, suficiente en algunas aplicaciones. Los sistemas son independientes de la lengua y fácilmente adaptables a otras lenguas y dominios. El problema de estos sistemas reside en el aprendizaje del modelo estadístico utilizado. En este sentido es notable, y creciente, el uso de técnicas de aprendizaje automático. Se han utilizado técnicas de aprendizaje supervisado partiendo de corpus etiquetados manualmente y técnicas de aprendizaje no supervisado en las que no es precisa (o está limitada) esa intervención manual. Un algoritmo clásico utilizado para el etiquetado estadístico es el de los Modelos Ocultos de Markov (del inglés, Hidden Markov Models, HMM ). Este enfoque se caracteriza por asumir que la probabilidad de una cadena de símbolos puede ser

8
paper corpusSignosTxtLongLines338 - : Aunque estos ajustes a la Ley de Zipf dan luces sobre aspectos de la distribución de la probabilidad de aparición de las palabras en textos de distinta naturaleza, su abordaje ha sido casi exclusivamente matemático y estadístico, generando una falta de reflexión sobre las implicancias de estos fenómenos desde un punto de vista netamente lingüístico. Algunos autores (García, 2004; Sabaj, 2004; Evert, 2006) han señalado ya el riesgo que implica la utilización de los datos estadísticos en la investigación lingüística de forma ciega, esto es, sin contar con fundamentos lingüísticos que orienten su interpretación o permitan extraer de estos datos estadísticos conclusiones relevantes para la teoría lingüística .

9
paper corpusSignosTxtLongLines338 - : Desde un punto de vista estadístico, estos datos son siempre atrayentes, ya que suponen encontrar regularidades matemáticas en datos aparentemente caóticos . Asimismo, desde una perspectiva lingüística, estas regularidades son especialmente interesantes, ya que corresponden a patrones estocásticos que son independientes de la naturaleza diversificada de los registros analizados y, por ello, no son sensibles a los contextos de producción y consumo de estos textos. Otra inferencia que se puede obtener de los datos de la [39]Tabla 4, es de los datos no considerados en el estudio, a saber, la proporción de palabras con frecuencia igual o mayor a 5. Si se suman las filas de la [40]Tabla 4 y luego se obtiene un promedio da como resultado un 80%. Esto quiere decir que en promedio un 20% de las palabras de cualquier texto tienen una frecuencia mayor o igual a 5, dato coincidente con la distribución de Pareto (Petruszewycz, 1973), en este caso, pocas palabras tienen las más altas frecuencias y

10
paper corpusSignosTxtLongLines354 - : Desde el punto de vista estadístico la H3 implica la predicción de un efecto de interacción entre el factor ‘idioma’ (inglés/español ) y el factor ‘dominio de inglés’ en las medidas asociadas al control de la comprensión de las microideas y de las macroideas.

11
paper corpusSignosTxtLongLines375 - : (1) hay combinaciones muy frecuentes que no presentan un grado de estabilidad suficiente para ser consideradas colocaciones; (2) hay colocaciones muy estables cuyos colocados son palabras poco frecuentes, por lo que no aparecen en un corpus dado; (3) hay colocaciones cuyos elementos aparecen muy distanciados en el discurso, por lo que no pueden ser extraídos de forma automática; (4) la frecuencia estadística no puede dar cuenta de la prominencia cognitiva […] de algunas colocaciones muy establecidas y típicas de una lengua; (5) los programas de gestión de corpus no están diseñados para detectar colocaciones en el nivel lexemático, solo en el nivel de la palabra gráfica […]; y (6) el enfoque estadístico no dispone de instrumentos para el análisis semántico de una determinada colocación (Corpas Pastor, 2001: 100 ).

12
paper corpusSignosTxtLongLines377 - : 1. Complejo Estadístico: artefacto que combina los cuatro sistemas semióticos: el verbal, el gráfico, el matemático y el tipográfico . Representa sintéticamente información de diversa índole en una articulación original, dado que corresponde principalmente a composiciones complejas que incluyen otros artefactos multisemióticos, tales como tablas y gráficos, que interactúan para conformar una unidad. En su conformación composicional puede haber organizaciones jerárquicas particulares provenientes de los recursos prototípicos de los cuatro modos semióticos constitutivos.

13
paper corpusSignosTxtLongLines377 - : Una hipótesis interesante a indagar a partir de estos datos tiene relación con la vinculación que establecen estos artefactos con la disciplina y el género discursivo en el que aparecen. El hecho de que la Fórmula, el Gráfico, la Tabla y el Complejo Estadístico aparezcan con frecuencias importantes en todos los manuales estudiados supone que estos artefactos son característicos en la construcción, transmisión y enseñanza del conocimiento especializado de la Economía . Mientras que la ocurrencia escasa y alternada de los artefactos Esquema, Ilustración e Ícono sugiere elecciones que tienen más relación con las características propias del género Manual. Así el Esquema respondería a exigencias vinculadas con el propósito pedagógico de este género, al presentar conceptos y procesos, poniendo particular énfasis en los aspectos destacados; mientras que la Ilustración y el Ícono podrían responder a criterios relacionados con los participantes (hacer más interactiva y accesible la lectura,

14
paper corpusSignosTxtLongLines378 - : En aras de agilizar el proceso de análisis, se ha utilizado el script Analyse tier^[29]4 de Daniel Hirst, que recoge los valores de F0 (media, máxima y mínima), intensidad (media, máxima y mínima) y duración para cada tier de los archivos textgrid del PRAAT y, concretamente, para cada unidad delimitada por fronteras en aquellos. De este modo, el investigador recoge resultados como los siguientes, que pueden pasar a un entorno estadístico como SPSS o R:

15
paper corpusSignosTxtLongLines378 - : Un análisis estadístico no debe combinar, inicialmente, datos que procedan de grupos objetivamente distintos (Moore, 1998; Field, 2009), ya que los resultados pueden verse alterados. De tal manera y previamente al análisis estadístico, en este estudio se han dividido los datos en dos grupos: unidades fónicas completas y unidades fónicas integradas . Así, esta división ha minimizado las posibles incoherencias en los resultados obtenidos ([32]Gráfico 2).

16
paper corpusSignosTxtLongLines399 - : El contraste que existe entre el método que proponemos en este artículo y los enfoques antes mencionados, es el siguiente: no adoptamos un enfoque estadístico porque no trabajamos con corpus de textos, en donde se presta especial atención al procesamiento de frecuencias de palabras, sino que trabajamos con un diccionario explicativo, de forma que aprovechamos diversas ventajas que se pueden obtener de estos repositorios, como el hecho de que la información tiene una estructura homogénea (en la macroestructura encontramos una ordenación de los materiales léxicos que se definen, también llamados ‘entradas’, y en el plano de la microestructura, una disposición constante de los elementos informativos que acompañan a cada entrada, la manera en que se representan y el orden en que aparecen ), y la existencia de una relación léxica, que podemos identificar, entre la entrada y la base de la colocación.

17
paper corpusSignosTxtLongLines415 - : Si nos fijamos en los resultados (véase Tabla 5) comprobamos que la frecuencia de todas las combinaciones que contienen errores es cero; con lo cual, queda demostrada la eficacia del algoritmo basado en el análisis estadístico: está por encima de la del corrector del procesador .

18
paper corpusSignosTxtLongLines415 - : El análisis estadístico no nos lleva a pensar que la oración contenga falta alguna, pues la frecuencia de ‘que tengamos’ es 515 (por separado, la de ‘que’ es 3295376 y la de ‘tengamos’, 1346 ), la probabilidad del bigrama, 44.36 y el umbral, 11.61. Es otro caso de falso negativo, como (22).

19
paper corpusSignosTxtLongLines415 - : El punto débil de los correctores gramaticales basados en el análisis estadístico de la frecuencia de las palabras del texto es que, como vimos en el apartado 4, solo identifican errores que puedan ser inferidos analizando información procedente de las combinaciones de palabras adyacentes –lo cual nos puede llevar a pensar que hay fallos donde en realidad no los hay (falsos positivos) o a no detectar otros que sí lo son (falsos negativos)–, como bien resume Chen (2009), tras su análisis de varios correctores de inglés:

20
paper corpusSignosTxtLongLines425 - : Para el análisis estadístico de la información se conformaron tres tablas de datos, una para cada nivel de análisis . Dichas tablas presentaron 54 filas (una por cada texto), mientras que las columnas recogieron las distintas categorías de cada dimensión (ver Tablas 3, 4 y 5).

21
paper corpusSignosTxtLongLines434 - : Tal como muestra la [41]tabla anterior, el contraste del primer miembro discursivo ‘Estos niños comen mucho dulce’ en las dos condiciones dadas, precediendo o no a un conector contraargumentativo, no revela diferencias significativas desde el punto de vista estadístico: 296,07 ms vs 378,04 ms (F[(1 .38) = 1,81, p = 0,19]). En cambio, el segundo miembro, ‘están sanos’, introducido por el conector ‘sin embargo’ ve reducidos sus costes de procesamiento de forma significativa (F[(1.38) = 15,66, p < 0,01]), en concreto un 34,84%. Dicho de otro modo, la instrucción argumentativa de ‘sin embargo’ en las condiciones del enunciado considerado implica una reducción de los costes de procesamiento del miembro en el que se incluye (el miembro discursivo 2): introduce explícitamente un tipo determinado de conexión argumentativa y contribuye a imponer interpretaciones específicas a los fragmentos del discurso que conecta: ‘Estos niños están sanos’, pese a que comen mucho dulce, algo opuesto a l

22
paper corpusSignosTxtLongLines448 - : trabajo seguimos las sugerencias e indicaciones de Moreno Fernández (1990), López Morales (1994) y Hernández Campoy y Almeida (2005). El análisis estadístico atendió a dos niveles de observación: a) en términos descriptivos, según las frecuencias absolutas y los porcentajes de frecuencia de cada rectificador y b) en términos interpretativos o inferenciales, con base en la comparación entre las medias o tendencias centrales de los marcadores más frecuentes, esto es, de aquellos con más de 25 ocurrencias . El paquete estadístico al que hemos recurrido para la estadística inferencial es el SPSS (Statistical Package for the Social Sciences), versión 15.0 para Windows, específicamente, la prueba Análisis de varianza ANOVA. En atención a que la distribución de los datos, en algunos casos, pudiera ser anormal, se complementará dicho análisis con su análogo de tipo no paramétrico, esto es, Anova de Kruskal Wallis. En ambos casos, el grado de significación se definirá en el 5%, según el cua

23
paper corpusSignosTxtLongLines456 - : Como se puede apreciar en la [264]Tabla 4, los resultados de las pruebas ANOVA revelaron que existe una diferencia estadísticamente significativa entre los grupos de distinto nivel de competencia en cuanto al uso global de estrategias y al uso del conjunto de los grupos de estrategias (a excepción del grupo de estrategias afectivas). Como demuestra el estadístico descriptivo de la media, en relación al conjunto de las variables dependientes, la frecuencia de uso declarado de las estrategias incrementa cuanto más alto es el nivel de competencia de los participantes . La prueba post hoc de Scheffé indicó que, en lo relativo a las estrategias metacognitivas, las que entrañan interacción social, las relativas a las de producción y a las de obtención de exposición lingüística destacaban en este sentido, y en cuanto al conjunto de las estrategias del SILL completo y parcial, los aprendientes de un nivel de competencia avanzado manifiestan utilizarlas significativamente más a menudo que los de

24
paper corpusSignosTxtLongLines477 - : Esta investigación, de tipo no experimental y de carácter transversal, pretende analizar la producción gramatical en las narraciones orales de alumnado con TEL de Educación Básica a partir del doble objetivo comentado en la Introducción. Para ello se comprueba si existen diferencias significativas, a nivel estadístico, entre alumnado con TEL y dos grupos de escolares con desarrollo típico del lenguaje en los resultados obtenidos en función de las variables siguientes: oraciones simples, unidades T, oraciones agramaticales y agramaticalidad (que incluye errores gramaticales y oraciones agramaticales ), empleando una metodología que combina los estudios descriptivos y los de relación. Se comprueban los supuestos de normalidad, homogeneidad de las varianzas e independencia en los análisis de varianza (ANOVA). Todos los análisis se realizan con el Programa SPSS v21.

25
paper corpusSignosTxtLongLines518 - : El diseño de este estudio es transversal, comparativo y no experimental. En lo que se refiere a la descripción del procedimiento estadístico utilizado, se realizó un análisis discursivo de las entrevistas transcritas, a partir del cual, se generaron las variables que fueron categorizadas. De esta forma, al tratarse de un estudio con variables cuantitativas múltiples, comprobamos la distribución normal de los datos conseguidos y utilizamos una prueba no paramétrica: ‘Chi’ cuadrado, que sirvió para correlacionar la presencia o ausencia de las variables pausas extensas, volumen de voz débil, titubeos, falsos inicios y tartamudeos, con el estadio de la enfermedad de los participantes. En todos los casos, el grado de significación estadística se definió en p=0.05. El paquete estadístico utilizado es el SPSS (Statistical Package for the Social Sciences ), versión 21 para Windows.

26
paper corpusSignosTxtLongLines521 - : Los análisis de la proporción de selección a cada objeto y de la diferencia en la proporción de tiempo mirando al objeto Sin nombre y Competidor, se realizaron comparando el modelo estadístico completo, esto es, con ambas variables independientes y su interacción, con el modelo restringido, esto es, uno que no contuviese el predictor de interés . El resultado de esa comparación se expresa con el estadístico chi-cuadrado (^[83]Baayen et al., 2008). Los análisis fueron realizados con R (versión 3.2.3) y con el paquete lme4 (^[84]Bates, Maechler, Bolker & Walter, 2014).

27
paper corpusSignosTxtLongLines521 - : Según nuestras hipótesis, la pendiente para la condición Consistente-Mencionado debería ser positiva y distinta a la de la condición Consistente-No Mencionado, mientras que tal diferencia en pendientes no debería observarse en las otras dos condiciones; esto es, cuando el hablante es inconsistente (ver [88]Figura 5). En concordancia con estas hipótesis, el análisis estadístico muestra que el componente lineal del modelo (esto es la pendiente ), es distinta entre las condiciones Mencionado y No-Mencionado para el hablante Consistente (chi-cuadrado(1) = 19.496, p < 0.0001), pero no para el hablante Inconsistente (chi-cuadrado(1) = 1.033, p = 0.309).

28
paper corpusSignosTxtLongLines545 - : La enfermedad de Alzheimer (EA) es un trastorno neurodegenerativo que afecta a los adultos mayores ocasionando un deterioro progresivo de las funciones mentales superiores, especialmente de la memoria. Actualmente se desconoce con precisión su etiopatogenia y no se poseen herramientas terapéuticas eficaces para revertir el curso de la enfermedad. El Manual diagnóstico y estadístico de los trastornos mentales (^[27]American Psychiatric Association, 2013) es una nomenclatura utilizada por los clínicos e investigadores para la clasificación de los trastornos mentales . Allí se señala la importancia de la declinación progresiva de la memoria en EA, en particular, de la memoria episódica. Una de las dificultades para el diagnóstico temprano de dichas alteraciones es que, con el incremento de la edad, las personas mayores sanas también presentan una declinación de otros procesos cognitivos que inciden negativamente en el funcionamiento de la memoria episódica (^[28]Tromp, Dufour, Lithfous, Pebayle

29
paper corpusSignosTxtLongLines62 - : Al observar la tabla anterior es posible indicar, preliminarmente, que es el texto de 3 año el que obtiene la mejor evaluación en seis de las siete áreas de análisis. Aunque las cifras no son en todos los casos, desde el punto de vista estadístico, significativas, esta información es muy relevante, puesto que reafirma un cierto grado de progresión en relación a los textos anteriores (1 y 2) y, por consiguiente, una preocupación por elevar el nivel de enseñanza de los distintos aspectos de la comprensión lectora .

Evaluando al candidato estadístico:


1) análisis: 23
2) palabras: 15 (*)
5) corpus: 8 (*)
6) frecuencia: 8 (*)
8) tabla: 7
9) variables: 6 (*)
10) estrategias: 6
15) hiperplano: 5
16) lingüística: 5 (*)
17) aprendizaje: 5
20) foco: 5 (*)

estadístico
Lengua: spa
Frec: 205
Docs: 85
Nombre propio: 2 / 205 = 0%
Coocurrencias con glosario: 6
Puntaje: 6.870 = (6 + (1+6.55458885167764) / (1+7.68650052718322)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
estadístico
: DSM-IV (1994). Manual Diagnóstico y Estadístico de los Trastornos Mentales. American Psychiatric Association.
: Durán Martínez, R. (2000). Análisis estadístico de la presencia de la lengua inglesa en la publicidad comercial española. Aula, 12, 87-101.
: Lebart, L.; Salem, A. & Bécue, M. (2000). Análisis estadístico de textos. Lleida: Editorial Milenio.