Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) probabilidad (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: probabilidad


Is in goldstandard

1
paper corpusSignosTxtLongLines131 - : Además, el párrafo está muy modalizado. Hay tres expresiones de baja probabilidad, la primera de las cuales se presenta bajo la apariencia de probabilidad (parece poco probable):

2
paper corpusSignosTxtLongLines154 - : Se realizó la prueba estadística ‘probabilidad de t’ para determinar la probabilidad de error en las diferencias observadas entre los indicadores cognitivos de ambos grupos. Los resultados estadísticos corroboraron la relación que se establece entre los indicadores. Para ‘atención y concentración’ la probabilidad de error equivale a 0,00013661, mientras que en ‘memoria operativa’ corresponde a 0,00012945 . En ambos indicadores la relación es significativa, en el sentido de que sólo en 1,4 y 1,3 sujetos por cada 10.000, respectivamente, la diferencia que se observa podría no estar relacionada con los factores considerados.

3
paper corpusSignosTxtLongLines157 - : Debido a que los paquetes léxicos epistémicos en los textos de ciencias sociales cumplen funciones interpretativas, a veces, encontramos paquetes que expresan tanto certeza como probabilidad en el mismo discurso, ilustrando cómo una tendencia puede ser considerada como un “hecho” en dicha disciplina:

4
paper corpusSignosTxtLongLines186 - : El empleo de ‘poder’ y ‘soler’ también distingue a los géneros analizados entre s. La forma ‘soler’ para la expresión de la probabilidad solo se emplea en los libros de texto y manuales: “suelen ser”, “suele llamarse”, “suele definir”, “suele apreciar” . El auxiliar ‘poder’ con valor epistémico se emplea con formas de presente y condicional en los textos didácticos: “podemos decir que”, “pueden considerarse”, “podemos considerar”, “podría decir”. En cambio, es más frecuente el futuro en este modal en los textos divulgativos y directivos: “podremos/podrán ver”, lo cual pone de manifiesto la orientación argumentativa y directiva en estos textos.

5
paper corpusSignosTxtLongLines186 - : La modalización también asemeja los textos de los géneros didáctico y directivo en el conjunto de textos analizados frente a los textos de género divulgativo. En el caso del género didáctico, la expresión de la necesidad va ligada al imperativo de la adquisición del conocimiento y se realiza con formas lingüísticas (como “ha de entenderse”, “hay que tener en cuenta”, etc.) que ponen de relieve el quehacer pedagógico; la expresión de la probabilidad con modales como ‘poder’ o ‘soler’ muestra en los manuales escolares el grado de consenso alcanzado en la comunidad científica sobre el saber que se enseña ; se busca además incluir al aprendiz en este saber con el uso de estas formas en primera persona del plural.

6
paper corpusSignosTxtLongLines196 - : a) elegir ciertos modos de razonamiento, tales como la deducción, la explicación y la asociación. En el caso, por ejemplo, de la explicación, se pueden utilizar las relaciones de causalidad (causa/efecto) entre dos o varias aserciones y asegurar la fuerza del nexo (de posibilidad, de probabilidad, de necesidad o de lo inevitable): no basta con establecer una conexión, por ejemplo, entre el consumo de alimentos que son ricos en grasas saturadas y la salud, como en “el consumo de alimentos ricos en grasas saturadas es dañino para la salud”, es necesario determinar si ese nexo es del orden de lo posible o de lo inevitable (Charaudeau,1992 );

7
paper corpusSignosTxtLongLines229 - : se creaba un nuevo gráfico de coherencia de la memoria operativa, con un nuevo nodo superordinado (creado desde afuera del modelo computacional). La probabilidad de que una proposición fuera recuperada se computaba mediante la fórmula 1-(1-p)^ndonde n era el número de ciclos de procesamiento en los que la proposición se había mantenido en el retén de la memoria operativa y p, un parámetro libre que corresponde a la probabilidad de que una proposición tiene de ser recuperada, si solo había entrado en solo un (n=1 ) ciclo de procesamiento en la memoria operativa. Así, p es una probabilidad base de recuperación y todas las proposiciones parten en ese nivel una vez que hayan sido procesadas en un ciclo. Con cada nuevo ciclo de procesamiento en el que ingresa una proposición aumenta la posibilidad de recuperación de esta.

8
paper corpusSignosTxtLongLines243 - : c) Probabilidad de instanciación (variable cuantitativa): medida de estadística descriptiva que permite predecir cuán probable es que, dadas las mismas condiciones, un suceso pueda volver a ocurrir . Dado que trabajamos sobre la base de una representación sistémica, en la cual el término de un sistema puede ser la condición de entrada a otro sistema menor, el cálculo de la probabilidad utilizado es el de probabilidades condicionadas. Las probabilidades condicionadas permiten calcular la probabilidad de ocurrencia en el marco de una condición o contexto mayor, por ejemplo, el cálculo de la probabilidad de ocurrencia del imperativo está condicionado al contexto mayor representado por el grado alto de la obligación. El cálculo de la probabilidad se desarrolla sobre el de frecuencia absoluta y se presenta en términos porcentuales. Para determinar si la variación entre las probabilidades de ocurrencia es estadísticamente significativa se utiliza la comparación de proporciones Z (normal

9
paper corpusSignosTxtLongLines243 - : Otros estudios en esta misma línea han evidenciado que la mayor probabilidad de uso del imperativo se presenta en registros de interacción didáctica, en los que se pretende simplificar el acceso a un conocimiento, dado que es la forma más simple y directa (más congruente ) de construir la obligación implicada en un requerimiento (Gutiérrez, 2008). Las configuraciones modales, en cambio, tienen una mayor probabilidad de ser utilizadas en registros escritos de alta especialización (Gutiérrez, 2007). A partir de estos datos, estamos en condiciones de afirmar que el manual en general, mezcla la tendencia a la didactización, manifiesta a través del imperativo, con la especialización propia de los géneros académicos universitarios, manifiesta a través del uso de configuraciones con verbos modales.

10
paper corpusSignosTxtLongLines248 - : En el siguiente caso, la paráfrasis acentúa la incertidumbre: el adjetivo epistémico de probabilidad se parafrasea usando el adjetivo y el nombre epistémico de posibilidad:

11
paper corpusSignosTxtLongLines265 - : - Probabilidad: Modalización .

12
paper corpusSignosTxtLongLines281 - : La probabilidad se puede calcular de la siguiente manera:

13
paper corpusSignosTxtLongLines332 - : donde d ε D y cj ε C. Usando la regla de Bayes podemos obtener la probabilidad de que d genere a c:

14
paper corpusSignosTxtLongLines347 - : Así, por ejemplo, cuando el sistema cognitivo/lingüístico se enfrenta a una locución flexible, composicional y transparente (donde cada palabra posee una interpretación metafórica subyacente, como es el caso de "quebrar el hielo") es altamente probable que esta sea analizada en sus componentes para interpretarla. Por el contrario, al enfrentar una locución fija, no composicional, no transparente y familiar (donde existe una alta probabilidad de que se haya producido un pre-empaquetamiento de los componentes, como es el caso del chilenismo "agarrar papa" ) es presumible que el sistema la trate como una entidad global, sin la participación del analizador sintáctico. Sin embargo, esta hipótesis de la activación diferencial de los mecanismos interpretativos requiere de mayor estudio para su comprobación.

15
paper corpusSignosTxtLongLines375 - : el IC es inversamente proporcional a la probabilidad de un concepto en el corpus: cuanto más probable es un concepto, menor será su informatividad . Ya que el estatus de un concepto básico en FunGramKB viene determinado por su uso en los postulados de significado de la ontología, es preciso adoptar un enfoque intrínseco, donde el IC se obtiene exclusivamente a partir del conocimiento ontológico, sin dependencia alguna con un corpus externo. Por ejemplo, Seco, Veale & Hayes (2004) diseñaron una medida que se apoya únicamente en la relación de subsunción de la ontología, por la cual el IC es inversamente proporcional al número de hipónimos del concepto en cuestión. Sin embargo, nosotros debemos utilizar una medida que no solo tenga en cuenta la relación taxonómica, sino también otras relaciones conceptuales más complejas. Este es el caso de la métrica de Seddiqui & Aono (2010), donde una buena parte de la información intrínseca de un determinado concepto se haya en todas las relaciones

16
paper corpusSignosTxtLongLines401 - : (iv) Finalmente, la probabilidad de ocurrencia es una escala de abstracción cuyo supuesto teórico subyacente es que ‘el significado lingüístico varía dependiendo del contexto y que la elección del hablante responde a patrones contextualmente dependientes’ . Para dar cuenta de esto, desde GSF, se propone la utilización de un corpus correspondiente a lengua en uso y justificado lingüísticamente, de acuerdo a alguna de las variables de registro (i.e. campo, tenor y modo), constructo que sintetiza los aspectos contextuales que inciden en la variación del significado verbal (Matthiessen, 2006; Wu, 2009). El rastreo de la probabilidad –frecuencia relativa–, con que cada configuración léxico-gramatical es instanciada, constituye un trabajo de corpus basado en el corpus (Caffarel et al., 2004; Halliday, 2005). Para efectos de los resultados acá presentados, se ha empleado un corpus de observación formado por 4.520 cláusulas, correspondientes a 62 textos mono-genéricos ( Wu, 2009) de idénticas

17
paper corpusSignosTxtLongLines415 - : El algoritmo que se utiliza aquí para detectar errores no es nuevo (véase Sinclair, 1991). Por un lado, se analiza la frecuencia en el corpus de cada una de las palabras utilizadas en el texto y, por otra parte, de cada bigrama. Además se calcula el número de veces que cada combinación de dos palabras aparecería en el corpus si estas se dieran de manera aleatoria; es decir, se estima la probabilidad del par teniendo en cuenta la frecuencia de cada una de las dos palabras, por separado, en el corpus, tal y como refleja la fórmula siguiente, donde P es la probabilidad ;(a) y (b) representan, respectivamente, a la palabra 1 y a la palabra 2; T es el número total de palabras que componen el corpus (cien millones) y F, la frecuencia. Conviene tener en cuenta que, como veremos a continuación, la escala de la probabilidad empleada no es la de 0 a 1.

18
paper corpusSignosTxtLongLines415 - : Volviendo al algoritmo, tras aplicar la fórmula anterior, se analiza si el par de palabras aparece en el corpus más (o menos) veces de lo que sería esperable según su probabilidad –es decir, se calcula el umbral (U)– mediante esta fórmula: U = F(ab ) / P(ab).

19
paper corpusSignosTxtLongLines415 - : En la primera columna de la Tabla 1, aparece reflejada la frecuencia del par; así, por ejemplo, la combinación ‘intención’ de se registra 5.176 veces en este corpus. Después, en las dos columnas siguientes, tenemos la frecuencia de cada una de las dos palabras por separado: ‘intención’ se usa en el corpus más de nueve mil veces (9.245) y ‘de’, más de cinco millones (5012014); o lo que es lo mismo, una de cada 10817 palabras del corpus (100000000/9245 = 10817) es el sustantivo ‘intención’ y una de cada 20, la preposición ‘de’ (100000000/5012014 = 20). La cuarta columna incluye la probabilidad de que esta combinación de palabras, teniendo en cuenta la frecuencia de cada una de ellas por separado (10817*20 = 215815), si todas las palabras apareciesen al azar en el corpus (recuérdese aquí lo que decía Sinclair, 1991: 79): ‘intención de’ se registraría 463 .36 veces en el banco de cien millones de palabras (100000000/215815 = 463.36). Sin embargo, en el corpus encontramos el

20
paper corpusSignosTxtLongLines415 - : Como vemos en la Tabla 4, estas combinaciones no se registran ni una sola vez en el corpus de cien millones de palabras, a pesar de que la probabilidad de aparecer juntas es, en todos los casos, superior a 1.4 (incluso en ‘haber qué’ esa probabilidad es bastante alta: 141 .65). Esos son claros indicios de que contienen errores. En cambio, sí se encuentra en el corpus esta otra combinación (‘haber si’), pero solo siete veces; mientras que la probabilidad de que se dé este par de palabras es mucho mayor: 183.29 (por separado, la frecuencia de ‘haber’ es 53686 y la de ‘si’, 341403); de ahí que el umbral sea tan bajo: 0.04 y que nos deba hacer pensar en un error:

21
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe . Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

22
paper corpusSignosTxtLongLines415 - : el corrector no identifica que el sujeto es un sustantivo en singular (‘la gente’) mientras que el verbo aparece en plural (‘están’). Las cifras del análisis no nos ayudarán a percatarnos del error: el par ‘que están’ es una combinación muy frecuente en los textos del corpus (aparece en 4.531 ocasiones), incluso se registra tres mil veces más de lo que sería esperable, teniendo en cuenta la probabilidad de la combinación: 1119 .7 (por su parte, la frecuencia de ‘que’ es 3295376 y la de ‘están’, 33978; y el umbral es 4.05); y es correcta si el antecedente es plural, como aquí:

23
paper corpusSignosTxtLongLines464 - : Otra correlación que se dio solo en uno de los niveles de competencia corresponde a la correlación negativa (-0,57) entre las variables ‘precisión de la unidad AH’ (P1) y ‘promedio de longitud de las pausas’ (F2), para el nivel B2 de competencia. Así, cuando los aprendientes de dicho nivel produjeron un alto número de unidades AH sin errores (P1), el promedio de duración de las pausas (F2) en su discurso oral disminuy. Esta correlación negativa se puede explicar por la probabilidad de que, a nivel sintáctico y léxico, la lengua utilizada en el discurso estuvo compuesta por estructuras y vocabulario familiar, por lo tanto, como estas secuencias de elementos se automatizan como rutinas neuromotoras (^[114]Beckner, Blythe, Bybee, Christiansen, Croft, Ellis, Holland, Ke, Larsen-Freeman & Schonemann, 2009), la planificación y ejecución del discurso son también automáticas; es decir, los aprendientes pudieron acceder rápidamente a la información almacenada . En contraste, largas pausas se r

Evaluando al candidato probabilidad:


1) corpus: 20 (*)
2) palabras: 13 (*)
3) frecuencia: 10 (*)
6) textos: 8 (*)
9) combinación: 6 (*)
12) probable: 4
13) error: 4 (*)
15) intención: 4
16) algoritmo: 4 (*)
17) separado: 4

probabilidad
Lengua: spa
Frec: 176
Docs: 76
Nombre propio: 1 / 176 = 0%
Coocurrencias con glosario: 7
Puntaje: 7.860 = (7 + (1+6.28540221886225) / (1+7.467605550083)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
probabilidad
: Dado que muchas de las probabilidades podrían ser muy cercanas a cero (Bennett, 2000), las implementaciones de Naive Bayes usan la versión logarítmica suavizada de la probabilidad a posteriori, dada por la siguiente expresión:
: Rezzano, S. (1999). Modalidad de probabilidad y evidencia en el artículo de investigación científica en inglés. Unpublished master’s thesis, Universidad Nacional de Cuyo, Mendoza, Argentina.
: Serpa, C. (2013). Significados de probabilidad y fuerza en los textos legislativos. I Vardande. Revista Electrónica de Semiótica y Fenomenología Jurídicas, 1(1), 3-33.
: Soto, G. (2008). Sobre el llamado futuro de probabilidad. Algunas condiciones del valor modal de -ré. Boletín de Filología, XLIII, 193-206.