Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) tokens (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: tokens


Is in goldstandard

1
paper CO_ColombianAppliedLinguisticsJournaltxt232 - : Following ^[69]Carter-Thomas and Rowley-Jolivet (2001), eight pairs of parallel texts (11064 tokens) were analyzed to identify differences between essays and OPs and levels of oral performance: essays (5255 tokens ) and their corresponding OPs transcriptions (5809 tokens; see Appendix A). OPs were video-recorded and transcribed orthographically including tags for hesitation marks, repetitions, false starts, and the moments in which students read from slides or a script (see Appendix B).

2
paper CO_FormayFuncióntxt82 - : De igual manera se agruparon los tokens de marcación de tópico y foco en solo dos variantes: frase nominal definida y frase nominal indefinida, ya que no se pretendía saber cómo estaba marcado específicamente el tópico o foco, sino la forma, en general, a través de la cual son expresados . En consecuencia, esto tendría que generar un traslape entre esta variable y la de definitud, ya que en esencia su naturaleza es similar. Dado que el número de casos con los que se explicitaba el foco de contraste no generaba variación, se agregaron estos pocos ejemplos (únicamente seis ocurrencias) a los de foco informativo. Finalmente, eliminamos la variable kinesis, así como la variante numerable/masa de la variable individuación. En el primer caso, porque dentro del análisis no fue considerada la implicación, respecto del grado de afectación, que el agente tiene sobre el paciente ni tampoco el modo de acción de verbo. En el segundo caso, los rasgos numerable/masa están subsumidos en la variante

3
paper CO_Lenguajetxt55 - : Desde el punto de vista lingüístico, la unidad léxica (deep saline water-saturated reservoir rocks), objeto de estudio de este trabajo, se plantea como un sintagma nominal compuesto por seis tokens, para cuya interpretación es factible descomponerlo en al menos ocho factores que expresan la extensión variable: reservoir rocks, deep reservoir rocks, saline reservoir rocks, deep saline reservoir rocks, water-saturated reservoir rocks, saline water-saturated reservoir rocks, deep water-saturated reservoir rocks, deep saline water-saturated reservoir rocks .

4
paper CO_Lenguajetxt155 - : Otra de las características del corpus DICEELE es que posee un etiquetado morfosintáctico (PoS-tagging) efectuado con el etiquetador de FreeLing. Este consiste en la asignación de una etiqueta que contiene información acerca de la categoría gramatical, las flexiones, las conjugaciones, etc., de cada palabra del texto. Para ser más exactos, inicialmente, el PoS-tagging divide el texto en unidades de análisis llamadas tokens. En este sentido, algunos autores como ^[110]Baker, Hardie y McEnery (2006) definen los tokens como “una sola unidad lingüística, la mayoría de las veces una palabra, aunque dependiendo del sistema de codificación utilizado, una sola palabra se puede dividir en más de un token, por ejemplo, he’s (he + ‘s )” (p. 159)^[111]^13; además de las palabras, también se incluyen, en muchos sistemas, los signos de puntuación (^[112]Brezina, 2018). Otros autores consideran, por su parte, que dentro de la frecuencia de tokens también se incluyen secuencias de unidades multipalabr

5
paper CO_Lenguajetxt181 - : In order to analyze SPE, the audio data were first transcribed. All 1sg and third-person finite verbs were then extracted from the interviews in order to locate each instance of SP usage^[199]^3. In order to isolate only cases in which variation between an overt and null SP can occur in Spanish, the following types of tokens that fell outside the variable context were excluded: verbs within subject headed relative clauses ; verbs appearing with full noun phrases; existential structures (e.g. haber, ser); hacer + time expressions; verbs with inanimate referents; impersonal se expressions; imperatives; set phrases where an overt or null SP was categorical (e.g. ¿Qué sé yo? ‘What do I know?’). Speakers did not alternate between an overt and null SP in any of the above cases; thus, these structures were excluded. For all tokens within the variable context (N = 757 [3rd-person]; N = 2,565 [1sg]), the coding of whether each verb appeared with a null or overt SP was carried out. Subsequently, the

6
paper CO_Lenguajetxt191 - : Para el caso de las mujeres se observa en la [130]Tabla 16 cómo los errores aumentaron gradualmente en los estratos 3, 4, y 5. Las mujeres del nivel B2 presentaron un porcentaje de 6,2 % de errores por cada 100 tokens en el estrato 1 y aumentaron hasta alcanzar el 7,8 % de errores en el estrato 5. En el estrato 6, el porcentaje de errores por cada 100 tokens disminuyó a 4,6 %, lo que es un indicador de un mejor rendimiento en la producción escrita respecto a los estratos inferiores . El promedio de tokens varió en los diferentes estratos. La siguiente lista muestra cómo la media de los tokens varía en las alumnas en el nivel B2. El pico de éstos se alcanza en el estrato 1 con 821 tokens. Sin embargo, el siguiente pico se logra en el estrato 6 con 710 tokens.

7
paper CO_Lenguajetxt191 - : Medias de tokens para estudiantes mujeres en el nivel B2:

8
paper CO_Íkalatxt2 - : Los estudios de la densidad léxica trabajan sobre la base de muestras textuales de distintos ámbitos, autores, idiomas, etc., lo que permite discriminar textos de forma automática, a partir de las relaciones matemáticas entre types (formas) y tokens (ocurrencias), que constituyen un modelo de regresión adecuado que puede ayudar a diferenciar tipos de texto (Cantos, 2000: 74-80 . Castellà, 2002: 183-184; Martín, 2003: 159-161).

9
paper UY_ALFALtxt80 - : Assumimos que, dada a variedade da morfologia flexional do PE face ao PB, devido à efetiva distinção das segunda e terceira pessoas gramaticais daquela variedade, temos no PE, a partir da alta recorrência de desculpar, os tokens desculpa lá, desculpe lá e desculpem lá como instanciações da VLoc[md][, ]conforme observado em:

10
paper UY_ALFALtxt142 - : La llegada de las computadoras a la lingüística permitió aligerar la pesadez de la realización manual de los recuentos y, como consecuencia de su automatización, aplicar el análisis de los índices obtenidos a textos o conjuntos de textos de volúmenes crecientes. Esta ampliación puso de relieve inmediatamente un factor de gran importancia: con independencia de las características individuales de los textos, la relación entre el aumento del volumen del conjunto considerado (los tokens) y el de las formas o lemas distintos contenidos en él (los types) se hacía cada vez más distante y la curva correspondiente al aumento de las formas o lemas distintos tendía a aplanarse . En 1967, muy cerca de lo que se considera el nacimiento oficial de la lingüística de corpus (LC), John B. Carroll afirmó, según ^[26]Kučera (1992: 407), que “the number of new lexical items as the size of the text increases gradually slows to a trickle, to reach, for example, just barely over 200 000 in a sample of 100 mill

11
paper VE_BoletindeLinguisticatxt27 - : 14. Por type se entiende una forma verbal determinada: por ejemplo, sueñas. Por tokens se entiende el número de veces que un type aparece en una determinada muestra: por ejemplo, el número de veces que aparece la forma sueñas .

12
paper VE_BoletindeLinguisticatxt73 - : ^5. Con tokens nos referimos al número total de verbos; incluye también las distintas formas de un mismo verbo. Tipos, por otro lado, se emplea para hacer referencia a los distintos verbos. Por ejemplo, en la serie, cae, cayó, pone, puso, hay 4 tokens pero sólo 2 tipos: las formas del verbo caer, y las de poner .

13
paper corpusSignostxt482 - : La primera fase del proceso fue la ‘compilación del corpus’ de mensajes mediante el uso de herramientas informáticas. El corpus está constituido por tuits emitidos desde los Estados Unidos por usuarios identificados como hispanohablantes (es decir, cuyo perfil indica que hablan español, son hispanos o provienen de un país donde se habla mayoritariamente español). El corpus resultante consta de 850.000 mensajes y más de 15 millones de palabras. Fue recogido en dos momentos diferentes, de agosto a diciembre de 2014 y entre enero y febrero de 2016. En total, se han encontrado 175.000 tokens diferentes, es decir, cadenas de caracteres que incluyen palabras, cifras, emoticonos, etc .

14
paper corpusSignostxt482 - : c) Eliminación de ruido en la lista de candidatos a anglicismos. Los siguientes filtros ayudaron a eliminar tokens que no eran apropiados:

15
paper corpusSignostxt468 - : ^4Hemos utilizado el valor de los tokens (sobre los lemas) porque el efecto de frecuencia opera sobre el elemento que se debe leer, esto es, el verbo conjugado . De todos modos, siguiendo la sugerencia de un revisor, se realizó una búsqueda de los lemas en la página Espal (http://www.bcbl.eu/databases/espal/), comprobando que la frecuencia de los lemas también está equilibrada, en promedio, entre los dos grupos de verbos: de los 12 pares empleados, 6 están equilibrados; de los 6 pares restantes, no equilibrados en frecuencia de lemas, el miembro alternante es más frecuente en tres de ellos y el no alternante en los otros 3.

16
paper corpusSignostxt338 - : - Un extracto de 355.622 tokens del Corpus Oral de Referencia de la Lengua Española Contemporánea (Marcos Marín, 1992), correspondiente a interacciones verbales de servicios .

17
paper corpusSignostxt338 - : En la [32]Tabla 2, se presentan los datos generales del análisis realizado: el tamaño de los corpus en términos types y tokens, y su tasa de variabilidad (TTR):

Evaluando al candidato tokens:


1) reservoir: 9
2) rocks: 8
3) corpus: 7 (*)
4) lemas: 6 (*)
5) variable: 6 (*)
6) deep: 5
7) water-saturated: 5
8) saline: 5
9) estrato: 5
10) textos: 4 (*)
11) análisis: 4
12) errores: 4
13) null: 4
14) distintos: 4
15) frecuencia: 4 (*)
17) foco: 4 (*)
18) overt: 4
19) verbs: 4 (*)
20) lingüística: 3 (*)

tokens
Lengua: spa
Frec: 200
Docs: 76
Nombre propio: / 200 = 0%
Coocurrencias con glosario: 8
Puntaje: 8.877 = (8 + (1+6.58496250072116) / (1+7.65105169117893)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
tokens
: - El Diccionario de Frecuencias del Castellano Moderno, Difcam (Sadowsky & Martínez, 2011), un diccionario de frecuencias léxicas que contempla 637 millones de tokens.
: Clancy, P. M., Thompson, S. A., Suzuki, R. & Tao, H. (1996). The conversational use of reactive tokens in English, Japanese, and Mandarin. Journal of Pragmatics, 26(3), 355-387.
: Gardner, R. (2002). When listeners talk: Response tokens and listener stance. Amsterdam, Netherlands: John Benjamins.
: Jefferson, G. (2002). Is no an acknowledgment token? Comparing American and British uses of (+)/(−) tokens. Journal of Pragmatics, 34(10-11), 1345-1383. [162]https://doi.org/10.1016/S0378-2166(02)00067-X
: McCarthy, M. (2003). Talking back: Small interactional response tokens in everyday conversation. Research on Language and Social Interaction, 36(1), 33-63.
: Según el análisis realizado con GraphColl ^[72](Brezina, McEnery & Wattam, 2015), el corpus total consta de 147 428 tokens (14 999 types), divididos de la siguiente forma ([73]Tabla 1):
: Tabla 1 Número de tokens y types según el programa GraphColl ^[74](Brezina, McEnery & Wattam, 2015)
: Tanaka, K. (2007). Diferential use of reactive tokens in Japanese in turn management and by gender. Japan: Temple University.
: Young, R. F. & Lee, J. (2004). Identifying units in interaction: Reactive tokens in Korean and English conversations. Journal of Sociolinguistics, 8(3), 380-407.