Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) frecuencia (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: frecuencia


Is in goldstandard

1
paper corpusSignosTxtLongLines106 - : La investigación que realizamos se inscribe en un proyecto pedagógico que se propone desarrollar las habilidades de comprensión y producción de textos en el primer año universitario. En relación con el primer aspecto, la comprensión, se elaboraron pruebas diagnósticas que tendieron a evaluar en el último año de la enseñanza media el desempeño de alumnos con diferente entrenamiento lector. Como el ámbito donde se desenvuelven los talleres universitarios de lectura y escritura corresponde a las carreras humanísticas, el interés se centró en las dificultades de comprensión de textos teóricos de las Ciencias Sociales. Estos se caracterizan discursivamente tanto por la frecuencia de organizadores argumentativos y modalizadores como por la presencia de distintas voces enunciativas con las cuales el enunciador se identifica o establece distintos grados de distancia . A esta dimensión polifónica de los textos atendimos en la investigación cuyos resultados expondremos.

2
paper corpusSignosTxtLongLines109 - : Sager et al. ([94]1980) determinan unos parámetros situacionales que les permiten distinguir un conjunto de categorías de géneros "mayores" en el ámbito de los discursos científicos y técnicos: el informe, el ensayo, la memoria, la programación y el diálogo. Estos parámetros tienen que ver con el tenor interpersonal (grado de conocimiento especializado de los interlocutores; estatus que existe entre ellos); con el tenor funcional (las intenciones) y con el modo de comunicación (oral o escrito). Loffler-Laurian ([95]1983) ha realizado también una propuesta de tipología de los discursos científicos^[96]7, en la que busca completar la descripción pragmática con la presencia y frecuencia de un criterio lingüístico: el tipo de definición que se presenta y predomina en cada una de las clases de texto científico que establece . En este camino integrador, de aunar la perspectiva pragmática y lingüística en el establecimiento de clases de textos de especialidad, destaca el trabajo de Gläser ([97

3
paper corpusSignosTxtLongLines127 - : Pero Solano es también un hombre de su tiempo, en quien se mantienen las ideas fundamentales del Positivismo, especialmente en sus conceptos de la raza y la selección de las especies. Por ello su resistencia a la guerra, que saltándose la selección natural que elimina a los más débiles, provoca la desaparición de los hombres más sanos y fuertes. Así, el retraso en la evolución humana se explica, porque los débiles asumen la conducción de la sociedad y los pueblos "pierden con frecuencia sus caracteres y valores raciales, tanto en el orden material como espiritual" ([49]Solano, 1939:148 ).

4
paper corpusSignosTxtLongLines131 - : 1. El material preferido para el tejido de frazadas era sin duda la lana de cabra montañesa blanca. 2. Con frecuencia, la lana se obtenía de los lechos de alumbramiento de las hembras en las montañas o por recolección de motas de pelaje fino de las mudas invernales que las cabras dejaban en los arbustos. 3. Dado que una frazada completa requería lana de al menos dos cabras montañesas, se utilizaban otras fibras como complemento, especialmente en períodos de escasez. 4. Las fibras adicionales incluían corteza de cedro y sauce, pelusa de vainas de algodoncillo u otras malezas, cáñamo índico, ortigas, posiblemente pelo de perro y más tarde hilo de tejer o retazos de tela. 5. Existe controversia sobre el grado de uso del pelo de perro. 6. Se dice que algunas frazadas lo contienen, aunque el análisis de las fibras no lo ha revelado. 7. Es improbable que se haya utilizado con frecuencia pelo de perro, ya que es un material resbaloso y las fibras no permanecen entrelazadas cuando se hilan . 8.

5
paper corpusSignosTxtLongLines134 - : Con menos frecuencia observamos que se les pidió a los alumnos explicar y definir términos:

6
paper corpusSignosTxtLongLines138 - : Quienes han abordado el estudio de las diferencias entre el discurso de las disciplinas duras y blandas ya han señalado que las humanidades constituyen un campo más complejo, principalmente porque el conocimiento se construye sobre la base de las ideas y los conocimientos de otros; las citas a otras fuentes se usan con una frecuencia mayor, "dos veces más que en las disciplinas científicas" ([29]Hyland,1999: 353), y todo parece indicar "un mayor cuidado para ubicar la investigación en marcos disciplinares y apoyar las propuestas con soportes intertextuales" ([30]Hyland, 1999: 353 ).

7
paper corpusSignosTxtLongLines145 - : "La historia bíblica y la leyenda se convierten con el correr del tiempo en apariciones divinas y en animada mitología. Cada vez más la nota hierática y simbólica va siendo substituida por la histórica y realista. Cuando, desde los tiempos del gótico, se despierta una sensibilidad realista por la naturaleza y las cosas mundanas en los temas sagrados; cuando los temas sagrados se emplean también para fines profanos; cuando el gusto de los particulares y el interés de los coleccionistas hacen ya valer sus derechos, este elemento mitológico llega a presentarse muchas veces de modo acusadamente mundano y extradogmático. Esta secularización se acentúa en el Renacimiento y con frecuencia los temas bíblicos y legendarios se presentan con un carácter esencialmente novelístico sólo para goce estético y para goce de una sociedad aficionada al arte" ([37]Weisbach, 1942: 57 ).

8
paper corpusSignosTxtLongLines156 - : En este artículo se presentan los resultados del análisis de una muestra de quince artículos de la Revista de Pedagogía con el objetivo de determinar la manera cómo los investigadores de la educación se interrelacionan con sus pares y comunican su posición y su compromiso con la disciplina. Para ello se identificaron las marcas metadiscursivas y su frecuencia de uso según las categorías de metadiscurso interpersonal propuestas por Hyland (1999a, 2000): mitigadores, enfatizadores, marcadores de actitud, marcadores relacionales y marcadores de persona . Los resultados revelan cierta variabilidad en el uso de las marcas interpersonales, la cual podría estar vinculada al tipo de investigación. La mitigación constituyó el rasgo más frecuente seguido por los marcadores relacionales y actitudinales. Se concluye que los investigadores de la educación tienen una tendencia a no imponer sus puntos de vista, muestran preocupación por proyectarse como persona y por persuadir a sus lectores para que estos

9
paper corpusSignosTxtLongLines157 - : Lo encontrado por Biber, Conrad y Cortés (2004) muestra que los paquetes léxicos son generalmente escasos en textos de estudio, comparado con otros registros universitarios. Por ello, este estudio usa un límite de corte relativamente bajo de frecuencia, incluyendo todas las secuencias que ocurren más de 20 veces por millón de palabras para considerarlas paquetes léxicos, lo que corresponde a un mínimo de 4 ocurrencias .

10
paper corpusSignosTxtLongLines161 - : Las diferencias porcentuales son más notorias al comparar entre sí la frecuencia de aparición de ecuacionales y ecuandicionales: las primeras alcanzaron un 10 .38% de manifestación, en tanto que las segundas solo registraron un 0.94%. Un hecho, que en cierta medida explica esta notable disparidad, es que las construcciones ecuandicionales se emplean casi exclusivamente para focalizar aditamentos de causalidad (ejemplos 26, 27, 28 29) y finalidad (ejemplos 30, 31, 32):

11
paper corpusSignosTxtLongLines176 - : b) El coseno se aplica sobre el ángulo entre los vectores (Kintsch, 2001; Maldonado, 2002), evaluando la cercanía de estos en términos de frecuencia relativa o amplitud, es decir, en términos de la distancia -periódica- que media entre una u otra co-ocurrencia (Antón, 1981 ; Manning & Schütze, 2003) dentro del contexto particular y/o general del dominio de conocimiento (por ejemplo, cada dos palabras). Esta medida arroja un valor entre 0 y 1, con 1 denotando la identidad semántica y 0 la no relación entre los comparandos.

12
paper corpusSignosTxtLongLines176 - : de un suceso (la colocación de palabras, en este caso) se toma como la frecuencia relativa (coseno) de ocurrencia del mismo (Manning & Schütze, 2003). De esta manera, el LSA podría arrojar cosenos que evidenciarán que una palabra se asociará relevantemente a otra, aun cuando en el patrón de uso de ella (matemáticamente, en la matriz dispuesta en función del peso) no se haya observado tal asociación (Dumais, 1994; Landauer, 2002; Quesada et al., 2002). Así, por ejemplo, si la frecuencia con que la palabra "carta" co-ocurre con "cartero" es, en un dominio de conocimiento general, similar a la frecuencia con que "sobre" co-ocurre con "cartero", aun cuando "carta" y "sobre" nunca aparezcan juntas en un contexto verbal, es decir, aun cuando su relación no sea patente en los textos del corpus, el LSA determinará que mantienen similitud semántica . Lo mismo ocurre con las palabras sinónimas como "carta" y "misiva", las que siendo, por definición léxica, semánticamente similares, y precisamente por

13
paper corpusSignosTxtLongLines176 - : esto, tienen escasas opciones de co-ocurrir en un mismo contexto verbal; sin embargo, el LSA puede establecer que ambas están fuertemente relacionadas al buscar la similitud de la frecuencia con que cada una de ellas aparece asociada a otra: "cartero", por ejemplo . En ambos casos se dice que la relación de similitud semántica está latente.

14
paper corpusSignosTxtLongLines176 - : El corpus es dispuesto en una matriz donde, respecto del LSA, las palabras son reemplazadas por acciones y los contextos o documentos por ensayos o episodios de resolución de problemas. La frecuencia, en tanto, corresponde a la ocurrencia de la acción en los ensayos (Quesada et al ., 2002). Luego el algoritmo sigue su curso tal y como lo hemos descrito anteriormente. Tras la SVD, en este caso, se obtienen vectores singulares de acciones y de estrategias, entendidas como modelos de actuación usadas por los sujetos. Con esta información se genera un espacio de resolución de problemas (Quesada, 2003a) desde el cual es posible analizar la actuación humana en tareas de resolución de problemas: (a) determinando los rasgos característicos de la resolución de alguna tarea; (b) comparando el proceder de un experto con el de un novato; (c) prediciendo la solución que frente a un problema complejo desarrollará un sujeto experto; y (d) evaluando el desempeño de los sujetos de modo automático y sin la

15
paper corpusSignosTxtLongLines185 - : Es importante destacar que en la cita anterior el valor semántico del ‘nosotros’ refiere claramente a quienes trabajan en el diario, es decir, corresponde a un ‘nosotros exclusivo’, que no involucra al interlocutor. De igual manera, podemos observar que, con frecuencia, en las columnas de opinión aparece un enunciador en primera persona. En la cita que presentamos a continuación es relevante, ya que su autor, ha tenido a su cargo el escribir con frecuencia editoriales del diario El Mercurio:

16
paper corpusSignosTxtLongLines186 - : Cada uno de estos rasgos discursivos es posible observarlos con el análisis de determinadas formas gramaticales que los reflejan. De este modo, se relacionan rasgos gramaticales y su frecuencia en un texto con su interpretación cualitativa, esto es, con su función en el contexto del género discursivo en que se emplean .

17
paper corpusSignosTxtLongLines186 - : Como reflejan los datos, es en el género didáctico donde concurren con mayor frecuencia los rasgos asociados a una producción personalizada: destaca el uso de los pronombres de primera y de segunda persona . No obstante, es el género divulgativo el que emplea un mayor número de verbos en primera persona del plural. En los dos ejemplos que siguen, observamos tanto el uso del nosotros inclusivo en la primera noticia, que incluye al autor en un grupo (Calsamiglia & Tusón, 1999), como el empleo del nosotros de modestia en el segundo ejemplo:

18
paper corpusSignosTxtLongLines186 - : En el género didáctico, en cambio, la conjunción ‘si’, además de tener valor condicional, es empleada con mucha frecuencia en los textos con valor concesivo, en estructuras como “si bien”, “si bien no”, y lo mismo ocurre en los textos divulgativos, como se observa en el siguiente ejemplo:

19
paper corpusSignosTxtLongLines187 - : Palabras y formulaciones son así identificadas a lo largo de los diferentes géneros publicados en los momentos discursivos, que testimonian un desplazamiento ‘del objeto del discurso’: se trata menos de explorar la ciencia, que tratar hechos o acontecimientos con “coloración científica” (para retomar la imagen de Romero, 2005). Se observa entonces, la débil frecuencia de términos especializados: ‘prión’, ‘encefalopatía bovina espongiforme’, ‘enfermedad de Creutzfeldt-Jacob’, a propósito de la crisis de “las vacas locas” ; ‘transgénico’, ‘Organismo Genéticamente Modificado’, ‘manipulación genética’, ‘transgénesis’, en relación con los OGM ; ‘virus H5N1’ y ‘gripe aviar’ (que, finalmente, reemplazó lo que se llama, a veces, la gripe del pollo ).

20
paper corpusSignosTxtLongLines187 - : La observación sistemática de los sub-corpus, construidos a partir de las nociones y de las designaciones que circulan en el momento que ocurren estos acontecimientos, y, por tanto, del estudio de sus contextos (construcciones destacadas por su frecuencia y su repetición: après (después )…, comme (como)…, por ejemplo; localización de los diferentes locutores que los emplean), nos orientan acerca de las relaciones entre discurso, memoria e historia.

21
paper corpusSignosTxtLongLines194 - : ejemplo, explicaciones gramaticales sofisticadas no son apropiadas para estudiantes de nivel principiante). En consecuencia, aún no se tiene el conocimiento claro y detallado necesario para determinar qué estrategia sería la más apropiada y efectiva en un contexto educativo particular. Es, por lo tanto, crucial y relevante investigar más detalles de cómo los estudiantes responden a los diferentes tipos de estrategias de feedback correctivo, y cuáles estrategias dan como resultado un cambio en el aprendizaje del estudiante, ya sea permanente o temporal. Por este motivo, hemos explorado evidencia empírica sobre el tipo, frecuencia y efectividad de las estrategias de feedback utilizadas por los profesores de español como lengua extranjera en tres contextos de aprendizaje distintos: un estudio observacional de interacciones en clases tradicionales, un estudio de caso de interacciones en clases tutoriales, y un estudio experimental en el que los estudiantes interactúan con una aplicación

22
paper corpusSignosTxtLongLines194 - : En relación con nuestro segundo objetivo específico, “analizar las estrategias de feedback observadas en las interacciones dialógicas entre el profesor y los estudiantes en clases de español como lengua extranjera con el objeto de precisar la frecuencia y efectividad de dichas estrategias”, se delimitaron las siguientes preguntas de investigación que orientaron el análisis de los datos de nuestro corpus:

23
paper corpusSignosTxtLongLines194 - : • Segundo, en nuestro estudio se investigó la efectividad analizando lo que sucede en los tres turnos siguientes después de que se provee la estrategia de feedback. Aunque la relación entre la frecuencia de las reparaciones y la frecuencia de cada tipo de feedback correctivo es un indicador de la inmediata efectividad del feedback, dicha noción de efectividad, comúnmente utilizada, tiene limitaciones . Se debe realizar experimentos posteriores enfocándose en cómo los estudiantes responden a las diferentes estrategias de feedback, y si da como resultado cambios en su aprendizaje a largo plazo. Las tendencias encontradas en nuestro estudio deben verificarse en experimentos longitudinales. De hecho, hemos llevado a cabo un estudio longitudinal con un sistema en línea basado en la web para enseñar el subjuntivo en español. En dicho estudio, se comparó los incrementos en el aprendizaje (apoyado por los resultados de los pre y post-test) de estudiantes de español como lengua extranjera

24
paper corpusSignosTxtLongLines196 - : En lo concerniente a los argumentos, estos se apoyan en el sistema de creencias basado en opiniones que se desprenden de los posicionamientos tomados por los diferentes actores que están comprometidos con los OGM y que se alinean en torno a los beneficios o inconvenientes del cultivo, de la producción y de la comercialización de estos alimentos. Paralelamente, hay consenso acerca de la ayuda que puede significar la biotecnología para la humanidad, pero que es necesario tomar las providencias del caso. Al sistema de creencias basado en opiniones le sigue el experiencial, en donde se pone el acento en las aplicaciones de la biotecnología en distintos productos, tales como el maíz, los salmones, el trigo, las uvas, los carozos, etc., aspectos que se apoyan, pero con menor frecuencia, en el sistema de conocimiento científico, como es el caso de la experimentación con algunos de estos productos .

25
paper corpusSignosTxtLongLines198 - : En relación con el estudio de los marcadores discursivos de reformulación en los informes escritos por estudiantes de segundo y cuarto año de la carrera de Psicología, los resultados cuantitativos demuestran que no existe una diferencia significativa, tal como se demuestra en la [27]Tabla 3, en cuanto a la frecuencia de utilización de esta estrategia en los informes analizados: en segundo año su presencia fue de 0,15% y en cuarto año de 0,13% .

26
paper corpusSignosTxtLongLines213 - : Para determinar la capacidad de representación de un término para un documento dado, se calcula el número de veces que este aparece en dicho documento, obteniéndose la frecuencia del término en el documento (term frequency, tf). Por otra parte, si la frecuencia de un término en toda la colección de documentos es extremadamente alta, se opta por eliminarlo del conjunto de términos de la colección. Podría decirse que la capacidad de recuperación de un término es inversamente proporcional a su frecuencia en la colección de documentos. Esto es lo que se conoce como idf (inverse document frequency). Así, para calcular el peso de cada elemento del vector que representa al documento, se tiene en cuenta la frecuencia inversa del término en la colección, multiplicándola por la frecuencia del término dentro de cada documento (Harman, 1992), esto es:

27
paper corpusSignosTxtLongLines213 - : Luego de identificados los lexemas de contenido semántico compartidos por los cuatro archivos de texto (2.729 lexemas), se procedió a construir una matriz en la que se consignó la frecuencia de cada uno de los lexemas compartidos por cada uno de los textos que componen los cuatro archivos, es decir, una matriz de 2 .729 palabras por 222 textos. Cabe señalar que este procedimiento es muy relevante, pues se realiza bajo el supuesto de que los textos pueden diferenciarse en base al comportamiento (en términos de ocurrencias) de los lexemas compartidos. En la Figura 4 se esquematizan los procedimientos realizados en la etapa de preprocesamiento y los programas asociado a cada subetapa.

28
paper corpusSignosTxtLongLines213 - : F = LOG(N/n), esto es, multiplicación del factor original T por un factor de frecuencia inversa de la colección (N es el número total de documentos en la colección y n es el número de documentos a los cuales un término le es asignado ).

29
paper corpusSignosTxtLongLines218 - : Dado que el valor semántico de los verbos y expresiones verbales constituye el principal criterio de distinción de las perspectivas de conceptualización, las siguientes tablas muestran cuáles se usan y el número de casos correspondiente. La frecuencia de uso es un dato importante porque nos permite identificar si hay un verbo prototípico o más representativo de cada perspectiva . En la perspectiva visual, el carácter de prototipicidad le corresponde al verbo ‘ver’, ya que más del 76% del total de 17 casos de esta perspectiva se construyen con dicho verbo (Tabla 3):

30
paper corpusSignosTxtLongLines228 - : en la enseñanza de lenguas extranjeras, la interacción usualmente toma lugar en ambientes de clases tradicionales (modalidad face-to-face, presencial). Por esa razón, hemos considerado pertinente investigar el tipo, frecuencia y efectividad de las estrategias de feedback utilizadas en la enseñanza del español como lengua extranjera en tres contextos de aprendizaje de lengua distintos: un estudio observacional de interacciones profesor-alumno en clases tradicionales presenciales (modalidad face-to-face ), un estudio de caso de interacciones en clases tutoriales presenciales (modalidad one-to-one), y un estudio experimental en el cual los estudiantes interactúan con una aplicación computacional “no presencial” (modalidad one-to-one a distancia) accesada en línea a través de la red internet. Los resultados de estos tres estudios empíricos han resultado ser similares en relación con los tipos, frecuencia, y efectividad de las distintas estrategias de feedback correctivo que se investigaron. En

31
paper corpusSignosTxtLongLines233 - : La peligrosa ambigüedad en la interpretación de un referente descrita en el ejemplo del apartado anterior con frecuencia se debe al uso inadecuado de una expresión pronominal en relación con el alcance sintáctico de su capacidad de referencia, es decir, a la mediación de una distancia excesiva entre la expresión anafórica y su referente . Ello sucede, por ejemplo, cuando se usan demostrativos cuyo referente se encuentra más allá de la unidad sintáctica oracional en la que aparecen, o cuando un mismo pronombre puede tener dos candidatos a referentes, como sucede con el dativo ‘le’ en el siguiente fragmento de una sentencia emitida por el Tribunal Supremo, que puede aludir tanto al padre como al hijo previamente presentados:

32
paper corpusSignosTxtLongLines243 - : b) Frecuencia absoluta de instanciación de las configuraciones lexicogramaticales (variable cuantitativa): medida de estadística descriptiva cuyo valor es un número que representa la cantidad de veces que una configuración es instanciada en el marco de un registro en particular . El etiquetador de corpus que emplearemos entrega directamente los resultados de las búsquedas por frecuencia.

33
paper corpusSignosTxtLongLines256 - : c. Muestra los resultados de las búsquedas acorde a un parámetro de frecuencia: Encontré información acerca de grupos de investigación, cursos, y páginas web, ¿Está Ud . interesado en alguna información específica?

34
paper corpusSignosTxtLongLines262 - : La ley de Zipf plantea que la frecuencia de cualquier palabra en un texto es inversamente proporcional a su rango; es decir, existe un pequeño número de palabras que son utilizadas con mucha frecuencia, mientras que hay un número muy grande de palabras que son poco empleadas . Esta afirmación, expresada matemáticamente tiene la forma: P[n]~ 1 / x^a, donde P[n] representa la frecuencia de una palabra ordenada xésima y a es casi 1. Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, y el tercer elemento con una frecuencia de 1/3 y así sucesivamente.

35
paper corpusSignosTxtLongLines265 - : En síntesis, en el texto de 2ºM frente a 6 referencias explícitas a las posibilidades de negociación, hay 24 referencias explícitas de obligación y polaridad negativa que se inclinan por una orientación monoglósica en el discurso. Esta proporción es similar en el texto de 2ºS con 4 referencias a posibilidades de negociación de intra-vocalización y 16 ocurrencias de obligación y polaridad negativa. Esta alta frecuencia de uso de modalización de obligación (modulación) y de polaridad negativa por parte de los autores de ambos textos lleva a replantearse si estos recursos son efectivamente expresiones de heteroglosia de contracción dialógica como sostienen Martin y White (2005:111):

36
paper corpusSignosTxtLongLines267 - : El factor más básico que se puede proponer que influye en la frecuencia de aparición de evidenciales es la cantidad de intervenciones de estudiantes en los diálogos producidos durante las clases . En principio, esperaríamos encontrar una relación directa entre número de intervenciones y evidenciales. El [32]Gráfico 1 nos muestra cómo es esta relación.

37
paper corpusSignosTxtLongLines275 - : Además, se han caracterizado patrones fonológicos considerando los PSF en niños descendientes de puertorriqueños de 3 y 4 años, residentes en Estados Unidos, cuya lengua materna es el español. Centrándose en la cantidad de subprocesos utilizados, se encontró que en los dos grupos etarios la mayoría de ellos no superaba el 10% de frecuencia en relación al total de procesos producidos por los niños, es decir, existía una gran variabilidad en sus desempeños (Goldstein & Iglesias, 1996a ).

38
paper corpusSignosTxtLongLines277 - : Al parecer el Sujeto en castellano se inclina marcadamente a la expresión del significado textual. Pueden mencionarse tres ejemplos que se desarrollan más ampliamente en el inciso 3: (i) con frecuencia el Sujeto español es un recurso cohesivo muy importante (porque crea o cambia referencia ); (ii) resulta necesario a la hora de evitar ambigüedades en ciertas cláusulas potencialmente ambiguas, como 'Caminaba por el parque' (donde el verbo podría corresponder a la primera o a la tercera persona del singular); (iii) también es necesario o útil para ampliar el desarrollo temático por medio del vínculo entre el rema de una cláusula y el tema de la siguiente.

39
paper corpusSignosTxtLongLines278 - : Esta segunda Tabla, además de corroborar nuestra hipótesis inicial de la mayor frecuencia de aparición de los sintagmas anafóricos respecto de las expresiones pronominales, arroja más luz sobre el uso de mecanismos anafóricos en las sentencias analizadas y proporciona muchos más aspectos dignos de observar en el análisis cualitativo, especialmente si lo combinamos con el anterior y obtenemos una visión de conjunto del uso de mecanismos deícticos con valor anafórico en ambos corpus:

40
paper corpusSignosTxtLongLines278 - : No obstante, la frecuencia de aparición de los distintos mecanismos en ambos corpus es notablemente distinta. En la sentencia del 11M, los sintagmas anafóricos copan el 75% de las expresiones anafóricas empleadas, frente al 65% que representan estos sintagmas en las sentencias de la Audiencia Nacional. Pero además, si se observa con mayor detalle, el 10% de diferencia entre ambas sentencias no es tan significativo como las diferencias entre el tipo de sintagmas anafóricos empleados: en la sentencia del 11M solo los sintagmas ocupan el 62% de los sintagmas anafóricos empleados, mientras que en las sentencias de la A.N., todos los sintagmas anafóricos empleados presentan una frecuencia de aparición mucho más equitativa: 28,7% para , 21,2% para y 15,1% para .

41
paper corpusSignosTxtLongLines320 - : La noción de término en este caso está metodológicamente sesgada por razones de conveniencia práctica. Un término es simplemente una palabra o una secuencia de palabras con una frecuencia especialmente informativa, es decir, que el criterio no es estrictamente terminológico sino estadístico . La estrategia de extracción de términos consiste en asignar a una palabra o una secuencia de palabras un valor de ‘terminologicidad´ basado en su rareza. La rareza de un término está dada por una frecuencia de aparición relativamente alta en el corpus de especialidad (en este caso las actas de los congresos) y relativamente baja en un corpus de referencia del lenguaje general (en este caso prensa española). También por conveniencia práctica, el corpus no es sometido a ningún tipo de procesamiento, como lematización, etiquetado morfosintáctico o agrupación de constituyentes sintácticos. Esta simplificación obviamente se hace a expensas de un grado de error en la detección terminológica, pero el

42
paper corpusSignosTxtLongLines320 - : Desde el punto de vista terminólogico, la frecuencia de uso de los términos no es un criterio suficiente para decidir si a una unidad debería corresponderle una entrada en un diccionario especializado .

43
paper corpusSignosTxtLongLines320 - : La metodología para la extracción de arcaísmos (en el sentido técnico ya explicitado) y neologismos consiste en plantear una curva modelo de la frecuencia de unos y otros y a partir de entonces calcular la similitud que tienen con ellos las curvas de frecuencias de cada uno de los términos de la muestra. En el caso de los arcaísmos, utilizamos la Ecuación 5 para definir este arcaísmo ideal, función que es representada en la Figura 6. Para calcular la similitud que tienen cada uno de los términos con este arcaísmo ideal utilizamos la distancia euclideana. La Ecuación 7 define la distancia euclideana entre dos vectores X e Y. Para poder llevar a cabo esta comparación entre curvas previamente tenemos que normalizar los valores (Ecuación 8), es decir, llevar los términos de distinta frecuencia a la misma escala. La [46]Figura 7 muestra la curva de frecuencias de la forma ‘generativa´, que es una de las que muestra mayor similitud con el arcaísmo ideal, y la[47] Tabla 6 muestra las 20 formas co

44
paper corpusSignosTxtLongLines325 - : los apoyos co(n)textuales posee en el empleo discursivo de las UFS. Se presenta, por último, una tipología de las piezas que se ha detectado suelen funcionar con más frecuencia como apoyos co(n)textuales: expresiones que parafrasean el significado fraseológico de partida ; expresiones que focalizan un sema específico de dicho significado; unidades léxicas y fraseológicas sinónimas a la expresión ‘central’ con la que coaparecen; y unidades léxicas y fraseológicas antónimas a la UF ‘central’. La tipología se apoya en testimonios del corpus FRASESPAL obtenidos, principalmente, del Corpus de Referencia del Español Actual (CREA), con apoyo de algunas muestras extraídas de Internet.

45
paper corpusSignosTxtLongLines325 - : ^[56]11 Nos referemos aquí, por ejemplo, al empleo de los ya mencionados ‘marcadores’ o ‘presentadores fraseológicos’ (sección 2.2.); a los variados ‘comentarios metalingüísticos’ que a veces guían ‘reflexivamente’ la interpretación de las UFS (más abajo en (34)); o a los juegos de ‘desautomatización’ a que se ven sujetos con llamativa frecuencia los fraseologismos (35):

46
paper corpusSignosTxtLongLines327 - : Resumen: Este trabajo se sitúa desde la perspectiva de los Estudios Críticos del Discurso y describe las estrategias de legitimación del discurso (Martín Rojo & van Dijk, 1998) que se utilizaron con ocasión de la Acusación Constitucional en contra de la Ministra de Educación Yasna Provoste Campillay, efectuada el año 2008, por tres diputados acusadores de Derecha. Se describen los discursos de los tres diputados acusadores en un contexto de debate parlamentario a partir de las estrategias de legitimación como recursos lingüísticos y semánticos que aparecen en sus intervenciones. Los resultados señalan que la mayor frecuencia de uso de estrategias de legitimación se concentra en las de tipo semántico y, dentro de estas, la de mayor uso es la apelación a la legalidad y la normalidad y procedimientos legales . En cuanto a las de tipo general, la que más se utiliza es el empleo de formas lingüísticas como la adjetivación.

47
paper corpusSignosTxtLongLines327 - : En primer lugar, el total de estrategias identificadas es de 181 en un corpus de 78 intervenciones. La frecuencia de aparición de cada una de las estrategias de legitimación se muestra en el [29]Gráfico 1:

48
paper corpusSignosTxtLongLines327 - : En esta categoría, tal como se muestra en el [31]Gráfico 1, la frecuencia de aparición de las estrategias generales es la siguiente: forma lingüística 64, nosotros-ellos 12, presentación negativa del ‘otro’ y positiva del ‘nosotros’ 0 .

49
paper corpusSignosTxtLongLines328 - : Además del estatus informativo, los tópicos se definen en función de su posición dentro de la oración. Recordemos que, como mencionamos anteriormente, el objeto directo en posición inicial, tanto en la topicalización (sin pronombre correferencial) como en la dislocación (con pronombre correferencial), ocupa una posición pragmáticamente relevante. Givón (1976) señala que cualquier elemento puede aparecer como tópico sea cual sea su función en la frase. Sin embargo, no todos los elementos se emplean como tópicos con la misma frecuencia, pues existe la siguiente jerarquía:

50
paper corpusSignosTxtLongLines330 - : En cuanto al uso de los definidos, varios estudios sobre su naturaleza concluyen que no siempre se utilizan con la función descrita tradicionalmente, la de accesibilidad total de los referentes (Löbner, 1985; Fraurud, 1990; y para una revisión Recasens, Martí & Taulé, 2009). Desde esta perspectiva, se afirma que muchos de los artículos definidos en español están gramaticalizados. Es el caso de aquellos incluidos en expresiones de alta frecuencia o unidades de uso, cuyo núcleo nominal es un concepto funcional (como 'la prensa' o 'el correo' ) o bien relacional (como 'la esposa' o 'el tutor'), término que se define a partir de sus relaciones con otros objetos. Estos artículos definidos no aportan información semántica al concepto y suelen aparecer en las primeras menciones del referente. Los demás artículos definidos (no gramaticalizados) conservan el significado semántico de los núcleos nominales a los que determinan (como 'niño' o 'árbol'). A diferencia de los primeros, suelen aparecer solo

51
paper corpusSignosTxtLongLines331 - : En cuanto a la categoría de los estados, en primer lugar es importante apuntar que no se ha encontrado ningún caso de aparición de un verbo estativo con el adverbio lentamente. Por lo tanto, es una propiedad que comparten todos los miembros de la categoría. Asimismo, hemos observado que la categoría de los estados, analizada en conjunto, muestra los índices de frecuencia más bajos en seis grandes grupos de construcciones: las que implican sucesión de fases temporales (perífrasis progresiva y adverbio rápidamente ); contextos delimitados (, ); contextos puntuales (, ); habitualidad (); agentividad (); y pasado simple. Si nos centramos en estas construcciones, se pueden distinguir dos grandes patrones de uso dentro de la categoría de los estados.

52
paper corpusSignosTxtLongLines331 - : Por otro lado, encontramos un subconjunto de verbos que expresan sensaciones o pensamientos (conocer, creer, gustar) que presentan los índices de frecuencia más altos –en la distribución intracategorial– en cuatro de los contextos que los estados tienden a rechazar: , , pasado simple y . La cuestión más interesante es que en estos casos la interpretación final que se deriva de la combinación verbo estativo + construcción dinámica, no siempre es equivalente a la que se deriva del par verbo dinámico + construcción dinámica. Seguidamente veremos cuáles son estas diferencias.

53
paper corpusSignosTxtLongLines331 - : Hasta el momento, por lo tanto, hemos identificado dos grandes patrones de uso intracategorial de los estados. Ahora bien, en este punto hay que tener en cuenta que los estados no solo se pueden definir a partir de los contextos que más rechazan, sino también a partir de los contextos que más aceptan. En concreto, según datos del análisis intercategorial, la categoría de los estados muestra los índices de frecuencia más altos en dos construcciones: presente de indicativo y . Por lo tanto, es preciso comprobar si la distribución intracategorial observada hasta el momento se mantiene al analizar estos dos últimos contextos.

54
paper corpusSignosTxtLongLines331 - : A partir del análisis intercategorial, hemos comprobado que la categoría aspectual de los procesos es la que presenta los índices de frecuencia más altos con cuatro construcciones gramaticales: perífrasis progresiva, , adverbio lentamente y . Los procesos no presentan los índices de frecuencia más bajos en ninguna de las construcciones analizadas. Por lo tanto, el análisis se centra únicamente en los contextos de mayor aceptación. De entrada, no se han encontrado diferentes patrones de uso intracategorial con la construcción habitual. Por lo tanto, estos datos sugieren que la habitualidad no es una propiedad determinante de la organización interna de la categoría de los procesos. Contrariamente, si nos basamos en el resto de construcciones, se establecen diferentes patrones de uso intracategorial que nos permiten distinguir tres grandes tipos de verbos que expresan procesos.

55
paper corpusSignosTxtLongLines331 - : En cuanto a las realizaciones, según datos del análisis intercategorial, es la categoría que muestra los índices de frecuencia más altos en cinco construcciones: , , , lentamente y rápidamente .

56
paper corpusSignosTxtLongLines331 - : En segundo lugar, si nos atenemos a los ítems léxicos que presentan los índices de frecuencia más bajos en estos contextos, encontramos el siguiente subconjunto de verbos: decidir, solucionar, aparcar, fabricar, fundir y solidificar . En concreto, por un lado tenemos verbos que, si bien implican un proceso previo, focalizan la culminación de un evento (decidir, solucionar, aparcar) y, por otro lado, verbos que, si bien expresan una situación que implica un cambio de estado, focalizan el proceso gradual que lleva al cambio (fabricar, fundir, solidificar). Por lo tanto, los primeros serían más próximos a los logros y los segundos más próximos a los procesos.

57
paper corpusSignosTxtLongLines332 - : El [37]Gráfico 2 muestra que el par es el que presenta la correlación más baja de los 3 pares comparados, obteniendo un coeficiente equivalente a 0,7418. La capacidad discriminativa del clasificador dependerá de aquellos términos que aun cuando presenten altos valores de frecuencia local Tf[i,d] muestren a la vez una alta capacidad discriminativa, es decir, tengan valores bajos asociados a las variables cf[i] y n[i] .

58
paper corpusSignosTxtLongLines333 - : El tercer actor es nombrado como 'testigo', 'hombre joven' y 'cómplice involuntario'. Estas denominaciones suelen aparecer matizadas por caracterizaciones referentes a la nacionalidad ('argentino'), pero destacan su condición de 'pasivo', 'indiferente', 'mudo' y 'silencioso'. Calificaciones de las que se derivan otras como son: 'miedoso', 'cobarde' e 'incompasivo'. En cuanto a las acciones, prevalecen las que se marcan negativamente: 'no querer ver', 'no querer escuchar', 'no mirar a la agredida', 'no hacer nada'. Por otro lado, las que no tienen marcas de negación se relacionan igualmente con la indeferencia de la cual es acusado, con gran frecuencia, el testigo de la agresión en los textos: 'volver el rostro', 'mirar hacia otro lado', 'mirar al no espacio' y 'estar fuera del mundo' .

59
paper corpusSignosTxtLongLines338 - : Se puede inferir de estos estudios que en cualquier indagación de las frecuencias de un texto, se generan tres áreas: una pequeña zona de palabras de alta frecuencia, una zona de frecuencia media, y una gran zona de palabras de baja frecuencia . Sin embargo, los modelos lineales de estimación solo representan adecuadamente las palabras de la zona intermedia. Las posibles causas de esta desviación, según Gelbukh y Sidorov (2001), serían las diferencias gramaticales y la riqueza léxica que existen entre los diversos idiomas.

60
paper corpusSignosTxtLongLines338 - : A diferencia de otros trabajos consultados, en esta investigación no solo calculamos la frecuencia y porcentaje de los Hapax Legomena (1-Legomena), sino que extendimos esta noción también a las palabras que tienen una frecuencia igual a 2 (2-Legomena), a 3 (3-Legomena) y a 4 (4-Legomena). Para la contabilización de los tipos de Legomena (1, 2, 3 y 4), se calculó la frecuencia absoluta de los cuatro tipos de Legomena, junto con su porcentaje de ocurrencia respecto del total de types del corpus correspondiente, utilizando la siguiente fórmula:

61
paper corpusSignosTxtLongLines339 - : 4) Frecuencia: más del 90% de oraciones transitivas con frases nominales plenas en posición de sujeto y de objeto son de orden SVO (Padilla, 2001 ).

62
paper corpusSignosTxtLongLines340 - : El peso de cada uno de los errores se calcula tomando en cuenta la frecuencia de cada error en el estudio piloto con el fin de establecer qué errores corresponden al nivel B2. Los errores que presentaban una mayor frecuencia se estimaron como los que debían tener más peso, dado que un mayor número de errores implica una mayor dificultad . Así, cada uno de los ellos adquirió un valor diferente, con lo que la medición del nivel de proficiencia del estudiante se hace más preciso.

63
paper corpusSignosTxtLongLines350 - : Hay que advertir también sobre el peligro de ofrecer una cultura estereotipada. Con frecuencia los contenidos culturales abarcan solo lo superficial que Kramsch (1993) denomina las cuatro "efes": facts, food, folklore y festivals . Sin embargo, para interactuar adecuadamente en una lengua y cultura distintas de la nativa se necesita muchísimo más. Hay que evitar la visión estereotipada de la cultura y la descontextualización de los materiales didácticos.

64
paper corpusSignosTxtLongLines350 - : Gráfico 1. Resultados de frecuencia de P1: ¿Cómo saludarías a un compañero que te están presentando ?

65
paper corpusSignosTxtLongLines350 - : Gráfico 2. Resultados de frecuencia de P2:¿Cómo saludarías a una compañera que te están presentando ?

66
paper corpusSignosTxtLongLines350 - : Los resultados para la P4 (¿Cuántas flores regalarías a una compañera tuya para su cumpleaños?) fueron los siguientes por orden de frecuencia: tres (49,15%), una (33,90% ), dos (11,86%) y otro (5,08%). Las respuestas señalan que los alumnos búlgaros seguirían cumpliendo con su propia tradición de regalar un número impar de flores, ya que en su cultura el número par es solo para los difuntos. Además, suelen desconocer el hecho de que en España no hay restricciones respecto al número de flores. Llama la atención que los alumnos que han seleccionado "otro" como respuesta han señalado otro número, pero siempre impar, de flores.

67
paper corpusSignosTxtLongLines354 - : la categorización y análisis cualitativos posteriores de las alocuciones de los sujetos. La otra metodología usada con mucha frecuencia es el Error Detection Paradigm (Winograd & Johnston, 1982), basada en la inserción de inconsistencias en los textos para analizar si los estudiantes las detectan o no . Estos estudios permiten análisis cuantitativos de las acciones de los sujetos, es decir, de la habilidad de los sujetos de detectar el error y corregirlo.

68
paper corpusSignosTxtLongLines355 - : En E1 y E4 también se identifica un abuso del AT y poca variedad en la función retórica de las citas usadas en la investigación. Por el contrario, el informante E6, que tenía un bajo índice de citas tanto en número como en frecuencia, utiliza una mayor variedad en las funciones y de un modo más proporcionado (AT: 0,4 ; AP; 0,5; DE: 0,03; CO: 0,09; REF: 0,5; EJ: 0,03; EV: 0,2). Sin embargo, el uso de las funciones de citas más variado y proporcionado en el grupo E es el de E5 (AT: 0,7; AP: 1,5; DE: 0,5; COMP: 1,5; CO: 0,5; REF: 0,09; EJ: 0,4; EV: 0,05; EN: 2,1).

69
paper corpusSignosTxtLongLines356 - : b) Uso de b y v. En el [40]Cuadro 7, se observa que dentro del ‘criterio secuencial o posicional’, el problema más frecuente se da en secuencias típicas que se enseñan en las aulas, específicamente al usar ‘b’ en las siguientes combinaciones: ‘mb’, ‘bl’, ‘br’. Por ejemplo: *vivlioteca por ‘biblioteca’; *tamvien por ‘también’; *descuvrieron por ‘descubrieron. Otra secuencia que se presenta con cierta frecuencia es el caso de las palabras que comienzan con ‘bus-’ y ‘bue-’ como por ejemplo, *vueno por ‘bueno’, *vuscaba por ‘buscaba’ o *vuscando por ‘buscando’ .

70
paper corpusSignosTxtLongLines356 - : A modo de resumen, podemos señalar que la caracterización del desempeño ortográfico de los estudiantes considerados en la muestra evidencia, en general, avances entre los cursos. Esto se expresa en que la cantidad de palabras escritas correctamente aumenta en todos los niveles escolares analizados. Además, se constató que, en general, los errores disminuyen significativamente entre tercero básico y los otros niveles escolares (5° y 7°). Sin embargo, entre estos cursos, los errores no disminuyen, lo que mostraría un estancamiento en la adquisición de conocimientos ortográficos durante este período. Ello podría estar relacionado con la predominancia de otros contenidos en la enseñanza presentes en el currículum escolar. Por otra parte, el único problema que mantiene su frecuencia, sin que se observe una disminución en los tres cursos, es la carencia de tildes .

71
paper corpusSignosTxtLongLines36 - : b) Verbos declarativos: tienen la función de instaurar el discurso, valorar un episodio o precisar su carácter secundario. Ursula los utiliza con gran frecuencia: «( ...) unido esto con lo venidero que iré refiriendo» (p.95); «prosigo con los sueños» (p. 107); «diré lo que me pasó con una india que era mi maestra de labor» (p. 113); «tales eran mis habilidades, como a las que a vuestra paternidad referiré» (p.113); «voy prosiguiendo con mi anhelo de entrar en monasterio» (p. 127); «Diré a vuestra paternidad dónde llegó mi desvergüenza» (p.157); «Padre mío, esto no he dicho a ninguno de mis confesores: susedióme una Pascua...» (p. 235); «No quiero dejar en blanco lo que sucedió esta mañana...» (p. 242); «Referiré lo que pasó con el señor obispo» (p. 242); «Prosigo la historia...» (p. 259); «Referiré lo que me dijo en una ocasión Su Majestad» (p.263).

72
paper corpusSignosTxtLongLines362 - : Como se observa en el [40]Gráfico 1, en el corpus PRESEEA-SA, se registró una mayor frecuencia de DD correspondiente al 74,2% (813/1 .095), en comparación a la ocurrencia de DI que solo constituyó el 25,8% (282/1.095) del total de la muestra. Por lo que refiere a la frecuencia de empleo registrada por cada una de las variantes específicas de discurso referido, en el [41]Gráfico 2, se muestra la estadística correspondiente.

73
paper corpusSignosTxtLongLines362 - : Al correlacionar la frecuencia de empleo del discurso referido con las variables sociodemográficas de los sujetos bajo estudio, observamos que: a ) hubo una frecuencia similar de empleo de las variantes generales de discurso referido según el sexo de los informantes, aunque se registró un mayor porcentaje de aparición en las mujeres con un 40,8% de DD y un 14,6% de DI, frente al 33,5% de DD y el 11,1% de DI en los hombres; b) en relación con el grupo de edad, el DD se manifiesta con porcentajes similares en el primer y tercer grupo etario (25,8% y 27,1%, respectivamente), mientras que en el segundo grupo de edad la frecuencia de DD baja, aunque no de manera ostensible (21%); el empleo de DI, por su parte, disminuye conforme avanza la edad de los sujetos: 11% (20-34 años), 9,6 (35-54 años) y 5,5 (55 años y más), posiblemente, debido a la mayor complejidad sintáctica que implica el empleo del DI, lo que determina que a medida que avanza la edad de los sujetos de la muestra se lo emplea en

74
paper corpusSignosTxtLongLines362 - : menor medida; por último, c) con respecto al nivel educacional de los informantes, concluimos que el DD presenta una mayor frecuencia en el nivel medio (31,8%) y disminuye en los niveles bajo (23%) y alto (19,5%), mientras que el empleo del DI se manifiesta de manera más o menos constante en los tres niveles educacionales: 7,9% (bajo ), 7,8% (medio) y 10% (alto).

75
paper corpusSignosTxtLongLines365 - : [57]11 Este tipo de verbos ofrece mayor variedad y frecuencia en otros géneros textuales o estilos periodísticos: relato, géneros interpretativos, prensa sensacionalista o deportiva, etc . Tienen connotaciones valorativas evidentes hacia sus sujetos, de carácter generalmente negativo y desautorizador.

76
paper corpusSignosTxtLongLines366 - : Por otro lado, la existencia de diferentes corrientes o escuelas de pensamiento en el interior de una misma disciplina se menciona en la bibliografía como causa de variación conceptual y denominativa. Tebé (2005: 73) apunta que la segmentación de la realidad en ámbitos puede variar a causa de la "existencia de puntos de vista diferentes según escuelas o corrientes de pensamiento". Bowker (1997) sugiere que la multidimensionalidad de la clasificación conceptual puede estar originada por la presencia de diferentes escuelas de pensamiento; Bowker y Hawkins (2006) comentan que para denominar las enfermedades en medicina diferentes escuelas seleccionan aspectos diferentes de la enfermedad; y Freixa (2002) también observa que con frecuencia cada escuela emplea sus propias denominaciones para referirse a conceptos idénticos o muy próximos, en algunos casos por diferencias de conceptualización, y en otros, por voluntad de diferenciarse de otras escuelas:

77
paper corpusSignosTxtLongLines366 - : e) Frecuencia y distribución homogénea en los textos: Se priorizaron los conceptos con una frecuencia de aparición elevada, y una distribución homogénea en los subcorpus de biología, derecho y economía (frecuencia media de 85 ocurrencias/ concepto ).

78
paper corpusSignosTxtLongLines375 - : (iii) Selección. Se elabora automáticamente el inventario de conceptos básicos tras el procesamiento (i.e. tokenización y lematización, principalmente) de las descripciones semánticas que se asignaron en la fase (ii). Más concretamente, el criterio de pertenencia al nivel conceptual básico se basa en el índice de frecuencia de las palabras constituyentes de los textos definitorios, una vez que éstos han sido desprovistos de sus palabras funcionales (i .e. artículos, preposiciones, etc.).

79
paper corpusSignosTxtLongLines375 - : (ii) Calculamos la frecuencia inversa del documento (idf), implementada como:

80
paper corpusSignosTxtLongLines378 - : Los resultados encontrados, según el corpus de procedencia y su frecuencia de uso, han sido los siguientes:

81
paper corpusSignosTxtLongLines379 - : * [DE2-5]: Dicha productividad (meta/portador) no (adjunto modal de polaridad negativa) puede buscarse (finito modal de habilidad media/proceso material, actor impersonal) exclusivamente (adjunto modal de frecuencia alta) en los "organizados", los "conscientes" o los políticamente activos (circunstancias de localización espacial), /como resulta (proceso relacional atributivo) usual (usualmente: adjunto modal de frecuencia media/atributo) en visiones sobreideologizadas de la juventud (circunstancia de localización espacial), ni (no: adjunto modal de polaridad negativa ) tampoco [se puede] sobrevalorar (finito modal de habilidad media/proceso mental, perceptor impersonal) la eficacia ideológica de este sujeto parcial, aislado del contexto nacional (fenómeno).

82
paper corpusSignosTxtLongLines383 - : ividad lingüística. Una de las acepciones más recurrentes de la subjetividad es la que alude a la ‘connotación’, como oposición a la objetividad, que sería ‘denotativa’, y es la que con mayor frecuencia ha caracterizado de forma constante a la lengua oral y al denominado ‘lenguaje coloquial’, y es la que predomina, al menos, en los estudios de lingüística hispánica (Criado de Val, 1973 ; Narbona, 1991; Vigara Tauste, 2005; Hernando Cuadrado; 1988, entre otros). A esta caracterización se añade, normalmente, la de la pobreza, simplicidad, desorden y redundancia del denominado ‘lenguaje coloquial’ (Hidalgo Navarro & Pérez Giménez, 2004).

83
paper corpusSignosTxtLongLines383 - : En los textos de los medios de comunicación del corpus, este pronombre obtiene también una frecuencia muy elevada, aunque en este caso ligeramente inferior a ‘nosotros’, y esto es debido a que en estos textos, este pronombre es el más frecuente, como se puede comprobar en la siguiente tabla ([30]Tabla 3 ), donde queda claro que la primera persona del plural es más frecuente que la del singular en este tipo de texto.

84
paper corpusSignosTxtLongLines383 - : Tanto en los porcentajes como en las frecuencias absolutas, queda reflejado que la posición preverbal de ‘yo’ coaparece con aquellos textos más relacionados con la modalidad discursiva argumentativa (informativos-debates y tertulias), en las cuales el hablante establece su opinión o punto de vista a partir de la representación de su propia persona . Hay que destacar la elevada frecuencia del sujeto en los programas estrictamente informativos. Esto es debido a que en estas emisiones se producen frecuentes intervenciones de personas ajenas al programa que dan su opinión o parecer sobre alguna cuestión de actualidad. Aun así, las frecuencias absolutas muestran que en general la presencia de sujetos de primera persona es mucho menor que en otros géneros.

85
paper corpusSignosTxtLongLines384 - : Antes de comenzar el proceso de clasificación, una serie de procesos de ‘limpieza’ son aplicados a las representaciones G y h. Esta limpieza se traduce en el colapso de ciertos nodos, antes distintos, en uno solo. Una aproximación similar a la planteada por Choudhary y Bhattacharyya (2003) pero más tolerante a la diversidad de términos. El primero de estos procesos es llevar distintas variantes de una misma palabra a su raíz, esto para reducir la variabilidad del lenguaje producto de, por ejemplo, la conjugación verbal. Para realizar lo anterior, se utilizó el corpus de la Real Academia de la Lengua Española (2013), compuesto por más de 7 mil palabras junto a su frecuencia de uso. En primer lugar, este corpus se dividió en dos partes de acuerdo a la frecuencia: palabras muy utilizadas y menos utilizadas . El primer grupo, compuesto por cerca de 50 palabras, se les consideró inútiles para la clasificación de sentimiento, debido a su gran frecuencia de aparición. Se excluyeron de esta lista

86
paper corpusSignosTxtLongLines391 - : A la vista de estos resultados, a continuación se trató de clarificar si los patrones de distribución pudieran ser sensibles a la variable ‘género textual. Para ello, se segregaron los datos de frecuencia detectados en los textos normativos (considerando de forma independiente los correspondientes a códigos, leyes generales y leyes autonómicas) y en los de los textos académicos (considerando de forma independiente los correspondientes a los artículos doctrinales, manuales universitarios y monografías ). Dichos datos fueron sometidos a las pruebas de correlación y de regresión previstas en el diseño del estudio. Tal y como se puede apreciar en las columnas tercera y quinta de la [42]Tabla 4, dichas pruebas arrojaron resultados significativos para prácticamente todos los grupos de marcadores. Por lo tanto, cabe deducir que las diferencias detectadas en las frecuencias de uso de los marcadores parecen responder a patrones de variación sistemáticos, y que, en definitiva, permiten postular que

87
paper corpusSignosTxtLongLines394 - : La obtención de estos datos se ha basado en la discriminación manual entre una unidad y otra de cada resumen, tarea que no siempre ha sido fácil, debido al solapamiento de unas con otras. En otras palabras, se ha buscado diferenciar la intención comunicativa del autor mediante el uso de estrategias retóricas determinadas. En los resúmenes analizados, hay claros ejemplos de cada una de ellas. Por ejemplo, en ‘Antecedentes’ con frecuencia se hace referencia a la bibliografía previa con el uso del pretérito perfecto compuesto (nuestro subrayado), como en el siguiente ejemplo (1):

88
paper corpusSignosTxtLongLines4 - : Celaya es un poeta fecundo, que sigue fielmente su concepción teórica de la poesía como arma de combate que ha de llegar a la mayoría, hablar liso y llano y negarse a ciertos temas; poeta difuso o poco concentrado se pierde en palabras, pues parece incapaz de reunir su emoción en unos pocos cuantos versos. Algunos de sus poemas ofrecen una contemplación constatadora, una consideración a veces un tanto humorística, irónica, en la que frecuentemente el sujeto paciente de la broma o burla es el propio poeta; también en determinadas ocasiones logra emocionarse y emocionar, pero la faceta más considerable en número y frecuencia dentro de su abundante producción es la de poeta social, en la que puede señalarse la existencia de tonos varios, porque se pasa de una radicalización tajante, de una muy clara politización a otra poesía, también social, acaso más puramente social, en la que lo que se canta es el esfuerzo del hombre o su condición de ser inerme y sufrido, o se contempla amorosamente a l

89
paper corpusSignosTxtLongLines402 - : Un argumento que podría explicar que el inglés aparezca con más frecuencia en las ocupaciones de rango alto es la posible asociación de la función ofertada al prestigio social del inglés y la función del inglés como lengua franca en, por ejemplo, áreas de actividad humana como el comercio internacional, las finanza y la enseñanza terciaria (Harmann, 1989 ; Takahashi, 1990; Gerritsen et al., 2000). Los resultados obtenidos en nuestro análisis apoyarían esta explicación dado que las 23 ofertas escritas íntegramente en inglés, anunciaban, todas ellas, vacantes de rango alto de empresas internacionales y multinacionales. Por otro lado, las ofertas vacantes para cubrir cargos o funciones altas redactadas exclusivamente en inglés, estarían dirigidas a un grupo objetivo con un perfil profesional muy determinado que por lo menos incluya un nivel alto de educación y un muy buen dominio del inglés como lengua extranjera (Piller, 2003). Además, y para las ofertas de empleo redactadas exclusivamente e

90
paper corpusSignosTxtLongLines405 - : Si centráramos nuestra atención exclusivamente en los datos que remiten al juego infantil veríamos que la frecuencia de la palabra ‘rayuela’, para estos últimos 200 años considerados en el CORDE, es regular, lo que nos permitiría concluir, desde una perspectiva cuantitativa, que ‘rayuela’ es una palabra de uso estable en la lengua, información que se corrobora cualitativamente en el Diccionario de la Real Academia Española (en sus diferentes ediciones ), al observar que el lema ‘rayuela’ nunca ha tenido alguna marca cronológica de obsolescencia o neologicidad^[28]4.

91
paper corpusSignosTxtLongLines405 - : No obstante esta generalidad, existe, desde el punto de vista cuantitativo, un momento histórico en el corpus en que la frecuencia de la palabra sale de una tendencia regular: el año 1963, en el que dicha unidad léxica aparece 36 veces o el 41% del total de ocurrencias registradas en el CORDE entre los años 1817 y 1971, 36 ocurrencias que remiten a un autor y a un mismo documento: Julio Cortázar y su conocidísima novela Rayuela . Este ejemplo ilustra por qué se desaconseja este método de cuantificación para este corpus y otros en general. El problema que subyace a un análisis como este es que la temática o el estilo de ciertos autores podrían condicionar la aparición de algunas formas lingüísticas o giros y la ausencia de otros. Por tanto, se corre el riesgo de que las conclusiones que se pudieran derivar de un análisis similar describan un comportamiento del fenómeno estudiado ajeno a la realidad de la lengua.

92
paper corpusSignosTxtLongLines405 - : Una alternativa que subsana las limitaciones de un análisis como este, es calcular la ‘frecuencia relativa’, método descrito por Muller (1973) y generalmente aceptado para el tratamiento de los datos de corpus lingüísticos de gran tamaño. La frecuencia relativa de un fenómeno lingüístico ( f[i]) se obtiene calculando el cociente de la frecuencia absoluta de este hecho en la muestra (n[i]) y el tamaño de esta (N), procedimiento que permite reasignarle a un número de ocurrencias un valor en relación con el tamaño de la partición o del mismo corpus. La fórmula utilizada para calcular la frecuencia relativa es la siguiente:

93
paper corpusSignosTxtLongLines405 - : Como se verá, calcular la frecuencia relativa de las palabras, para el caso del CORDE y el CREA, no es un método conveniente, ya que esta alternativa de normalización de frecuencias funciona parcialmente para la palabra ‘país’, pero no resuelve el caso de ‘rayuela’, en el que la temática y la extensión de la novela de Julio Cortázar siguen sesgando los resultados en el decenio representado . En el Gráfico 2 se representan ambas frecuencias relativas de aparición de ambas formas léxicas en el CORDE para el decenio analizado y se puede dar cuenta de esto.

94
paper corpusSignosTxtLongLines405 - : Otra alternativa de normalización a la ‘frecuencia relativa’ y la ‘normalización de frecuencias por millón de palabras’ es el ‘índice normalizado de dispersión’ (Ham, 1979 ), aplicado a la normalización de frecuencias del Corpus del Español Mexicano Contemporáneo (CEMC). Este ofrece una medida que da cuenta de la frecuencia de un vocablo, su dispersión entre géneros y el tamaño relativo de cada uno de ellos. Se calcula a partir de la ‘frecuencia corregida’ (Korrigierte Frequenz (KF)), propuesta original de Jan Lanke, según reporta Ham (1979), que sirve para subsanar diferencias ocasionadas por ponderaciones de ciertos tipos documentales frente a otros, dentro de un corpus. El ‘índice normalizado de dispersión’ (C[i]) considera el tamaño relativo del género en el que aparece el vocablo (r[j]) y un índice de dispersión de este entre géneros (S[i]). La fórmula descrita por Ham (1979) es la siguiente:

95
paper corpusSignosTxtLongLines405 - : En dónde la dispersión entre géneros (S[i]) es el resultado del cociente de la ‘frecuencia corregida’ (KF[i]) y la frecuencia del vocablo (T[i]):

96
paper corpusSignosTxtLongLines405 - : Como se puede apreciar en el Gráfico 3, centrar un análisis en la frecuencia de aparición por documentos permite ver el fenómeno desde otra perspectiva: la que explicaría que ‘rayuela’, el juego infantil, se usa regularmente desde principios del siglo XIX sin aumentos o decrementos en su frecuencia . Hecho que aquí se representa gráficamente, pero que se puede corroborar desde la quinta edición del Diccionario de la lengua castellana (1803) y subsecuentes, en las que esta unidad léxica aparece con el significado de juego infantil, uso que se mantiene, incluso, hasta la edición más reciente del diccionario (DRAE, 22ª ed.).

97
paper corpusSignosTxtLongLines405 - : A partir de esta representación y del método que la antecede, se puede concluir fácilmente que ‘agora’ es una forma usual en el español desde el siglo XIII hasta el XVII, época en la que se observa una caída en su uso. En el periodo comprendido entre los siglos XVII y XX se observa un decremento de su frecuencia que no implica el desuso total de la forma, ya que este arcaísmo léxico es, a su vez, un cultismo de uso frecuente en la literatura . Hecho que se concluye a partir de la revisión del artículo lexicográfico correspondiente a esta forma léxica incluida en la 22ª edición del DRAE, en la que se señala que es una forma de uso exclusiva de la poesía y se le asigna la marca estilística: ‘poét.’. Por su parte, la frecuencia de ‘ahora’ se incrementa hasta que, a partir del s. XVII, su frecuencia de uso parece más estable.

98
paper corpusSignosTxtLongLines411 - : Varias son las características que resumirían la frecuencia en nuestros corpus de esta subclase de marcadores en el discurso: la primera incide en la escasa aparición de algunas de las unidades habituales en las listas de ordenadores (‘ante todo, antes que nada’, el uso del sinónimo ‘término’ por ‘lugar’ en la serie ordenadora ‘en segundo/tercer lugar/término’ ); la segunda se refiere a la ausencia de series correlativas de ordenadores en ‘los corpus orales’: estos inician una organización de su discurso con marcadores de apertura, tales como ‘primero’, o ‘por una parte’, pero después no continúan la serie (salvo algún caso aislado de ‘por otra parte/lado’). La falta de planificación del discurso oral, sobre todo de la conversación coloquial, podría ser una de las razones achacables a esta ausencia, pues sí es significativa la aparición de marcadores de cierre (sobre todo ‘al final’ y ‘en fin’), lo que revelaría una conciencia por parte del hablante de m

99
paper corpusSignosTxtLongLines411 - : Y ‘al final’ aparece más frecuentemente en los corpus orales que en el escrito, con una mayor frecuencia relativa en el CHCS^[41]19:

100
paper corpusSignosTxtLongLines411 - : Y el marcador ‘en fin’ aparece también con una frecuencia absoluta alta en el corpus coloquial:

101
paper corpusSignosTxtLongLines411 - : 15 De estos marcadores, ‘claro’ solo llega al 73,54% de suma de frecuencias relativas en los dos corpus conversacionales, pero ya es una cifra alta de frecuencia .

102
paper corpusSignosTxtLongLines411 - : 19 Si sumamos las frecuencias relativas de ‘al final’ en el CHCS y en el corpus escrito tenemos que el resultado dobla a la de Val.Es.Co. Ya el DPDE indicaba la mayor presencia de este ordenador en el registro formal de la lengua (Briz et al., 2008 s.v. ‘al final’), sin embargo no debemos desdeñar su frecuencia absoluta en el corpus coloquial consultado, ya que es la más alta de los ordenadores usados en él .

103
paper corpusSignosTxtLongLines415 - : El funcionamiento del corrector es sencillo: contrasta las combinaciones de palabras utilizadas en el texto con los datos de esas mismas palabras obtenidos en el corpus de textos y, dependiendo del resultado del algoritmo, nos avisa de si los bigramas son poco o nada frecuentes (y deberían serlo más, dada la frecuencia de las palabras que los forman), lo cual puede ser un indicio de que contienen un error. Para evaluar la eficacia del algoritmo, hemos recopilado textos escritos por hablantes nativos que incluyen errores que encontramos con cierta frecuencia –muchos de ellos están recogidos en la sección de ‘preguntas frecuentes’ de la página web de la Real Academia Española ([25]http://www .rae.es/consultas-linguisticas/preguntas-frecuentes)–. En general, las palabras usadas erróneamente existen en español y son correctas en otros contextos –de ahí la dificultad de detectar sus usos incorrectos o, en muchos casos, impropios–.

104
paper corpusSignosTxtLongLines415 - : El algoritmo que se utiliza aquí para detectar errores no es nuevo (véase Sinclair, 1991). Por un lado, se analiza la frecuencia en el corpus de cada una de las palabras utilizadas en el texto y, por otra parte, de cada bigrama. Además se calcula el número de veces que cada combinación de dos palabras aparecería en el corpus si estas se dieran de manera aleatoria; es decir, se estima la probabilidad del par teniendo en cuenta la frecuencia de cada una de las dos palabras, por separado, en el corpus, tal y como refleja la fórmula siguiente, donde P es la probabilidad ;(a) y (b) representan, respectivamente, a la palabra 1 y a la palabra 2; T es el número total de palabras que componen el corpus (cien millones) y F, la frecuencia. Conviene tener en cuenta que, como veremos a continuación, la escala de la probabilidad empleada no es la de 0 a 1.

105
paper corpusSignosTxtLongLines415 - : En la primera columna de la Tabla 1, aparece reflejada la frecuencia del par; así, por ejemplo, la combinación ‘intención’ de se registra 5.176 veces en este corpus. Después, en las dos columnas siguientes, tenemos la frecuencia de cada una de las dos palabras por separado: ‘intención’ se usa en el corpus más de nueve mil veces (9 .245) y ‘de’, más de cinco millones (5012014); o lo que es lo mismo, una de cada 10817 palabras del corpus (100000000/9245 = 10817) es el sustantivo ‘intención’ y una de cada 20, la preposición ‘de’ (100000000/5012014 = 20). La cuarta columna incluye la probabilidad de que esta combinación de palabras, teniendo en cuenta la frecuencia de cada una de ellas por separado (10817*20 = 215815), si todas las palabras apareciesen al azar en el corpus (recuérdese aquí lo que decía Sinclair, 1991: 79): ‘intención de’ se registraría 463.36 veces en el banco de cien millones de palabras (100000000/215815 = 463.36). Sin embargo, en el corpus encontramos el

106
paper corpusSignosTxtLongLines415 - : La frecuencia de los pares, como vemos en los datos anteriores, no supera los dos casos, y en tres de ellos es cero, al igual que el umbral. Si tenemos en cuenta que no se trata de tecnicismos, la baja frecuencia es un claro indicativo de que la combinación es incorrecta . En el caso del último par (‘ó cinco’) al aparecer dos veces en el corpus y ser la probabilidad muy baja (0.12), el umbral es superior a cero; si bien, gracias a las cifras del par anterior (‘cuatro ó’) no será difícil detectar el error. Como hemos dicho antes, la conjunción ‘o’ nunca ha llevado tilde en ese contexto (entre dos cifras escritas con letra); por lo que podemos concluir que esos 530 casos registrados en el corpus son errores.

107
paper corpusSignosTxtLongLines415 - : En el análisis observamos la baja frecuencia de este par: ‘buen conejo’ no se registra en el corpus (la probabilidad de aparición del par es 0 .27 y el umbral, cero); un primer indicio de error. Si bien la combinación ‘buen conejo’ será correcta en determinados contextos, el hecho de que no esté registrada en el corpus es lo que ayuda a descubrir que se ha producido una confusión entre dos palabras. Ni el corrector de Microsoft Word, ni Stilus® ni SpanishChecker® la identifican.

108
paper corpusSignosTxtLongLines415 - : El hecho de que la probabilidad de que estas combinaciones se den en español sea mayor que la frecuencia real de las mismas es lo que nos hace sospechar que no son correctas, y este es el dato que nos proporciona el algoritmo que emplea CorrectMe . Por otro lado, en la propuesta de Nazar y Renau (2012), en la que se utiliza como base de datos el corpus Google Books N-gram, se registran todas las combinaciones de palabras cuya frecuencia es igual o mayor de 40 y su objetivo es “detect any sequence of words that cannot be found in the n-gram data base” (Nazar & Renau, 2012: 28). En este corpus de Gooble Books, aparecen las secuencias de (15-20) –es decir: ‘y dialogo’, ‘primeros tiene’, ‘tienen porque’, ‘de social’, ‘se platean’ y ‘las mimas’–, con lo cual no serían susceptibles de ser detectados los errores, y no sería de gran utilidad para la lectura y corrección de pruebas. En este sentido, creemos que el empleo del algoritmo propuesto aquí supone un avance en la

109
paper corpusSignosTxtLongLines415 - : El punto débil de los correctores gramaticales basados en el análisis estadístico de la frecuencia de las palabras del texto es que, como vimos en el apartado 4, solo identifican errores que puedan ser inferidos analizando información procedente de las combinaciones de palabras adyacentes –lo cual nos puede llevar a pensar que hay fallos donde en realidad no los hay (falsos positivos) o a no detectar otros que sí lo son (falsos negativos)–, como bien resume Chen (2009), tras su análisis de varios correctores de inglés:

110
paper corpusSignosTxtLongLines419 - : Con frecuencia, la organización discursiva de la movida 2 Evolución del Caso no corresponde a la descripción de un objeto estático . Jenicek (2001) ya había advertido este dinamismo en el género Caso Clínico, dinamismo que se observa en la recursividad de los pasos que configuran esta movida.

111
paper corpusSignosTxtLongLines427 - : Lo señalado anteriormente es posible corroborarlo con una cuantificación simple de la frecuencia de ocurrencia de las movidas, el Grafico 1 expone algunos resultados de este tipo de análisis:

112
paper corpusSignosTxtLongLines434 - : En síntesis, una lengua como el español permite por su gramática la movilidad posicional, una movilidad que no parece realizarse efectivamente con la misma frecuencia en el hablar. La pregunta que entonces puede plantearse es si esta frecuencia tiene una correspondencia con costes de procesamiento cognitivos dados, esto es, si a una posición no marcada y frecuente, le corresponden menores costes de procesamiento que a una posición marcada y menos frecuente, y viceversa, si a una posición marcada (como (20 ) y (21)) y menos frecuente, le corresponden mayores costes de procesamiento que a una posición no marcada y más frecuente (como (19)).

113
paper corpusSignosTxtLongLines443 - : Otro tipo de segmentaciones con muy baja frecuencia de aparición corresponde a cortes del morfema de número (HIPER PLURAL ) como (26) hermano s (hermanos) De un total de cuatro secuencias, tres fenómenos se observan en casos de cuarto grado (6°, 8° y 10° decil) y uno en segundo grado (6° decil).

114
paper corpusSignosTxtLongLines444 - : Como era esperable, los directivos que presentan mayor frecuencia son prescriptivos: recomendaciones de acciones concretas o de procesos cognitivos para ser realizados por los destinatarios con el fin de modificar un estado de cosas que es valorado como negativo (ver sección 3 .3.1). En cuanto a los directivos metadiscursivos, que destacan información relevante en el texto, mostraremos en la sección 3.3.2 que estos, desde el punto de vista de la jerarquía ilocutiva, desempeñan una función de apoyo de una ilocución asertiva dominante. Cabe señalar que los directivos prescriptivos, además de presentar mayor frecuencia, muestran una amplia variedad de formas léxico-gramaticales e incluyen formas implícitas, como las cláusulas condicionales que detallan los beneficios de realizar la acción propuesta. Los directivos prescriptivos presentan mayor frecuencia en la revista Pediatría, cuyos editoriales, en su mayoría, dan una opinión crítica acerca de un estado de cosas. En la sección 3.3.3 nos

115
paper corpusSignosTxtLongLines448 - : tas realizadas a hablantes santiaguinos. En términos específicos, los objetivos de nuestro trabajo son: a) identificar los marcadores que cumplen la función de reformulación explicativa en la muestra, b) determinar su frecuencia de empleo y c) correlacionar dichas frecuencias con las variables sociodemográficas: sexo, edad y grupo socioeconómico de los informantes . Por otro lado, las hipótesis que someteremos a comprobación en este trabajo son: a) si bien existe un paradigma amplio de marcadores explicativos, ‘o sea’ es el que se emplea de modo preponderante y b) los factores sociodemográficos de los sujetos inciden de manera irregular en el empleo de los reformuladores de explicación.

116
paper corpusSignosTxtLongLines448 - : trabajo seguimos las sugerencias e indicaciones de Moreno Fernández (1990), López Morales (1994) y Hernández Campoy y Almeida (2005). El análisis estadístico atendió a dos niveles de observación: a) en términos descriptivos, según las frecuencias absolutas y los porcentajes de frecuencia de cada rectificador y b) en términos interpretativos o inferenciales, con base en la comparación entre las medias o tendencias centrales de los marcadores más frecuentes, esto es, de aquellos con más de 25 ocurrencias . El paquete estadístico al que hemos recurrido para la estadística inferencial es el SPSS (Statistical Package for the Social Sciences), versión 15.0 para Windows, específicamente, la prueba Análisis de varianza ANOVA. En atención a que la distribución de los datos, en algunos casos, pudiera ser anormal, se complementará dicho análisis con su análogo de tipo no paramétrico, esto es, Anova de Kruskal Wallis. En ambos casos, el grado de significación se definirá en el 5%, según el cua

117
paper corpusSignosTxtLongLines448 - : En esta sección, se exponen los resultados de nuestro estudio con respecto a la relación de la frecuencia de empleo de los marcadores de reformulación explicativa con las tres variables extralingüísticas consideradas en el análisis: sexo, edad y grupo socioeconómico de los sujetos de la muestra . Como ya indicamos, las pruebas de estadística inferencial se aplicarán a los marcadores con 25 o más ocurrencias, esto es, ‘o sea’, ‘onda’ y ‘digamos’ con función explicativa.

118
paper corpusSignosTxtLongLines448 - : Los resultados de la varianza de las medias de la frecuencia de empleo de ‘o sea’ como reformulador explicativo, de acuerdo con la edad de los sujetos son: 20-34 (20,400 ), 35-54 (19,225) y 55 y más (15,800). Debido a que F= 0,755, p= 0,472, estas diferencias no son significativas. La prueba no paramétrica de Kruskal-Wallis señala como rangos promedios: 20-34 (66,90), 35-54 (63,05) y 55 y más (51,55), además de confirmar la falta de significatividad estadística de estos resultados (Chi-cuadrado= 4,223, p= 0,121). Por otra parte, en relación con ‘onda’ como reformulador explicativo ([33]Gráfico 2)[34]^[6], la prueba ANOVA proporciona las medias siguientes para los grupos etarios de la muestra: 20-34 (1,275), 35-54 (0,075) y 55 y más (0,025). Al mismo tiempo, se indica que estas diferencias son significativas estadísticamente, ya que F= 8,146, p= 0,000.

119
paper corpusSignosTxtLongLines45 - : De las cifras anteriores se desprende que la relación entre letra y leer es muy frecuente (61%). Puesto que escribir también está asociado a las letras, en muchos de los comentarios de estos niños (26%) ambas actividades aparecen confundidas, o fuertemente asociadas. Así, es posible observar con frecuencia comentarios como éstos:

120
paper corpusSignosTxtLongLines456 - : La [256]Tabla 2 muestra, en orden descendente de frecuencia de uso declarada, los datos de la puntuación media obtenida por cada una de las 50 estrategias del SILL (la media correspondiente a cada estrategia puede variar en un rango de 1 a 5 ).

121
paper corpusSignosTxtLongLines456 - : Como se puede apreciar en la [264]Tabla 4, los resultados de las pruebas ANOVA revelaron que existe una diferencia estadísticamente significativa entre los grupos de distinto nivel de competencia en cuanto al uso global de estrategias y al uso del conjunto de los grupos de estrategias (a excepción del grupo de estrategias afectivas). Como demuestra el estadístico descriptivo de la media, en relación al conjunto de las variables dependientes, la frecuencia de uso declarado de las estrategias incrementa cuanto más alto es el nivel de competencia de los participantes . La prueba post hoc de Scheffé indicó que, en lo relativo a las estrategias metacognitivas, las que entrañan interacción social, las relativas a las de producción y a las de obtención de exposición lingüística destacaban en este sentido, y en cuanto al conjunto de las estrategias del SILL completo y parcial, los aprendientes de un nivel de competencia avanzado manifiestan utilizarlas significativamente más a menudo que los de

122
paper corpusSignosTxtLongLines457 - : Un análisis detallado de estos enunciados nos permitió agrupar las dificultades en tres categorías (de mayor a menor frecuencia):

123
paper corpusSignosTxtLongLines468 - : Los verbos de los 12 tripletes se equipararon en frecuencia y longitud media a través de la herramienta NIM (^[68]Guasch, Boada, Ferré & Sánchez-Casas, 2013), a fin de prevenir posibles diferencias en los tiempos de lectura atribuibles a estos factores. Esta herramienta, (que se puede descargar de la red en http://psico.fcep.urv.es/utilitats/nim/index_esp.php) fue desarrollada por investigadores de la Universitat Rovira i Virgili de Tarragona. Se trata de un buscador de estímulos experimentales diseñado para obtener diversos tipos de información sobre el léxico de tres lenguas (español, catalán e inglés). En el caso del español, se basa en el corpus LEXESP (^[69]Sebastián-Gallés, Martí, Carreiras & Cuetos, 2000). En la [70]Tabla 3 se exponen los valores de frecuencia y longitud de las dos categorías de verbos empleados en el estudio, así como sus respectivos promedios^[71]^4:

124
paper corpusSignosTxtLongLines468 - : ^4Hemos utilizado el valor de los tokens (sobre los lemas) porque el efecto de frecuencia opera sobre el elemento que se debe leer, esto es, el verbo conjugado . De todos modos, siguiendo la sugerencia de un revisor, se realizó una búsqueda de los lemas en la página Espal (http://www.bcbl.eu/databases/espal/), comprobando que la frecuencia de los lemas también está equilibrada, en promedio, entre los dos grupos de verbos: de los 12 pares empleados, 6 están equilibrados; de los 6 pares restantes, no equilibrados en frecuencia de lemas, el miembro alternante es más frecuente en tres de ellos y el no alternante en los otros 3.

125
paper corpusSignosTxtLongLines470 - : No obstante, si nos fijamos en detalle en las anáforas nominales que se utilizan, vemos que las formas que incorporan elementos atributivos (repeticiones extendidas), están ya presentes en los estudiantes más jóvenes. Las fluctuaciones que se observan en ESO2 y ESO4 podrían explicarse por la frecuencia con la que se usan en esos grupos las formas pronominales, las retomas con determinante y los adverbios, siendo, habitual encontrar este tipo de cadenas: ‘Una casa vieja, sucia y terrorífica’ ( ‘dentro de la casa’ ( ‘de esa casa’ . Esas retomas no tienen como función únicamente hacer referencia a algo ya mencionado, sino que sirven para construir la escena de misterio.

126
paper corpusSignosTxtLongLines471 - : adquisición o criterios de evaluación (^[43]Capel, 2010). Dependiendo del propósito, las referencias para asignar niveles serán distintas. Así, el English Vocabulary Profile (^[44]Capel, 2010) añade datos procedentes de corpus de aprendices a la información de frecuencia obtenida a partir de corpus del inglés o listas de vocabulario para determinar cuál es el léxico que los hablantes no nativos son efectivamente capaces de producir en un determinado nivel . El DICI-A, por su parte, toma como punto de referencia un corpus de hablantes nativos (^[45]Spina, 2016) y para determinar el nivel de las colocaciones que incluye emplea un conjunto de parámetros: la frecuencia y la dispersión de la colocación en el corpus, su función (expresiones con significado descriptivo frente a marcas de organización textual y elementos pragmáticos) y el tema al que la colocación en cuestión se asocia.

127
paper corpusSignosTxtLongLines471 - : La información de frecuencia proviene de la sección correspondiente al español peninsular del corpus esTenTen11, que contiene más de 2000 millones de ocurrencias (^[53]Kilgarriff & Renau, 2013 ). La elección de este corpus obedece principalmente a las posibilidades que en cuanto a la recuperación de colocaciones ofrece su interfaz de consulta, ausentes en otros corpus de referencia del español. Así, cada colocación se ha buscado aprovechando la anotación morfológica del corpus para encontrar ciertas configuraciones sintácticas concretas. En un ejemplo como la colocación formada por los lemas ‘miedo’ y ‘tener’, este enfoque permite incluir tanto casos donde los constituyentes de la colocación no forman una secuencia continua (es decir, casos donde entre verbo y nombre aparecen modificadores u otros complementos), como los de posible anteposición (secuencias del tipo ‘el miedo que... tenía’). Para ello se utilizaron en las consultas al corpus una serie de reglas que combinan el etiqu

128
paper corpusSignosTxtLongLines471 - : Probablemente, el desarrollo de la lingüística de corpus haya sido mucho más decisivo en el renovado interés por el vocabulario que se observa en las últimas décadas del siglo XX (^[63]Sinclair & Renouf, 1985; ^[64]Lewis, 1993) que la reacción a diversas corrientes estructuralistas (incluido el generativismo) que supuso el enfoque nocio-funcional. Este renovado interés por el vocabulario viene acompañado casi siempre por la vuelta a los estudios de frecuencia léxica, en tanto que este parámetro supone la posibilidad de medir de forma relativamente objetiva la rentabilidad del léxico (^[65]Sinclair & Renouf, 1985 ; ^[66]Nation, 2001) o de las combinaciones léxicas (^[67]Martínez, 2013). La lingüística hispánica no es una excepción al respecto. Por ejemplo, ^[68]Alvar Ezquerra (2004) hace una encendida defensa del uso de diccionarios de frecuencia o listas extraídas de corpus para determinar cuál es el vocabulario que con más urgencia necesita un aprendiz de español, hasta el punto de prop

129
paper corpusSignosTxtLongLines471 - : Al aplicar el criterio de la frecuencia, cabe plantearse, además, si, al tratar con colocaciones, tal como las define el marco teórico adoptado, esto es, unidades léxicas en una relación asimétrica, debería considerarse este parámetro para todo el conjunto o dar de algún modo más relevancia a la frecuencia de la base . El segundo tipo de razonamiento se defendía en ^[82]Alonso Ramos (2012) y se aplicó a una clasificación inicial de las colocaciones del DiCE en franjas de frecuencia. Una revisión inicial de muestras tomadas del DiCE desaconsejó, sin embargo, esta manera de proceder en la presente investigación. Así, partiendo de una frecuencia ponderada, calculada tal como se propone en ^[83]Vincze y Alonso Ramos (2013b), dando más peso a la frecuencia de la base, obtendríamos que todas las colocaciones de ‘miedo’ incluidas en el diccionario recibirían un nivel B1 o inferior al aplicar el sistema que se propone más abajo. El conjunto incluye casos como ‘miedo cerval’ o ‘cagarse de

130
paper corpusSignosTxtLongLines471 - : Para determinar si existe una correlación entre el nivel de las colocaciones de nuestra muestra y su frecuencia en el corpus manejado se ha calculado el coeficiente τ[b] de Kendall. Este coeficiente mide la correlación entre dos rangos: un valor de 1 indicaría una correlación positiva perfecta, un valor de 0, falta de correlación alguna y un valor de -1 una correlación negativa perfecta, esto es, que a valores altos en una dimensión se corresponden valores bajos en la otra. Además, este coeficiente de correlación tiene en cuenta posibles empates, que se dan necesariamente aquí, puesto que hay cuatro valores posibles (B1, B2, C1 y C2) para 85 casos. Lo esperable sería una correlación negativa entre nivel y frecuencia: es decir, que a niveles más altos correspondiesen frecuencias más bajas y viceversa . Esta expectativa se confirma con una correlación negativa moderada (τ[b]=-0,57) estadísticamente significativa (p<0,0001). Parece, pues, justificado asumir que de acuerdo con los criterios del

131
paper corpusSignosTxtLongLines471 - : Como se veía más arriba, las colocaciones marcadas con el nivel A1-A2 forman el grupo menos numeroso una vez aplicado el sistema propuesto. El conjunto se reduce aun más en la versión pública del diccionario, pues en casos de discrepancia entre los resultados de nuestra propuesta y el PCIC, el DiCE conserva el nivel asignado en el PCIC. Repasemos alguna de estas discrepancias. ‘Tener gana(s)’, por ejemplo, según la frecuencia con que se documenta en el corpus debería aparecer en el nivel inicial. En el PCIC aparece, sin embargo, en un nivel más alto (B1). Por su frecuencia también le correspondería el nivel A1-A2 a ‘llamar la atención’, que aparece en el PCIC en un nivel mucho más alto (C1). Teniendo en cuenta, por un lado, la elevada frecuencia de uso de esta colocación y, por otra, el hecho de que no parece que sea propia de un registro marcado, cabría pensar que la decisión del PCIC responde a uno de las criterios de nivelación esgrimidos tanto en el PCIC como en el MCER: asociar e

132
paper corpusSignosTxtLongLines471 - : En este trabajo se ha propuesto un sistema para organizar las colocaciones del DiCE de acuerdo con los niveles del MCER. El sistema se basa, por un lado, en una muestra de colocaciones niveladas por profesionales de la enseñanza de español y, por otro, en la frecuencia con la que se registran las colocaciones en un corpus. Teniendo en cuenta que los criterios empleados por los autores de la nivelación de la muestra tienen previsiblemente relación con la frecuencia léxica, partíamos de la expectativa de cierta correlación entre estas dos dimensiones. Dicha correlación se ha comprobado en la muestra manejada y se ha observado, además, que, usando únicamente la frecuencia de uso como criterio nivelador, la coincidencia con la nivelación de partida es considerable: aproximadamente la mitad de colocaciones reciben el mismo nivel y un 80% o bien coinciden con el nivel original o quedan en uno adyacente .

133
paper corpusSignosTxtLongLines471 - : ^5 ^[152]Siyanova y Schmitt (2008) obtienen índices de correlación (Spearmann) entre la ordenación hecha por hablantes nativos de inglés y la basada en frecuencia de corpus que van del 0,58, para un conjunto de 31 colocaciones, al 0,74 para un conjunto de 10 colocaciones de frecuencia alta y se muestran relativamente optimistas en este sentido: “[…] N[ative] S[speaker]s not only have good intuitions of what collocations are very frequent and very infrequent in language but can also distinguish finer shades of frequency” (^[153]Siyanova & Schmitt, 2008: 445 ). ^[154]Siyanova y Spina (2015) emplean una metodología diferente. Según su análisis (esta vez tienen en cuenta la influencia de diversos factores en las respuestas de un grupo de hablantes), la frecuencia de cada una de las colocaciones del experimento no resulta un factor significativo en las estimaciones de sus informantes, pero sí la pertenencia de las colocaciones en cuestión a bandas de frecuencia alta, media, baja y muy baja. Las

134
paper corpusSignosTxtLongLines472 - : Por otra parte, se detectaron adyacentes con una frecuencia bastante alta, entre los que sobresalen dos: ‘inteligente’ con 8 ocurrencias y ‘digital’ con 9 ocurrencias .

135
paper corpusSignosTxtLongLines478 - : pecto más importante de una estrategia no es la cantidad de veces que se utilice, sino la ‘calidad. Un claro ejemplo de malinterpretación trasladado a la didáctica es el de ^[57]Nyikos (2008), quien expresó que el hecho de que las mujeres utilizan EAL con mayor frecuencia representa un desafío para los profesores y es un llamamiento a crear ambientes de apoyo para que los varones desarrollen el uso de estrategias . Ante esta problemática, creemos que una de las soluciones es la perspectiva de ^[58]Di Carlo (2017a), que considera las EAL como acciones definidas, ante todo, por su ‘utilidad’. Es decir, si permiten alcanzar las metas y objetivos de aprendizaje lingüístico en el mayor grado posible y con la mínima cantidad de recursos (eficacia más eficiencia).

136
paper corpusSignosTxtLongLines48 - : En primer lugar, hay que señalar que el tipo de error detectado y explicitado con mayor frecuencia por los alumnos es el léxico (ver figura 2 ). Cuando se analizan los resultados más en detalle también se dan estos resultados (ver figuras 3 y 4).

137
paper corpusSignosTxtLongLines484 - : En la [110]Tabla 3, se observa que las funciones más frecuentes (en orden descendente) son: ‘Facilitar la comprensión de un contenido disciplinar’ (f[[11.139]]= 3.246; 29,1%); ‘Presentar contenidos disciplinares centrales de una unidad o lección’ (f[[11.139]]= 3.216; 28,9%); y ‘Complementar la información de una exposición de contenidos’(f[[11.139]]= 2.140; 19,2%). Todas ellas presentan proporciones significativamente superiores al resto de las funciones identificadas (Chi^2 [[26.644]]= 2,165; ps≤ 0,001). No se observan diferencias significativas en las proporciones de representación de las funciones ‘Facilitar la comprensión de un contenido disciplinar’ y ‘Presentar contenidos disciplinares centrales de una unidad o lección’ (Chi^2 [[26.644]]= 0,981; ps= 0,326), siendo ambas la moda de representación. En contraste, las funciones con menor frecuencia de representación son: ‘Promover la construcción autónoma de conocimientos disciplinares, centrales de una unidad o

138
paper corpusSignosTxtLongLines506 - : conjuntamente de manera frecuente, sería posible determinar que esos tipos se encuentran en el quale formal: dada esa frecuencia, la selección, la operación menos costosa, es la que prevalece . De esta manera, se probaría que se trata de una referencia compleja, dado que usualmente los tipos se actualizan de manera conjunta.

139
paper corpusSignosTxtLongLines512 - : A la alta frecuencia de -aɢa, se suman 4 morfemas que permiten generar nombres con diferencias semántica bien marcadas: -aɢak, para nombres eventivos ; -ek, para nombres resultativos; -ɢat, para nombres instrumentales; y, -aɢ, para nombres agentivos.

140
paper corpusSignosTxtLongLines513 - : Para terminar, podemos añadir que el hecho que solamente 6 de las 14 unidades se documenten en las obras seleccionadas, no permite extrapolar los resultados obtenidos. Aunque es esperable que no se documenten, porque se trata de unidades recientes, el hecho que se documenten tanto unidades consideradas denominativas como estilísticas permite observar que la frecuencia de uso y la estabilidad no es un argumento suficiente a la hora de caracterizar los neologismos de acuerdo con su función comunicativa . Como indica ^[95]Llopart-Saumell (2016), debe ponerse en relación con los demás criterios.

141
paper corpusSignosTxtLongLines514 - : Como ya dijimos, la mayoría de los nombres rotuladores denotan nociones asociadas al proceso de investigación. Este resultado nos permite constatar coincidencias con los datos aportados en estudios previos acerca del uso de nombres rotuladores en artículos de investigación de diferentes disciplinas, los cuales han identificado en inglés (^[290]Charles, 2003) y en inglés y español (^[291]Mur Dueñas, 2003/2004) el predominio de nombres no metalingüísticos (por ej., efecto, resultado, investigación) en oposición al escaso uso de nombres metalingüísticos (por ej., punto, distinción, expresión). Del mismo modo, nuestros resultados corroboran la alta frecuencia de nombres relacionados al proceso de investigación identificada en estudios previos: nombres empleados para presentar y discutir resultados (por ej ., difference, effect, finding, results) (^[292]Swales, 2005; ^[293]Aktas & Cortés, 2008; ^[294]Gray, 2010; ^[295]Gray & Cortés, 2011; ^[296]Mousavi & Rauof Moini, 2014; ^[297]Flowerdew & Fore

142
paper corpusSignosTxtLongLines517 - : to & Castro, 2010). También se ha dicho que el gerundio se combina con ‘estar’ ya que refiere estadios (^[55]Fernández Leborans, 1999). Estas lecturas apoyan nuestro argumento en el sentido de que su lectura de fase/estadio permite establecer una analogía con las construcciones que la preceden en la adquisición. Así que, independientemente de la frecuencia del gerundio en el input, una vez adquirida la construcción locativa, el niño solo necesitaría conocer o dominar el uso de la perífrasis en un contexto específico, con un solo verbo . Este conocimiento le permitiría generalizar su uso a otros contextos, con otros verbos, debido a que domina el uso del verbo ‘estar’. Dado que el gerundio genera esta imagen de cambio/fase/estadio, el niño podría establecer una analogía mediante la cual puede omitir el desarrollo gradual de la perífrasis. Consideramos también que la perífrasis de gerundio puede ser organizada por la mente del niño por medio de lo que ^[56]Goldberg (1995) llama pre-emp

143
paper corpusSignosTxtLongLines517 - : Para comprobar la primera hipótesis medimos tanto la frecuencia de las ocurrencias como la frecuencia acumulada de tipos. Esta última consiste en contar los gerundios que aparecen con la perífrasis con ‘estar’ únicamente una vez. Por ejemplo, si una de las madres dice en la primera videograbación ‘está jugando’ y en la cuarta videograbación la repite, esta emisión no se vuelve a contar. El argumento por el cual decidimos proceder de esta manera se debe a que la frecuencia acumulada de tipos es una medida fiable para medir la productividad infantil (^[62]Ruhland & Geert, 1998 ). Con respecto a utilizarla como medida para el HDN, parecía razonable indagar en qué medida están proveyendo al niño con nuevos ejemplares, ya que podía ser posible que el niño alcanzara un uso productivo de la perífrasis habiéndola escuchado con nuevos gerundios en nuevos contextos.

144
paper corpusSignosTxtLongLines533 - : Para determinar la complejidad léxica o la frecuencia de palabras utilizadas y sus niveles de abstracción, tuvimos en cuenta cuatro factores que intervienen: frecuencia léxica, densidad léxica, diversidad léxica y el valor de concretitud (concreteness en inglés ) de palabras de contenido ([107]Tabla 2). La frecuencia léxica representa la distinción entre palabras de frecuencia baja y palabras de frecuencia alta. Estas medidas se calcularon usando el Compleat Lexical Tutor (^[108]Cobb, 2013), un sistema en línea para el análisis de lenguaje, el cual arroja resultados en listas de palabras más frecuentes usando la nomenclatura K1 a K5 donde las palabras que aparecen en el K5 son menos frecuentes. Asimismo, para medir las expresiones fraseológicas en inglés otro componente de la frecuencia léxica, las medidas se basaron en la propuesta de ^[109]Martínez y Schmitt (2012), cuyo trabajo presenta una lista de las 505 expresiones fraseológicas en inglés que se utilizan de modo receptivo y se

145
paper corpusSignosTxtLongLines533 - : Frecuencia léxica K1: general Compleat lexical tutor A más palabras en la categoría K1 tenga, el texto es más fácil .

146
paper corpusSignosTxtLongLines533 - : La frecuencia de elisiones, por su parte, se refiere a la periodicidad de omisiones de un fonema dentro del discurso (^[116]Field, 2008 ). El tono es el equivalente acústico de la entonación y corresponde a la velocidad a la que se producen las vibraciones. El tono se determina principalmente por la frecuencia de ondas de sonido generadas por las vibraciones. A mayor vibración de las cuerdas vocales, más agudo el tono y, por lo tanto, más se tiende a dificultar la comprensión del texto. El tono se expresa en Hz (Hertz) o ciclos por segundo y se reporta con el índice ‘F-0’ (^[117]Résvész & Brunfaut, 2012). Para calcular este índice se empleó el software Praat v5. 0.25 (^[118]Boersma & Weenink, 2008). Los resultados deben ser interpretados del siguiente modo: entre más alto el índice F-0, más alto el tono. Para determinar la velocidad de articulación o la velocidad con que un individuo habla por minuto o segundo, excluyendo el tiempo usado para pausas (^[119]Lynch, 2009), se usó Praat V5. 02

147
paper corpusSignosTxtLongLines533 - : Las [135]Figuras 1 a la 4 ilustran la complejidad lingüística de las seis charlas seleccionadas para estudiantes de competencia principiante-alto: Smartwatch (SW), Soft Electronics (SE), Isla Urbana (IU), Bitcoins (BC), Wheelchairs (WC) y Memory & Mouse (M&M). La [136]Figura 1 muestra que con respecto a complejidad léxica, la charla Memory & Mouse es la más fácil del grupo puesto que está relativamente baja en casi todas las métricas, excepto por el índice de concretitud de las palabras de contenido. Un desglose de los diferentes componentes de la complejidad léxica, indica que con respecto a frecuencia léxica, la charla Soft Electronics es la más difícil del grupo, ya que tiene menos palabras en el rango K1 y K2, y tiene más palabras tanto académicas como fuera de lista . Asimismo, entre las menos complejas en este aspecto están BitCoins y Memory & Mouse. En cuanto a densidad léxica, la charla Soft Electronics es la más alta del grupo y la Bitcoins la más baja. Con respecto a diversidad

148
paper corpusSignosTxtLongLines533 - : En la [139]Figura 2, se observa que la charla Memory & Mouse tiene las mayores velocidades de articulación y de reproducción, lo que la hace la más compleja. La charla Smartwatch se presenta con un bajo índice de velocidad de reproducción y con un bajo número de pausas. Con respecto a la frecuencia de elisiones, la charla Smartwatch es la más difícil dado el número de elisiones . Por otro lado, en las charlas Memory & Mouse junto con Isla Urbana, los hablantes casi no omiten fonemas dentro de sus discursos, es decir, no emplean elisiones y, a menor número de elisiones, es más fácil entender el texto. Un fenómeno similar ocurre con el tono, en donde las charlas Soft Electronic, Isla Urbana y Memory & Mouse tienen un alto índice y en donde la menos compleja en cuanto a tono es Bitcoins.

149
paper corpusSignosTxtLongLines533 - : Frecuencia de elisions 3,50 Cohesión: Contenido intencional 0,00

150
paper corpusSignosTxtLongLines533 - : Frecuencia de elisions 7,70 Cohesión: cohesión temporal 4,86

151
paper corpusSignosTxtLongLines538 - : La definición del DA de la marca diacrónica de obsolescencia se ha identificado según lo siguiente: “las palabras de poca frecuencia de uso, pero correlacionada con la generación mayor del espectro etario son las obsolescentes” (DA, 2010: xliv ). En nuestra indagación nos ceñimos a esta definición, porque al utilizarla como fuente documental inicial de este trabajo, asumimos que la adjudicación de la marca de obsolescencia es correcta. El criterio seguido por DA para asignar dicha marca también ha sido utilizado en otros diccionarios como explica ^[35]Garriga (1997), aunque ^[36]Lara (2012) al referirse a este diccionario, cuestiona el proceso seguido para determinar que una voz sea obsolescente según su frecuencia de uso. Nuestro propósito es identificar determinadas variables del uso a través de datos estadísticos que promuevan otras investigaciones desde otras fuentes documentales, o concretar otras definiciones que complementen nuestros posibles resultados.

152
paper corpusSignosTxtLongLines538 - : Las frecuencias reconocidas por el CORPES son dos, una que nombra como frecuencia absoluta o conjunta (Freq .) y que refleja el número de veces que aparece un vocablo en un área lingüística; y la otra, denominada en este corpus como normalizada (Fnorm.) porque ofrece el número de ocurrencias por millón de palabras. Una vez obtenidos todos estos datos que aparecen en el Anexo, se ha procedido a un análisis cuantitativo que haga posible contestar las preguntas de investigación.

153
paper corpusSignosTxtLongLines539 - : Tras observar con el visor de corpus comparables el orden de las distintas etiquetas, las fichas descriptivas de embutidos en español estarían compuestas por los siguientes movimientos y pasos, cuya frecuencia de uso la hemos representado con estrellas, siendo cinco estrellas (*****) el símbolo de obligatoriedad (81% - 100%), cuatro estrellas (****) una alta aparición (61% - 80%), tres estrellas (***) una frecuencia media (41% - 60%), dos estrellas (**) poca frecuencia (21% - 40%) y una estrella (*) una escasa aparición (1% - 20%):

154
paper corpusSignosTxtLongLines544 - : Este trabajo ha analizado el uso del lenguaje figurado por parte de personas que han sido diagnosticadas con distintas formas de demencia. Para comenzar, nuestro primer objetivo era identificar los diferentes tipos de lenguaje figurado que las personas con demencia emplean en su discurso. En el caso de nuestro corpus, nos hemos encontrado con cinco formas de lenguaje figurado: expresiones fijas, extensores, metáforas, metonimias y lenguaje retórico. Los resultados con respecto a la frecuencia de uso confirman que entre las formas empleadas con mayor frecuencia están las expresiones fijas y los extensores, es decir, formas familiares que normalmente se emplean de manera mecánica .

155
paper corpusSignosTxtLongLines544 - : Asimismo, también hemos detectado que los extensores discursivos han sido empleados como estrategia de compensación, sobre todo en el estadio inicial de la enfermedad. Las personas informantes recurren a ellos con frecuencia cuando no saben cómo continuar con una frase o cuando no recuerdan un dato y deciden finalizar el enunciado con una expresión más general como “éche así” o “así es la vida” . Sin embargo, aunque no podemos afirmar que esta sea una estrategia exclusiva de los hablantes con demencia, ya que, en general, las personas no diagnosticadas con trastornos cognitivos también recurren a ellas en su praxis comunicativa, la investigación previa apunta a que el uso de tales formas es más recurrente en las personas con deterioro cognitivo (^[91]Bridges & Van Lancker Sidtis, 2013; ^[92]Zimmerer, et al. 2016). Así, esta parte del trabajo se deberá completar en una futura investigación en la que se analice el uso de estos extensores exclusivamente como estrategia de compensación y se

156
paper corpusSignosTxtLongLines553 - : Hemos planteado también la pregunta de en qué se va a diferenciar el discurso del profesor en el aula cuando tiene alumnos inmigrantes con insuficiente competencia lingüística en español. En esta pregunta esperamos que los estudiantes sean capaces de formular estos cambios en el discurso del profesor: hablar más lento, articular mejor, usar sinónimos con mayor frecuencia, parafrasear, simplificar el léxico y la sintaxis, evitar las oraciones largas, gesticular más, usar imágenes cuando es posible, formular preguntas para verificar la comprensión (tanto para inmigrantes como para nativos ), etc.

157
paper corpusSignosTxtLongLines555 - : donde f[ t,d ]es la frecuencia del término t en el documento d, a[ t,l ]es el número de documentos bajo la categoría en evaluación l que contienen el término t, y

158
paper corpusSignosTxtLongLines555 - : La nueva representación para el problema de etiquetado múltiple, que se propone en este trabajo, llamado bin-rfl, se basa en una representación del modelo de Bernoulli multivariado que se pondera usando el término frecuencia de una etiqueta y se calcula como en la Ecuación número 3:

159
paper corpusSignosTxtLongLines557 - : La bibliografía, sin embargo, ha discutido extensamente sobre la conveniencia de considerar la frecuencia como criterio fundamental para sancionar la diccionariabilidad de la neología. Por un lado, se ha cuestionado el papel que la frecuencia desempeña en relación con los demás criterios de diccionariabilidad. En este sentido, ^[40]Freixa (2016) propone que no debe ser tomado como criterio único, sino que la frecuencia de uso es un criterio básico que actúa como primer filtro de diccionarización: todos los neologismos que ingresan en un diccionario tienen que ser frecuentes . Sin embargo, no necesariamente todos los neologismos frecuentes deben entrar en el diccionario; entre los frecuentes, tendrán entrada en los diccionarios solo aquellos neologismos que cumplan con otros criterios de diccionariabilidad.

160
paper corpusSignosTxtLongLines557 - : Por otro lado, se ha puesto de relieve que la frecuencia de uso de una unidad léxica es en sí mismo un criterio complejo, pues debe dimensionarse en relación con el comportamiento temporal -estabilidad de la frecuencia sostenida en el tiempo- y de distribución de la unidad en distintos tipos de texto, registros y variedades geográficas. La idea fundamental que subyace a esta caracterización de la frecuencia es que la estabilización de una voz en el sistema de la lengua depende de su extensión en el uso en textos de tipología diversa y de modo transversal a distintas variedades, de modo que cuanto mayor sea el rango de situaciones de uso en que se emplea una voz mayor es la probabilidad de que se incorpore en la lengua, razón de su inclusión en el diccionario . En virtud de ello, se ha propuesto una conceptualización compleja de la frecuencia que atiende a cinco factores:

161
paper corpusSignosTxtLongLines557 - : 2) Extensión de uso. Los neologismos son más diccionarizables si se emplean de forma igualmente frecuente en textos de diferente tipología (^[42]Metcalf, 2002; ^[43]Ishikawa, 2006). ^[44]Cook (2010) matiza sin embargo que las palabras de registros no especializados tienen mayores probabilidades de estabilizarse en el uso, puesto que han pasado a formar parte de la lengua general. No obstante, ^[45]Cook (2010) en su análisis de la neología estudiada por ^[46]Boulanger (1997), pone en relación la frecuencia de uso con los cambios sociales que dichos neologismos reflejan, destacando que en ocasiones el uso en textos especializados tiene probabilidades mayores de estabilización:

162
paper corpusSignosTxtLongLines557 - : Salvo unas pocas excepciones, se trata de neologismos muy frecuentes no únicamente en el corpus del Observatori sino también en otros corpus de referencia del español. A continuación ofrecemos el número de ocurrencias y documentos de estas voces neológicas en el corpes xxi^[84]^3, ordenadas de menor a mayor frecuencia:^[85]^4

163
paper corpusSignosTxtLongLines557 - : Observamos que solo 4 de los neologismos de la lista tienen una frecuencia de aparición inferior a 50 ocurrencias, mientras que 32 tienen una frecuencia superior a 200 ocurrencias y, de ellos, 17 tienen una frecuencia superior a las 500 apariciones. Desde el punto de vista de la frecuencia, pues, la gran mayoría de estas voces son claramente diccionarizables. Sin embargo, cumplen de modo irregular con los otros criterios establecidos por la bibliografía especializada. Desde el punto de vista formal, por ejemplo, se observa que entre los neologismos más frecuentes se encuentran unidades con características muy distintas, que ejemplifican la mayoría de los recursos de formación de palabras (prefijación, sufijación, composición propia, composición culta, etc.), si bien el peso de los préstamos crudos del inglés es muy elevado, ya que supera la mitad (26/50). Este es, sin duda, un dato que se debe tener en cuenta para matizar el criterio de la frecuencia: según la función descriptiva o

164
paper corpusSignosTxtLongLines557 - : 1. Criterios de frecuencia: por tratarse de los neologismos más frecuentes del Observatori de Neologia se ha considerado que todos los neologismos tienen frecuencia alta (puntuación de 0,5 ) y se ha matizado el resultado teniendo en cuenta el número de ocurrencias en el corpes xxi, sumando 0,5 puntos si es igual o superior a 200 ocurrencias.

165
paper corpusSignosTxtLongLines557 - : Un segundo dato que se desprende del análisis de la [88]Tabla 1 es que si se prescinde de los criterios documentales, hay 11 voces que obtienen la máxima puntuación en relación con todos los demás criterios -de frecuencia, formales y semánticos-: ‘distrital’, ‘mediocentro’, ‘reinventarse’, ‘copago’, ‘megapíxel’, ‘megaproyecto’, ‘desarrollador, -ra’, ‘red social’, ‘superhéroe’, ‘eurozona’, ‘soberanista’ y ‘yihadista’ .

166
paper corpusSignosTxtLongLines557 - : Si atendemos a los criterios que hemos presentado en el apartado anterior, se observa que se han tenido en cuenta de manera desigual, puesto que mientras algunos se cumplen de un modo generalizado, otros no parecen haberse tomado en consideración en la selección de algunas de las voces. Así, en relación con la frecuencia de uso, puede contrastarse el uso de estas voces en los dos principales corpus del español -crea^[92]^5 y corpes xxi, de la Real Academia- y un corpus específico de neología -^[93]bobneo, la base de datos del Observatori de Neologia-. De los resultados de las búsquedas llevadas a cabo destaca el hecho de que algunas de las palabras introducidas no tienen ninguna ocurrencia en los corpus, o bien su frecuencia es muy baja (igual o inferior a 3) en todos ellos, tal como ponen de manifiesto los datos de la [94]Tabla 3:

167
paper corpusSignosTxtLongLines557 - : Cada nueva edición del diccionario académico suele generar acalorados debates que inciden sobre todo en un aspecto: la sorpresa que causa que una determinada palabra que los hablantes consideran tan normal y tan habitual, es decir, tan frecuente, no aparezca todavía recogida en él. Ciertamente, el análisis demuestra que la frecuencia es uno de los criterios que se han considerado fundamentales a la hora de decidir la inclusión en los distintos diccionarios del español . Sin embargo, el análisis llevado a cabo pone de manifiesto que, al menos en el caso del DLE, la frecuencia de uso no ha sido un criterio de peso en la toma de decisiones, sino que se combina con otros criterios, más o menos evidentes, tales como la compleción de series derivativas, la actualización de campos semánticos, la orientación del uso normativo o la representatividad geolectal. Así, por ejemplo, a pesar de que ‘amusia’ no es una voz frecuente, actualiza el campo de la neurología, puesto que en el diccionario ya se re

168
paper corpusSignosTxtLongLines557 - : eder un papel preponderante a los factores relacionados con la frecuencia de uso, que en muchas ocasiones es tomada con un filtro sine qua non, así como en combinar este criterio con factores relativos a las cuestiones formales y semánticas -no siempre desligadas unas de las otras- y a cuestiones documentales, esto es, inclusión en otras fuentes lexicográficas de referencia .

169
paper corpusSignosTxtLongLines557 - : En el caso del diccionario académico aquí analizado, por ejemplo, el análisis de la neología recogida en la última edición permite inferir la aplicación de ciertos criterios implícitos -con algunas incoherencias, ciertamente, pero que no llegan a impedir su identificación-. En primer lugar, se aplica un criterio fundamental de corrección formal, pues ninguna de las voces incluidas presenta anomalías en su formación. En segundo lugar, se observa una voluntad de completar determinadas parcelas del léxico, ya sea con la compleción de series derivativas o con la incorporación de vocabulario de áreas temáticas determinadas. En esta labor, el papel concedido a la frecuencia no es central, puesto que determinadas voces son repertoriadas en el diccionario si cumplen con una función denominativa considerada necesaria en esa parcela, sino que el criterio fundamental es la coherencia interna de la obra . También tiene que ver con la coherencia interna la incorporación de léxico dialectal o de regist

170
paper corpusSignosTxtLongLines557 - : ^7De nuevo, se trata de palabras de frecuencia muy baja: minicasino solo presenta 2 ocurrencias en ^[134]bobneo y niguatoso, -sa no aparece ni en ^[135]bobneo ni en corpes xxi .

171
paper corpusSignosTxtLongLines567 - : Las estrategias pragmalingüísticas tienen con frecuencia una doble orientación: contribuyen al cumplimiento de las metas discursivas de los hablantes y regulan la relación interpersonal y social de los interlocutores (^[26]Briz, 2012 ). Dado que las maneras de desenvolverse y comunicarse de los diferentes roles sociales han evolucionado con el devenir temporal (cambios en las percepciones de las distancias sociales, derechos y obligaciones asociados a determinados roles, autoridad, etc.), es esperable que las estrategias pragmalingüísticas que velen por el éxito interpersonal y discursivo también.

172
paper corpusSignosTxtLongLines567 - : Las formas de tratamiento y las fórmulas apelativas son los procedimientos de atenuación que más frecuencia registran, pues acumulan 123 apariciones, lo que supone el 30,5% de los directivos atenuados . Desde una perspectiva diacrónica, destaca el incremento de este recurso en el C2 (73 ocurrencias frente a las 50 del C1). Dada la importancia y riqueza de este procedimiento lingüístico para el análisis de los aspectos de imagen familiar, se desglosan los resultados obtenidos en tres grupos: fórmulas y apelativos de cercanía, fórmulas y apelativos intermedios en el grado de distancia y fórmulas y apelativos que marcan la distancia (de ^[68]Miguel, 1995: 80):

173
paper corpusSignosTxtLongLines567 - : Sin embargo, entre las clases aristocráticas las fórmulas consideradas de cercanía son las más empleadas por hablantes situados en posición jerárquicamente inferior (nietos, hijos). Como se ve en los ejemplos, estos emplean con frecuencia vocativos atenuantes como ‘abuelito’ (9) y (10), ‘papá’ o ‘mamá’ (11) (12):

174
paper corpusSignosTxtLongLines567 - : A modo de síntesis de los datos expuestos sobre los procedimientos lingüísticos de atenuación más frecuentes, el siguiente cuadro recoge la presencia y distribución de aquellos que más frecuencia registran en el corpus:

175
paper corpusSignosTxtLongLines570 - : utos analizados y contabilizados manualmente. Esta metodología era imprescindible para decidir si una táctica lingüística funcionaba como mecanismo de atenuación o no. Un primer resultado muestra que hay mecanismos que se emplean en una lengua para atenuar pero no en la otra, por razones de diversidad tipológica lingüística, como es esperable. Lo interesante de este resultado es observar qué tácticas emplea, a cambio, la otra lengua. Un segundo resultado es que el grupo de mecanismos que son comunes en ambas lenguas difiere en frecuencia por causas socioculturales, como es la forma de actuar más extrovertida y abierta de los españoles frente a una interrelación con predominio del respeto por el territorio de uno mismo y del otro .

176
paper corpusSignosTxtLongLines571 - : Una de las primeras conclusiones que se pueden extraer del análisis de los datos palmenses es la elevada frecuencia con que aparecen los recursos que inciden directamente sobre el contenido proposicional de los enunciados (e indirectamente, sobre la fuerza ilocutiva del acto de habla): los modificadores externos, las expresiones más suaves y los modificadores internos son tres de los cuatro mecanismos más frecuentes . Se trata de una característica diferencial con respecto a Madrid, Santiago de Chile y Valencia (^[113]Cestero et al., 2020), que presentan porcentajes mucho más bajos en el uso de los diminutivos y de los mecanismos de selección léxica (en Santiago de Chile esta última táctica no se usa en ningún caso). Debido a este carácter diferencial, y aunque ofreceremos los datos correspondientes a todos los procedimientos, nos centraremos a partir de ahora en el comentario de estos recursos.

177
paper corpusSignosTxtLongLines571 - : En consonancia con los datos generales de atenuación, se observa que en los tres niveles de instrucción se recurre mayoritariamente a los modificadores externos. Sin embargo, las frecuencias relativas, obtenidas a partir del total de los recursos empleados en cada grupo, nos indican que estos mecanismos son más utilizados por los estratos medio (15,8%) y bajo (16,2%) que por los hablantes universitarios (12,8% ). Además, al contrario de lo que sucede con los otros dos grupos, los informantes del nivel bajo emplean con mayor frecuencia, tras los modificadores externos, los diminutivos, otro procedimiento que afecta al contenido proposicional del mensaje; el porcentaje (10,3%) es, de hecho, considerablemente elevado si lo comparamos con el sociolecto medio (7,1%) y, sobre todo, con el alto (5,2%). El tercer mecanismo atenuador del dictum, el empleo de formas más suaves como las lítotes o los eufemismos, aparece en proporciones similares en los tres grupos.

178
paper corpusSignosTxtLongLines572 - : Si los hechos que acabamos de mencionar llevan a pensar en una posible convergencia o similitud en patrones sociolingüísticos en frecuencia de uso de la atenuación en las tres urbes estudiadas, la estrategia atenuadora de cada una de ellas muestra diferencias claras que las singularizan y que podrían considerarse marcas identitarias dialectales, esto es, culturales . En la capital española, los recursos de atenuación más asiduos son el empleo de signos paralingüísticos, de marcadores correctores y de formas de modificación externa, la impersonalización mediante ocultación en otro, en un interlocutor general o en el juicio de la mayoría y la expresión de aserciones en forma de duda o de probabilidad. Valencia, sin embargo, suele atenuar utilizando marcadores discursivos que impersonalizan incidiendo en la franqueza de lo dicho y con ello objetivando, justificaciones y excusas y fórmulas fáticas, mediante la expresión de aserciones en forma de duda o de probabilidad y paralenguaje. Por último,

179
paper corpusSignosTxtLongLines573 - : El trabajo de ^[150]Samper (2018), por su parte, estudia la evolución de la atenuación en una misma comunidad de habla, Las Palmas de Gran Canaria, a partir de la comparación de dos tipos de materiales muy similares -entrevistas semidirigidas- y recogidos con control sociolingüístico. Por un lado, analiza la atenuación en el Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (NC), grabado en 1990 y, por otro, en las entrevistas del PRESEEA, grabadas en 2008, casi veinte años después. El estudio se lleva a cabo sobre el habla de 6 informantes de cada corpus, con iguales características sociolingüísticas. Sus resultados destacan que la frecuencia y forma de atenuación ha aumentado con el paso del tiempo: en PRESEEA se recogen un 10% de estrategias atenuantes más que en la NC . Además, se aprecia una llamativa diferencia que puede relacionarse con el factor edad: en las muestras de norma culta atenuaba más la generación intermedia, los adultos, seguida de

180
paper corpusSignosTxtLongLines573 - : En relación con la frecuencia de uso de mecanismos atenuantes en interacción, los estudios revisados muestran diferencias importantes en cada comunidad: en Puebla es donde se registra la mayor proporción de atenuación, con una diferencia muy grande con las otras zonas: Puebla es seguida por Valencia, Santiago de Chile, Madrid y Las Palmas .

181
paper corpusSignosTxtLongLines576 - : Entre los grupos no nativos, el segundo tipo de predicado más frecuente es la otra combinación prototípica entre aspecto gramatical y aspecto léxico: verbos de estado en IMP. Estos dominan el total de verbos en IMP con amplia ventaja sobre el resto de tipos de aspecto léxico. Por su parte, la combinación con una frecuencia más baja, no solo de los predicados en IMP, sino de todo el conjunto de verbos, es la que representa verbos télicos en IMP . La incidencia de esta combinatoria es anecdótica entre los no nativos, alcanzando su porcentaje más alto en el grupo C1 (3%) y apareciendo testimonialmente en B2 (0,9%).

182
paper corpusSignosTxtLongLines587 - : Posterior al etiquetado, se usó herramientas de análisis de corpus (^[120]McEnery & Hardy, 2011) para analizar la distribución de las fases en el corpus y de esta forma determinar aquellas que eran más frecuentes en todo el corpus y por disciplina. Como el propósito de este estudio es también la postulación del modelo orbital como idóneo para explicar los textos orales de las CAs, no se buscó establecer una fórmula estructural, sino los datos suficientes para determinar los núcleos obligatorios y opcionales. Para determinar la obligatoriedad de los elementos estructurales, consideramos los valores discutidos por ^[121]Navarro y Simões (2019) y ^[122]Navarro (2011), estableciendo los elementos con una recurrencia menor al 25% como no suficientemente estables. La frecuencia de distribución se clasificó de la siguiente manera: a ) 25%-45%, ocasional; b) 46%-70%, frecuente; y c) 71%-100%, obligatorio. Es de señalar que en principio se establecieron niveles más altos (80%) para considerar los

183
paper corpusSignosTxtLongLines588 - : Aquí se puede observar también que la mayor diferencia entre los textos estudiantiles y los textos publicados está en las expresiones de afecto. Los escritores profesionales recurren con más frecuencia a la Gradación en las realizaciones de afecto y éstas aparecen sobre todo intensificadas a partir del uso de expresiones figuradas tales como ‘muerto de miedo’, ‘muere de aburrimiento’, ‘inmerso en la tristeza’, ‘lleno de odio’ o bien a usos de elementos léxicos con Gradación fusionada, esto es, palabras que expresan, por ejemplo, un grado más intenso de enojo, como ‘rabia’ o ‘ira’ , o de miedo, como ‘un poder aterrorizador’ .

184
paper corpusSignosTxtLongLines588 - : Si se considera el total de ocasiones en que aparecen recursos de vigor y frecuencia, en los textos redactados por estudiantes las expresiones del primer tipo representan el 55,6% de ellas, mientras que en los textos publicados forman únicamente el 37% . De esta manera, los estudiantes utilizan con mayor frecuencia la calificación de un proceso para dar mayor énfasis a alguna cualidad, como sucede en los ejemplos (31) y (32) abajo.

185
paper corpusSignosTxtLongLines588 - : Por su parte, los profesores recurren mayoritariamente a valores de frecuencia, ya que estos representan el 63% de sus recursos de Gradación de procesos, es decir, éstos son enfatizados a partir de la frecuencia con la que éstos se realizan más que con una cualidad como sucede en el texto estudiantil, como se ve en los ejemplos (33) y (34) abajo:

186
paper corpusSignosTxtLongLines593 - : Los estudios mencionados dan cuenta del impacto de los recursos léxico-gramaticales en la calidad de la escritura. Para el presente estudio, solo se determinará la frecuencia de uso de algunos de estos recursos léxico-gramaticales asociados en estudios previos a escritura: longitud medida como total de palabras y cláusulas, diversidad léxica y complejidad sintáctica . Esta decisión responde a la necesidad de realizar una descripción lingüística considerando una diversidad de recursos desplegados por estudiantes de 4( básico en explicaciones científicas y profundizar en las variaciones de los recursos según sexo, nivel socioeconómico y temática. En futuros estudios se explorará sobre la contribución de estos recursos específicos en la calidad de la explicación científica.

187
paper corpusSignosTxtLongLines597 - : Los datos reflejados en el [69]Gráfico 3 revelan que el uso dinámico más frecuente en CHET es la ausencia de habilidad y, en este sentido, se muestra casi la misma proporción en su empleo independientemente del sexo de sus autores. Como se ve en el [70]Gráfico 4, tanto las autoras como los autores tienen una preferencia evidente por could para manifestar este uso, seguido muy de lejos por can. El siguiente valor en frecuencia es el significado de capacidad, que aparece muy destacado en el subcorpus de textos escritos por hombres y cuya realización se indica preferentemente mediante could, seguido en menor medida por can . Esta tendencia es la misma en el subcorpus de mujeres, si bien este uso es menos usual. El uso para significar estar en posición también es más común en los textos escritos por hombres y los verbos modales usados para este fin son could, con igual frecuencia en los dos subcorpus, seguido de may y can, más usados en el subcorpus de hombres que en el de mujeres. Destaca que

188
paper corpusSignosTxtLongLines70 - : El segundo acto nos presenta a un Pascual que suele perderse de sí mismo con cierta frecuencia y perfila la evolución del embustero desde el engaño a los otros, hasta el engaño personal, situación que se explicita en el parlamento de Clara: . Ahora, porque hecho un bendito, se engaña a sí mismo creyéndose sus propios embelecos> (p.47). La dinámica entre los esposos ha tenido, entonces, una variación fundamental, porque los desencuentros del protagonista se resuelven con la intervención de Clara, quien lo ayuda a encontrarse y, significativamente, a recuperar la realidad compartida por el colectivo. Sin embargo, el protagonista se reconoce en una zona ambigua, que tensiona su propia identidad: (p.52). El tránsito que cumple Pascual entre estos dos ámbitos se fractura

189
paper corpusSignosTxtLongLines75 - : El análisis combinado sólo es posible en el documento 1, en el que hay una distribución en las 5 dimensiones para dos teorías de la argumentación. Los resultados evidencian que la combinación propósito-teoría de la nueva retórica es la más frecuente (29,9%). Así, se afirma que el propósito de la argumentación es "convencer sobre la conveniencia, sentido o pertinencia de la acción que se requiere que el receptor realice o adopte" (doc. 1:18), en el fondo, se trata de "concitar su adhesión o influir en los receptores para que modifiquen sus puntos de vista o asuman determinadas actitudes o comportamientos (doc.1:9). Sin embargo, también aparece la asociación propósito-pragmadialéctica, cuya frecuencia es de un 11,1%: no se pierde de vista que "en situaciones problemáticas que requieren reflexión para su solución" (doc .1:3), la argumentación puede convertirse en un "diálogo para lograr el establecimiento de un acuerdo" (doc. 1:4).

190
paper corpusSignosTxtLongLines99 - : "(...) podemos al menos decir que el concepto de Lector Modelo o Lector Ideal describe la suma de competencias necesarias para lograr una adecuada comprensión del texto. Estas competencias normalmente pueden deducirse desde el texto como desde la competencia enciclopédica general disponible para todos los lectores (al menos, lectores que poseen cierta cultura), pero lo que encontramos en la carta es que con frecuencia la enciclopedia que necesitamos para entender el texto es idiolectal (Eco, 1976); es decir, información disponible sólo para el destinatario real de la carta . En esta instancia, el Lector Modelo no es una abstracción que refiere a una clase abierta de lectores reales sino que se reduce para coincidir con un lector singular, el destinatario empírico."^[65]41

Evaluando al candidato frecuencia:


1) corpus: 72 (*)
2) palabras: 59 (*)
5) análisis: 37
7) textos: 32 (*)
11) estrategias: 25
15) léxica: 21 (*)
17) aparición: 21

frecuencia
Lengua: spa
Frec: 1388
Docs: 280
Nombre propio: 4 / 1388 = 0%
Coocurrencias con glosario: 4
Frec. en corpus ref. en spa: 168
Puntaje: 4.793 = (4 + (1+8.06608919045777) / (1+10.4398308839814)));
Rechazado: muy disperso; muy común;

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
frecuencia
: (6) Se puede concluir que los diagnósticos enfermeros no se han modificado sustancialmente ni en presencia ni en frecuencia […] (Rodríguez Borrego, Galván Ledesma, Medina Valverde, de la Torre Barbero, Romero Bravo & Flórez Almonacid, 2010)
: “una categoría pragmática cuya función consiste en minimizar la fuerza ilocutiva de los actos de habla y, con frecuencia, regula la relación interpersonal y social entre los participantes de la enunciación.” (^[110]Albelda & Briz, 2010: 238).
: Aunque no se dé en más casos en Zapatero [2011], sí hemos de pensar que con su carácter de indicador introductorio de nuevos temas o subtemas se da con alguna frecuencia en el discurso político de los DEN. Veamos algunos ejemplos:
: Con mucha frecuencia, cuando el proceso relacional atributivo es de tipo cualitativo, viene asociado con un tercer participante, conocido como ‘Atribuidor’ (^[79]Halliday, 2004a); es decir, la entidad que asigna la relación de atribución, como se ve en el ejemplo (5):
: En la [108]Tabla 1 se recogen los 21 recursos de atenuación establecidos por ^[109]Albelda et al. (2014), ordenados según la frecuencia de aparición en el corpus palmense:
: Franco, P., Pino, M. & Rodríguez, B. (2009). Tipología y frecuencia del uso de estrategias en el aprendizaje del inglés como lengua extranjera Types and frequency of use of strategies in the learning. Enseñanza & Teaching, 27(2), 171-191.
: Miranda, H. (1980). Frecuencia de las formas verbales en el habla culta de Santiago de Chile. Boletín de Filología de la Universidad de Chile, XXXI, 865-880.
: Molina Salinas, C. & Sierra Martínez, G. (2015). Hacia una normalización de la frecuencia de los corpus CREA y CORDE. Revista Signos. Estudios de Lingüística, 48(89), 307-331.
: Palacios, A. (1998). Norma lingüística y variación en la lengua española. Revista Frecuencia L, 7, 64-67.
: Para dar una visión global de los resultados, estos se presentan en una tabla de frecuencia combinando de este modo los métodos cualitativo y cuantitativo. En este sentido, el uso de ambos métodos otorga una mejor manera de enfrentar el problema del estudio. ([48]Pérez Serrano, 1994).
: Poblete, M. T. (1998). Los marcadores discursivo-conversacionales de más alta frecuencia en el español de Valdivia (Chile). Estudios Filológicos, 33, 93-103.
: e & Banerjee, 2007), mediante las cuales puede constatar la frecuencia de una determinada combinación de palabras en otros corpus de textos y los contextos en los que suele aparecer.