Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) corrector (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: corrector


Is in goldstandard

1
paper corpusSignosTxtLongLines415 - : El funcionamiento del corrector es sencillo: contrasta las combinaciones de palabras utilizadas en el texto con los datos de esas mismas palabras obtenidos en el corpus de textos y, dependiendo del resultado del algoritmo, nos avisa de si los bigramas son poco o nada frecuentes (y deberían serlo más, dada la frecuencia de las palabras que los forman ), lo cual puede ser un indicio de que contienen un error. Para evaluar la eficacia del algoritmo, hemos recopilado textos escritos por hablantes nativos que incluyen errores que encontramos con cierta frecuencia –muchos de ellos están recogidos en la sección de ‘preguntas frecuentes’ de la página web de la Real Academia Española ([25]http://www.rae.es/consultas-linguisticas/preguntas-frecuentes)–. En general, las palabras usadas erróneamente existen en español y son correctas en otros contextos –de ahí la dificultad de detectar sus usos incorrectos o, en muchos casos, impropios–.

2
paper corpusSignosTxtLongLines415 - : 2.1. Funcionamiento del corrector: Corpus y algoritmo

3
paper corpusSignosTxtLongLines415 - : El corrector utiliza como material de referencia para identificar errores un corpus de cien millones de palabras, procedentes de textos escritos por nativos . Este corpus se ha compilado con el único propósito de facilitar la corrección de escritos mediante la detección de bigramas que normalmente no se combinan en la lengua; p. ej., la preposición ‘a’ y ‘abierto’, el participio del verbo ‘abrir’, en una secuencia como ‘*Mi amigo a abierto una librería en Granada’.

4
paper corpusSignosTxtLongLines415 - : En ella ‘su’ debería ser ‘si’; este error se debe a la cercanía en el teclado de las letras u e i. El corrector ortográfico del procesador de textos no detecta la confusión porque ‘su’, aunque es incorrecto en este contexto –donde debería utilizarse la conjunción condicional ‘si’–, es una palabra existente en español .

5
paper corpusSignosTxtLongLines415 - : Solo Stilus® identifica y corrige correctamente el error de (7). El corrector de Word no señala ningún error en (5-7), y tanto Stilus® como SpanishChecker® plantean una corrección equivocada en dos casos en los que detectan una falta: el primero, en (5 ), plantea incluir la preposición a, lo cual resultaría en una combinación incorrecta (*vete a haber), y SpanishChecker®, en (6), propone eliminar la preposición ‘a’ (‘tiene que ver ‘no es lo mismo que ‘tiene que haber’, que es lo que se quiere decir).

6
paper corpusSignosTxtLongLines415 - : En concreto, en este texto de 9.000 palabras, en el que hay 8.100 bigramas, si el algoritmo llama la atención sobre los 100 pares con las menores puntuaciones, que son los que más probablemente pueden contener un error –y de hecho, ocho son incorrectos– será muy útil; sobre todo, porque se trata de errores que otros correctores no identifican como tales. Por ejemplo, de esos ocho errores, los correctores destinados específicamente al aprendiz de español como L2, identifican dos cada uno. Grammar Checker®, por un lado, señala (15 y 16); y Stilus®, por su parte (13 y 16). De igual forma, el corrector de Microsoft Word identifica dos de los ocho errores: (14 y 17 ).

7
paper corpusSignosTxtLongLines415 - : el corrector no identifica que el sujeto es un sustantivo en singular (‘la gente’ ) mientras que el verbo aparece en plural (‘están’). Las cifras del análisis no nos ayudarán a percatarnos del error: el par ‘que están’ es una combinación muy frecuente en los textos del corpus (aparece en 4.531 ocasiones), incluso se registra tres mil veces más de lo que sería esperable, teniendo en cuenta la probabilidad de la combinación: 1119.7 (por su parte, la frecuencia de ‘que’ es 3295376 y la de ‘están’, 33978; y el umbral es 4.05); y es correcta si el antecedente es plural, como aquí:

8
paper corpusSignosTxtLongLines415 - : Una forma de mejorar el funcionamiento de la aplicación del algoritmo que hemos empleado aquí para que sea todavía más útil es ampliar la extensión de la combinación de palabras analizadas; es decir, que en vez de ser solo pares, fueran grupos de tres, cuatro o, incluso, cinco palabras; de esta manera sería posible detectar algunos de los errores que no pueden ser descubiertos solo con el análisis de dos palabras adyacentes. Así lo han constatado Wu y Su (2006) en su estudio de un corrector utilizado para detectar el uso erróneo de preposiciones en inglés, en el que se ha empleado un ‘modelo’ de análisis de pares y otro de grupos de tres palabras (trigramas): ‘The experiment results show that tri-gram language model can find most of the correct prepositions’ .

9
paper corpusSignosTxtLongLines415 - : Otra manera de aumentar la eficacia del corrector es ampliar el tamaño del corpus de referencia, de forma que, al menos, se reduzcan los falsos positivos relacionados con vocablos de baja frecuencia. Si bien, la ampliación del corpus habría que realizarla con cautela, pues es absolutamente necesario que sea con muestras de lengua correctas, ya que si no es así, tendríamos un problema añadido, que es el que se plantea en Moré (2006) como emplea la web como corpus, el buscador no discrimina por sí mismo ‘badly written pages. Sin duda, una de las bases del buen funcionamiento de un corrector es la calidad del corpus (Athanaselis et al ., 2006).

10
paper corpusSignosTxtLongLines432 - : De Yzaguirre, Ll. (2006). Eines informàtiques per al corrector: com se’n pot treure el màxim profit . En Vigo & Mestres i Serra (Eds.), III Seminari de Correcció de Textos: La terminologia i la correcció de textos (pp. 106-16). Barcelona: Institut d’Estudis Catalans. [ [46]Links ]

11
paper corpusSignosTxtLongLines459 - : El presente trabajo se enfoca en la problemática de la precisión lingüística en la producción escrita, específicamente en los errores ortográficos. Para ello, se diseñó y construyó un corrector ortográfico para un Sistema Tutorial Inteligente (STI) del Español como Lengua Extranjera, ELE-TUTORA^[26]^1. Este corrector está programado en Python 3 y su diseño corresponde a una arquitectura dinámica, con el fin de evitar su rigidización futura y permitir mejorar su funcionamiento . En este artículo, se presenta la descripción de sus módulos, la implementación del código utilizado para programar el corrector, y se explica su funcionamiento a partir de salidas y ejemplos en la corrección de errores en el Español como Lengua Extranjera (ELE).

12
paper corpusSignosTxtLongLines459 - : A diferencia de lo recién presentado, nuestra propuesta se enfoca en el uso de diccionarios. ^[49]Tapia y Ariza (1997) señalaban que el corrector ortográfico requiere como punto de partida dos bases de datos: el diccionario principal y el diccionario secundario o diccionario del usuario . El primer diccionario viene a coincidir con una selección o versión abreviada de un diccionario académico del español, por ejemplo, el Diccionario de la Real Academia Española. El segundo diccionario se forma con las palabras que no figuran en el diccionario principal y que cada usuario va introduciendo en función de sus necesidades o conveniencias. El corrector, según los citados autores, cotejaba las palabras encontradas en el texto escrito con las contenidas en los diccionarios. En el fondo operaba buscando coincidencias de patrones (pattern matching, en inglés). Si el corrector encontraba la palabra del texto en alguno de los diccionarios, la consideraba correcta; de lo contrario, la consideraba

13
paper corpusSignosTxtLongLines459 - : Uno de los problemas que debe enfrentarse a la hora de trabajar en el desarrollo de un corrector ortográfico es la construcción de un lexicón que contenga todas las formas correctas de las palabras que existen en el español . Un listado de los lemas incluidos en el Diccionario de la Lengua Española de la Real Academia (DRAE) es insuficiente, ya que no se incluyen las formas derivadas (por ejemplo, aparece ‘perro’, pero no ‘perrito’ ni ‘perritos’; aparece el verbo ‘cantar’, pero no sus conjugaciones en los diferentes modos y tiempos). Afortunadamente, proyectos como FreeLing ([53]http://nlp.cs.upc.edu/freeling/) o Linguakit ([54]https://linguakit.com/es/) permiten la descarga de sus lexicones que, además, son open source (de código abierto). Dichos lexicones incluyen no sólo los lemas de las palabras del español sino que sus formas derivadas.

14
paper corpusSignosTxtLongLines459 - : El trabajo se realizó en un equipo con Linux, pero el código final opera sin problemas en Windows. La entrada que utiliza el corrector ortográfico, empleando la terminología de Python, es una cadena de texto . Dicha cadena se procesa de dos formas, según se ve en la [57]Figura 1: palabra a palabra (punto 1) y como una cadena en busca de patrones de error complejos (punto 8).

15
paper corpusSignosTxtLongLines459 - : El listado de palabras correctas se construyó como un archivo de texto plano, en el cual las palabras están separadas por un salto de línea y tienen un espacio en blanco antes de cada una de ellas. El corrector, tomando este archivo como entrada de la información requerida, realiza una búsqueda para cotejar si la palabra se encuentra o no en el listado (el archivo en que se almacenan se llama ‘listado_palabras_original’): si está en el listado la considera escrita correctamente, en caso contrario pasa a la etapa de búsqueda de errores, como se verá más adelante . El espacio en blanco y el salto de línea son una forma arbitraria de marcar el inicio y el final de cada palabra, con el fin de evitar que haya falsas coincidencias; si no existieran estos límites y, por ejemplo, se procesara la forma verbal mal escrita ‘beo (veo)’, el corrector arrojaría una coincidencia, entre otras, con las palabras ‘beodo’ o ‘beorí’ y consideraría a ‘beo’ como escrita correctamente.

16
paper corpusSignosTxtLongLines459 - : Los datos del diccionario^[64]^6 pueden ser recuperados posteriormente, con el fin de realizar las operaciones que se deseen, como por ejemplo, corregir el texto o entregar feedback a la persona que escribe sobre qué errores cometi. Con el fin de mostrar los resultados del corrector ortográfico, se ingresó en este el siguiente pasaje:

17
paper corpusSignosTxtLongLines459 - : De lo expuesto en 2.2.1 y 2.2.2 se puede prever que el corrector adolecerá de dos problemas con total certeza: (1 ) no se puede asegurar que la lista de palabras correctas constituirá un listado total de toda la variabilidad léxica de los lemas del español, ni tampoco que contendrá los nombres propios que podría utilizar un hablante de nuestra lengua; (2) menos aún se puede afirmar que en los patrones simples de error (palabras) y complejos (contextuales) se contemplarán todas las posibilidades de error que podrían cometerse en nuestro idioma. Una dificultad adicional es que este corrector ortográfico está pensado para utilizarse en una aplicación montada en un servidor (específicamente, un sistema tutorial inteligente, aunque perfectamente podría adaptarse a otras aplicaciones por la versatilidad de Python), por lo que para modificarlo debería tenerse acceso directo al servidor. En caso de poder acceder, hay que tener en cuenta que muchos servidores están montados en Linux y muchas veces

18
paper corpusSignosTxtLongLines459 - : Todo lo descrito en el párrafo anterior deviene en que el corrector, una vez terminado, se transformaría en una aplicación rígida, que sería muy difícil de modificar por quienes administren el sistema en que este se utilice . Por esto, se propone que el corrector tenga una estructura dinámica y que pueda ser modificado por una persona sin conocimientos de Python a través de una interfaz gráfica preparada para ello. Para lograrlo es imperativo contemplar esta posibilidad en la arquitectura del corrector y desarrollar el código necesario para este funcionamiento dinámico, y conectarlo posteriormente con la interfaz gráfica del área de administración que utilice la aplicación en que se inserte (a modo de ejemplo, podría utilizarse en un gestor de contenidos como Moodle, como es el caso de ELE-Tutora, o alguna aplicación hecha a medida).

19
paper corpusSignosTxtLongLines459 - : El corrector ortográfico construido está integrado en el STI ELE-Tutora, que es un sistema destinado a la enseñanza del español como lengua extranjera . Si bien el corrector ortográfico opera sobre todas las entradas de texto que el estudiante realice en el STI y les entrega retroalimentación sobre sus errores cuando la planificación de ELE-Tutora así lo requiere, su importancia es aún mayor en el funcionamiento del tutor ortográfico que incorpora el STI. En la [67]Figura 2 se puede ver la portada de este, en la sección enfocada en la ortografía acentual:

20
paper corpusSignosTxtLongLines459 - : El funcionamiento del corrector en ELE-Tutora, que se presenta en la figura precedente, puede explicarse de la siguiente forma: (1 ) el estudiante ingresa una cadena de texto a través de la interfaz y (2) esta cadena constituye la entrada del corrector ortográfico. Este analiza la cadena (3) palabra a palabra buscando si (3a) están escritas correctamente, (3b) si presentan errores o (3c) si son desconocidas para el corrector, para luego analizar la cadena completa (4) en busca de patrones de error complejos. Finalmente, (5) arroja la salida en forma de un diccionario de Python, que permite a ELE-Tutora elaborar la (6) retroalimentación que se le entregará al estudiante. Por último, en la [71]Figura 4 se presenta una imagen de un ejercicio del tutor ortográfico de ELE-Tutora.

21
paper corpusSignosTxtLongLines459 - : En relación con el planteamiento del corrector ortográfico realizado en los puntos precedentes y la construcción del mismo que se llevó a cabo, es necesario precisar sus limitaciones, fundamentalmente en lo que se refiere a su funcionamiento . El corrector ortográfico no es capaz de reconocer todos los errores de esta índole posibles de cometer en la lengua española. De hecho, es probable que tal corrector ortográfico no haya sido construido aún, ya que debería adaptarse a las infinitas alternativas de error que puede cometer una persona al escribir un texto en nuestra lengua. No obstante, lo anterior, no quiere decir que se estime que la herramienta diseñada para revisar la ortografía de los textos sea pobre; por el contrario, se reconoce su potencia, sobre todo, por el hecho de ser un corrector dinámico, que puede ser adaptado a los escenarios que vayan surgiendo en la aplicación concreta que se haga de la herramienta (en nuestro caso, formar parte de un sistema tutorial inteligente).

22
paper corpusSignosTxtLongLines459 - : En este sentido, se considera al corrector construido una herramienta que puede prestar ayuda en el mejoramiento de la precisión lingüística en la producción escrita de un texto, por dos razones principales: una de corte técnico y otra del ámbito lingüístico . La primera de estas es que su construcción en base a herramientas consideradas como software libre -Python y NLTK- permiten utilizarlo en cualquier proyecto, adaptándolo con facilidad y sin la limitación que imponen las licencias comerciales. La segunda razón es que su arquitectura dinámica permite mejorar la precisión de su funcionamiento, volviéndolo más eficiente en la detección de errores en el ambiente en que se inserte, por ejemplo, un STI como ELE-Tutora. En este punto, hay que tener claridad que el corrector requiere de módulos adicionales -que existen en un STI, por ejemplo- que interpreten la salida que entregan los diccionarios de Python y la transformen en retroalimentación que pueda ser útil al usuario del sistema, permi

23
paper corpusSignosTxtLongLines459 - : Acerca de las mejoras que se pretenden realizar a futuro al corrector, una de las ideas que se maneja, es incorporar en su funcionamiento un analizador sintáctico o parser, con el fin de poder determinar la categoría gramatical de las diferentes palabras, para desambiguar de una manera más precisa y funcional cadenas confusas como la citada ‘no sé qué’ (omitiendo uno o los dos tildes por error ). Lo recién descrito sería un paso importante hacia potenciar aún más el funcionamiento de la herramienta, con el fin de volverla más precisa y ampliar su espectro de reconocimiento de errores. Pero, como se dijo, es algo en lo que aún se debe trabajar en su planificación y, posteriormente, en su desarrollo e implementación. La idea es dejar constancia de que el corrector construido se considera una herramienta potente, pero perfectible y es una tarea que queda abierta y planteada.

24
paper corpusSignosTxtLongLines460 - : [2]vol.50 número95 [3]Diseño e implementación de un corrector ortográfico dinámico para el sistema tutorial inteligente, ELE-TUTORA [4]‘La verdad (es que)’: Significado nuclear y atenuante* [5] índice de autores [6]índice de materia [7]búsqueda de artículos [8]Home Page [9]lista alfabética de revistas

25
paper corpusSignosTxtLongLines569 - : Curiosamente, según lo apuntado en estudios anteriores (^[66]Bolívar, 2011), predominan los comentarios negativos; y de ahí la consideración del evaluador como corrector: “el papel que suele asumir el evaluador de un artículo científico es el de un corrector que señala los errores del texto que evalúa” (Austudillo et al ., 2016: 125).

Evaluando al candidato corrector:


1) palabras: 20 (*)
2) ortográfico: 15 (*)
3) errores: 15
4) funcionamiento: 11
5) error: 11 (*)
6) texto: 11 (*)
7) diccionario: 10 (*)
8) corpus: 9 (*)
11) textos: 8 (*)
14) cadena: 7
15) aplicación: 6
16) python: 6
17) ele-tutora: 6 (*)
20) listado: 5

corrector
Lengua: spa
Frec: 96
Docs: 14
Nombre propio: / 96 = 0%
Coocurrencias con glosario: 8
Puntaje: 9.071 = (8 + (1+7.13955135239879) / (1+6.59991284218713)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
corrector
: Ariza, A. & Tapia, A. M. (1997-1998). El corrector ortográfico y la presentación del texto escrito. Cauce. Revista de Filología y su Didáctica, 20-21, 375-412.
: Chen (2009), por su parte, compara la eficacia de un corrector gramatical de inglés, basado en métodos estadísticos, diseñado por la National Taiwan Normal University (NTNU), con otro de Microsoft, el Microsoft ESL Assistant. Aquel funciona así:
: Díaz Villa, A.M. (2005). Tipología de errores gramaticales para un corrector automático. Procesamiento del Lenguaje Natural, 35, 409-416.
: Lawley, J. & Martin, R. (2006). Corrector de gramática para estudiantes autodidactas de inglés como lengua extranjera. Revista de Educación, 340, 1171-1191.
: Nadasdi, T. & Sinclair, S. (2001-2015). SpanishChecker.com. Corrector de ortografía y gramática.
: San Mateo, A. (2016). Un corpus de bigramas utilizado como corrector ortográfico y gramatical destinado a hablantes nativos de español. Revista Signos. Estudios de Lingüística, 49(90), 94-118.
: Tapia, A. & Ariza, A. (1997-1998). El corrector ortográfico y la presentación del texto escrito. Cauce: Revista de filología y su didáctica, 2(20-21), 375-412. ISSN 0212-0410.