Termout.org logo/LING


Update: February 24, 2023 The new version of Termout.org is now online, so this web site is now obsolete and will soon be dismantled.

Lista de candidatos sometidos a examen:
1) wordnet (*)
(*) Términos presentes en el nuestro glosario de lingüística

1) Candidate: wordnet


Is in goldstandard

1
paper corpusRLAtxt87 - : • Descripción lexicográfica. WordNet no incorpora definiciones lexicográficas precisas de los conceptos, sino artefactos más laxos: glosas y ejemplos . En muchos casos éstos entran en conflicto o incluso parecen contradecir el significado que dimana de las relaciones ontológicas del concepto en cuestión.

2
paper corpusRLAtxt87 - : • Morfología. El pretratamiento de WordNet se realizó con FreeLing para poder lematizar las formas. Uno de los problemas que se encontró fue el hecho que la lematización de FreeLing y de WordNet no coincide. Estas diferencias afectan básicamente a distintos criterios de lematización en formas con diferentes géneros (por ejemplo, ‘hermana en FreeLing tiene como lema ‘hermano' cuando ‘hermana tiene un lema propio en WordNet) o a diminutivos (como por ejemplo: ‘pueblecito' o ‘jovencito' ). En estos últimos, FreeLing utiliza directamente el diminutivo como lema (por considerar el diminutivo como resultado de un proceso derivativo y no flexivo), mientras que WordNet no incluye diminutivos que mantienen el significado del término original como variantes de los conceptos. Así, estas divergencias han provocado algunos problemas de anotación.

3
paper corpusRLAtxt87 - : En cualquier caso, si se adopta como es nuestro caso una metodología de anotación de corpus basada en el uso de WordNet como inventario de significados, se asume, aunque sea desde un punto de vista procedimental, la división de las palabras y los conceptos en sentidos diferenciados. Sin embargo, surge el problema de la falta de sistematicidad de WordNet a este respecto. Para un mismo lema pueden coexistir en WordNet varios sentidos muy similares y difíciles de diferenciar con vacíos de significado: la inexistencia de uno de sus sentidos obvios . Por otra parte, distinciones regulares y conocidas, como los diversos tipos de polisemia regular (Apresjan, 1973) no se aplican (o dejan de aplicar) de manera sistemática.

4
paper corpusRLAtxt87 - : Clasificaremos este problema general de WordNet, la excesiva granularidad de significados, en los siguientes tipos básicos:

5
paper corpusRLAtxt87 - : Un problema distinto aunque relacionado surge no del diseño de WordNet sino de qué información proporciona:

6
paper corpusRLAtxt87 - : Es obvio que WordNet, pese a ser la mayor base de conocimiento léxico-semántico, no recoge todo el vocabulario existente de una lengua. Por supuesto ello no es posible porque el léxico está sujeto a la creatividad y otras formas de constante incremento. Sin embargo, hay que dejar constancia de que ello es un problema importante para la anotación de corpus y como tal debe ser afrontado. Las principales dimensiones de incompletitud de WordNet son las siguientes:

7
paper corpusRLAtxt87 - : • Falta de variant. Asimismo también pueden faltar sinónimos de conceptos existentes (el synset es incompleto). Por ejemplo, en la estructura de WordNet en inglés hay una variant para living will, que en español se corresponde a "testamento vital" . De todas formas, en la estructura de WordNet en español, "testamento vital" no está recogido en la versión utilizada.

8
paper corpusRLAtxt87 - : • Incompletitud indeterminada. Algunos casos están a medio camino entre la falta de synset o la falta de variant Es el caso de ‘baile' (como en "baile de cifras"). Se puede considerar que un concepto cercano a ‘baile' aparece en WordNet (‘variación'), aunque este synset no es el concepto exacto para este lema, ya que ‘baile' implica reiteración en la variación . Las posibles soluciones darían lugar a nuevos problemas, ya que si ESPWN1.6 incorporara para este concepto un nuevo synset se produciría intersección de sentidos (cf. apartado anterior). Si, en cambio, incorporara ‘baile' como variant en el synset de "variación" se produciría una reducción de sentido de las descritas por Guarino (1998) -cf. § 4.2-.

9
paper corpusRLAtxt87 - : • Morfología. En estos casos la interfaz no nos permitía superar la divergencia de lema entre FreeLing y WordNet, así se ha optado por elaborar una lista de este tipo de incidencias anotando el synset que corresponde al diminutivo . Es decir el anotador realiza la tarea; pero no en la interfaz sino en un listado independiente y se anota esta situación en los comentarios.

10
paper corpusRLAtxt87 - : De acuerdo con WordNet, experiencia_2 refiere al "contenido de la observación o la participación directas en un evento", mientras que experiencia_ 3 refiere al "evento tal y como se percibe" . Dada la dificultad casi metafísica de distinguir entre ambos sentidos, se ha optado por agruparlos. El total de agrupaciones realizadas es de 58, afectando a un total de 129 synsets.

11
paper corpusRLAtxt87 - : • Sentidos metafóricos y metonímicos. Las ocurrencias en que el sentido metafórico o metonímico no está especificado en WordNet se anotan usando el ywatf correspondiente a una interpretación literal, y se marcan con el operador para indicar su interpretación metafórica ; por ejemplo, ‘barón de un partido u organización y ‘barón en sentido nobiliario; el segundo sentido está recogido en WordNet pero no el primero.

12
paper corpusRLAtxt87 - : • Nombres propios, fechas y cantidades de dinero. Se anotan mediante las categorías establecidas en las MUC^[40]9 ([41]Tabla II). Aunque WordNet contiene un número importante de nombres propios, muchos de estos son locales -pertenecen a la cultura o el ámbito estadounidense. Este es el caso de "Agencia Tributaria", un concepto propio del español y, por consiguiente, no recogido en la estructura del WordNet del inglés (tampoco en la del español):

13
paper corpusRLAtxt87 - : Como resultado colateral del proceso se ha realizado un análisis crítico de WordNet 1.6 del español, aplicable en muchos aspectos a los WordNets en general, como recurso de anotación lexico-semántica de corpus. Los puntos débiles detectados en el recurso han dado lugar a la elaboración de una guía de criterios de anotación, que también puede resultar útil para los investigadores que emprendan tareas similares de etiquetado con WordNet. Asimismo, la casuística detectada está siendo aplicada por el grupo en la construcción de la versión 3.0 del WordNet español (Fernández et al, 2008): inclusión de usos metafóricos o metonímicos del léxico, agrupación de sentidos, incorporación de sentidos o palabras ausentes, mejora o sustitución de glosas, etc .

14
paper corpusRLAtxt74 - : WordNet es una base de datos léxica diseñada sobre la base de las teorías psicolingüísticas del lexicón mental (Miller, Beckwith, Fellbaum, Gross, & Miller, 1990) con el objetivo de agilizar las búsquedas en los diccionarios en línea de la lengua inglesa, posteriormente, con el proyecto EuroWordNet (Vossen, 1996) se logró ampliarla para otros lenguajes, tales como: español, alemán, etc .

15
paper corpusRLAtxt74 - : Mientras que el algoritmo de Lesk restringe las comparaciones a las definiciones del diccionario de las palabras que están siendo desambiguadas, otra propuesta (Banerjee, 2002) selecciona como fuente de conocimiento a WordNet, lo que presupone la comparación de las glosas de palabras que están conectadas por varias relaciones semánticas, con las palabras que están siendo desambiguadas . En los experimentos presentados por Banerjee (2002) se utilizaron las siguientes relaciones: hiperonimia, hiponimia, meronimia, holonimia, troponimia y atributo.

16
paper corpusRLAtxt74 - : recursos a la herramienta. A continuación se muestra el diagrama de diseño de las clases encargadas de manipular los recursos de WordNet en inglés:

17
paper corpusSignostxt375 - : (v) Refinamiento. Finalmente, los conceptos básicos que no desempeñen su papel ontológico de manera productiva son convertidos en conceptos terminales. Más concretamente, el umbral de productividad de los conceptos básicos resultantes de la fase anterior se establecerá automáticamente a partir de su expresividad semántica, o “contenido de información” (IC). Existen diversas medidas que nos permiten cuantificar el IC extrínseca o intrínsecamente. Desde un enfoque extrínseco, el IC de un concepto se obtiene combinando el conocimiento de la estructura jerárquica de la ontología con la estadística proveniente de un determinado corpus. Los primeros modelos sobre IC (Jiang & Conrath, 1997; Lin, 1998) adoptaron este enfoque, todos los cuales se basaron de alguna forma en el negativo del logaritmo de la verosimilitud propuesto por Resnik (1995), i.e. -log p(c), donde c es un concepto en WordNet y p(c) es la probabilidad de encontrar una instancia de c en un determinado corpus . En estos casos,

18
paper corpusSignostxt336 - : Vossen P. (Ed). (1998). EuroWordNet: A multilingual database with lexical semantic networks . Dordrecht: Kluwer Academic Publishers. The Spanish WordNet [online]. Retrieved from: [71]http://adimen.si.ehu.es/cgi-bin/wei/public/wei.consult.perl

19
paper corpusSignostxt389 - : WordNet es una base de datos léxica para el inglés agrupada en sustantivos, verbos, adjetivos y adverbios . Está organizada jerárquicamente en grupos de sinónimos llamados ‘synsets’, y está enlazada mediante relaciones semánticas de hiperonimia / hiponimia (clase / subclase), holonimia / meronimia (todo / parte), antonimia y algunas otras. De esta base de datos léxica se obtuvo la jerarquía de ‘conceptos tipo’ por medio de las relaciones semánticas de hiperonimia / hiponimia. Por ejemplo, atmospheric phenomenon / storm (fenómeno atmosférico / tormenta), residence / home (residencia / casa).

20
paper corpusSignostxt396 - : The initial stage of this study involved compiling a list of the lexical items from the semantic fields of building and animals, which were used in Angling (1988) and in Eskerod (1996). The corpus of project management texts was electronically queried for those items with WordSmith Tools 5, and a list of concordances was obtained. The list was manually analyzed for metaphorical uses (Pragglejaz Group, 2007). Moreover, the corpus word list was generated to search for other lexical items from the two semantic fields mentioned in the corpus. In order to ensure reliability at this particular stage, the lexical items selected from the word list were checked against Wordnet synsets ([24]http://wordnet .princeton.edu/) and additionally, other items from the two semantic fields given by Wordnet were searched for in the corpus word list. In this way, a complete list of lexical items from the two semantic fields, considered as the metaphor candidates, was produced. After that, the corpus was

Evaluando al candidato wordnet:


1) sentidos: 8
3) conceptos: 6
4) corpus: 6 (*)
6) lema: 6 (*)
7) items: 6
8) synset: 6
9) palabras: 5 (*)
10) freeling: 5
13) semantic: 5 (*)
14) lexical: 5 (*)
20) baile: 4

wordnet
Lengua: spa
Frec: 126
Docs: 23
Nombre propio: 20 / 126 = 15%
Coocurrencias con glosario: 5
Puntaje: 5.873 = (5 + (1+5.97727992349992) / (1+6.98868468677217)));
Candidato aceptado

Referencias bibliográficas encontradas sobre cada término

(Que existan referencias dedicadas a un término es también indicio de terminologicidad.)
wordnet
: Agirre, E., Aldezabal, I., Etxeberria, J., Iruskieta, M., Izagirre, E., Mendizabal, K. y Pociello, E. 2006. "Improving the Basque WordNet by corpus annotation", en Proceedings of the Third International WordNet Conference, pp. 287-290.
: Atserias, J., Villarejo, L., Rigau, G., Agirre, E., Carroll, J., Magnini, B. y Vossen, P. 2004. "The MEANING Multilingual Central Repository", en Proceedings of the Second International WordNet Conference-GWC, pp. 23-30.
: Banerjee, S. & Pedersen, T. (2002). An adapted lesk algorithm for word sense disambiguation using wordnet. Proceedings of the CICLing 2002 Conference (pp. 136-145). LNCS: Springer-Verlag.
: Fellbaum, C. (1998). WordNet. Blackwell Publishing Ltd.
: Fellbaum, C. (1998). WordNet: An electronic lexical database. Cambridge (Mass.): MIT Press.
: Fernández-Montraveta, A., Vázquez, G. y Fellbaum, C. 2008. "The Spanish version of WordNet 3.0". En Storrer, A., Geyken, A., Siebert, A., Würzner, K.M. (Eds.).Text resources and lexical knowledge. Berlin: Mouton de Gruyter, pp. 175-182.
: Miller, G. (1998). Nous in WordNet. En C. Fellbaum. (Ed.), WordNet: An electronic lexical database (pp. 23-46). Cambridge: MIT Press.
: Miller, G. A. (1995). WordNet: A lexical Database for English. Communications of the ACM, 38(11), 39-41.
: Miller, G. A., Beckwith, R., Fellbaum, C., Gross, D. & Miller, K. (1990). Five Papers on WordNet. Special Issue of the International Journal of Lexicography, 3, 234-244.
: Naskar, S. K. & Bandyopadhyay, S. (2007). JU-SKNSB: Extended WordNet based WSD on the English all-words task at SemEval-1. Proceedings of the 4th International Workshop on Semantic Evaluations (pp. 203-206). Association for Computational Linguistics.
: Sagri, M., Tiscornia, D. & Bertagna, F. (2004). Jur-WordNet. En P. Sojka, K. Pala, P. Smrz, C. Fellbaum & P. Vossen (Eds.), Proceedings of the Second International WordNet Conference (pp. 305-310). Brno: Universidad de Masaryk.
: Seco, N., Veale, T. & Hayes, J. (2004). An intrinsic information content metric for semantic similarity in WordNet. Proceedings of the 16th European Conference on Artificial Intelligence (pp. 1089-1090). Valencia.
: Vossen, P. 1996. "EuroWordNet: Building a Multilingual WordNet Database with Semantic Relations between Words", en Procesamiento del lenguaje natural 18, pp. 145-158.
: WordNet Release 2.1. (2005). [online]. Retrieved from: [74]http://wordnet.princeton.edu