Verbario
es un proyecto de análisis léxico del español que se encuentra en
proceso de elaboración (2014-2017). Tiene dos partes:
Base
de datos de verbos del español, manual y automática.
Taxonomía
automática de sustantivos del español.
↑
Base
de datos de verbos del español
Una
parte del proyecto consiste en crear una base de datos de verbos del
español analizados mediante corpus combinando información
sintáctica y semántica. Se toma como objeto de análisis el patrón
o los patrones de uso de cada verbo, que están formados por la
estructura argumental de este y por los tipos semánticos de los
argumentos. A cada patrón de uso le corresponde un significado.
Este
análisis toma como base la teoría de normas y explotaciones, TNE
(Hanks 2013) y la metodología de análisis es el Corpus Pattern
Analysis, CPA (Hanks 2004). Este marco teórico parte de varios
autores (Firth 1957, Sinclair 1999, entre otros) que postulan que el
contexto sintagmático determina el significado de una unidad léxica;
así, el verbo cortar
no tiene un significado aisladamente, sino que pasa a tenerlo en
función del tipo de complemento: cortar
una torta
se distingue de cortar
la carretera, cortar con un novio, etc.
Este contexto, o más específicamente cotexto,
consiste en la combinatoria léxica y estructura sintáctica de la
oración. La aplicación de este enfoque se ha plasmado en el Pattern
Dictionary of English Verbs
(Hanks, en proceso), y Verbario constituye el proyecto español, con
la diferencia de que en él se ofrece también el análisis
automático tanto de los patrones como de la taxonomía.
La
interfaz presenta al usuario el análisis automático (arriba) y el
manual (abajo). El análisis automático, en fase de estudio, es el
resultado de la aplicación de una serie de algoritmos de
coocurrencia léxica basados en principios de semántica
distribucional (ver trabajos).
De cada verbo, se ofrece el listado de patrones obtenidos mediante
este procedimiento y algunos de los contextos de corpus de los cuales
se han obtenido dichos patrones. Por su lado, el análisis manual
presenta cada patrón con su implicatura o “definición” más las
concordancias de corpus que se anotaron para obtener los patrones.
↑
Taxonomía
automática de sustantivos del español
La parte del proyecto dedicada a la taxonomía
constituye un paso previo a la automatización de los patrones, dado
que es necesario etiquetar los argumentos verbales con su tipo
semántico. Los tipos semánticos son etiquetas genéricas de dichos
sustantivos (sin embargo, menos genéricas que los papeles
temáticos). Por ejemplo, el sustantivo silla
se etiqueta como MUEBLE, casa
como CONSTRUCCIÓN, alegría como
EMOCIÓN, etc.
Los tipos semánticos están estructurados y relacionados en la CPA
Ontology (Hanks, en proceso), que contiene unas 250 etiquetas; es por
tanto una ontología superficial. La automatización del proceso
consiste en conectar las unidades léxicas a alguno de los tipos
semánticos de esta ontología básica previamente elaborada.
La
web ofrece, por el momento (7/8/2015), 33.000
sustantivos etiquetados automáticamente.
↑
Bibliografía
Sobre
patrones sintáctico-semánticos analizados con CPA
Alonso, A., Renau, I.
2013. “Corpus
Pattern Analysis in determining specialised uses of verbal lexical
units”. Terminàlia
7:
26-33.
Nazar, R., Renau, I. (2016). “A Quantitative analysis of the semantics
of verb-argument structures”. In S. Torner and E. Bernal (eds.),
Collocations and other lexical combinations in Spanish. Theoretical
and Applied approaches. New York: Routledge, pp. 114-136.
Renau, I. 2012. Gramática
y diccionario: las construcciones con “se” en las entradas
verbales del diccionario de español como lengua extranjera.
Tesis doctoral. IULA-UPF.
Renau, I., Battaner, P. 2012. “Using CPA to
represent Spanish pronominal verbs in a learners’ dictionary”. En
Fjeld, R. V., Torjusen, J. M. (eds.), Proceedings
of the 15th EURALEX International Congress.
Oslo: University of Oslo, pp. 350-361.
Renau, I., Nazar, R.
2011a. “Propuesta metodológica para la creación automática de patrones léxicos usando el Corpus Pattern Analysis”. Actas
del 27° Congreso de la SEPLN.
Huelva: Universidad de Huelva.
Sobre
la automatización de la taxonomía
Nazar, R.; Renau, I. (2015). Agrupación semántica de sustantivos basada en similitud distribucional: implicaciones lexicográficas. In María Pilar Garcés Gómez (ed.): "Lingüística y diccionarios" (Anexos Revista de Lexicografía, vol. 2: 272-295). Universidade da Coruña.
Nazar, R., Renau, I. 2012. “A co-occurrence
taxonomy from a general language corpus”. En Fjeld, R. V.,
Torjusen, J. M. (eds.), Proceedings
of the 15th EURALEX International Congress.
Oslo: University of Oslo, pp. 367-375.
Nazar, R.; Renau, I. (2015). Ontology Population Using Corpus Statistics. Proceedings of the Joint Ontology Workshops 2015 co-located with the 24th International Joint Conference on Artificial Intelligence (IJCAI 2015). Buenos Aires, Argentina, July 25-27, 2015.
Renau, I.; Nazar, R. 2012. “Hypernymy relations from definiens-definiendum co-occurrence in multiple dictionary
definitions”. Procesamiento del
Lenguaje Natural 49: 83-90. ISSN:
1989-7553.
Referencias
bibliográficas del marco teórico del proyecto
Firth, J. R. 1957.
Papers
in Linguistics 1934-1951. Oxford:
Oxford University Press.
Hanks. P. 2013.
Lexical
Analysis. Norms and Exploitations. Cambridge,
MA: MIT Press.
Hanks, P. En proceso.
Pattern
Dictionary of English Verbs:
http://deb.fi.muni.cz/pdev.
Hanks, P.,
Pustejovsky, J. 2005. A Pattern Dictionary for Natural Language
Processing. Revue
Francaise de Linguistique Appliquée,
10(2): 63-82.
Sinclair, J. 1999. The
Lexical Item. En Weigand, E. (ed.). Contrastive
Lexical Semantics. Amsterdam:
John Benjamins, pp. 1-24.
↑
Cómo
citar Verbario
Renau, I., Nazar, R. En proceso. Verbario. URL:
http://www.verbario.com.
↑
Financiación
Verbario
está vinculado al siguiente proyecto de investigación
actualmente vigente:
>
Proyecto Fondecyt 11140704: "Detección automática del significado de los verbos del castellano por medio de patrones sintáctico-semánticos extraídos con estadística de corpus". Investigadora Principal: Irene Renau
↑
Equipo
Equipo
de Verbario Patrones:
Investigadora
responsable: Irene Renau
Colaborador: Rogelio Nazar
Personal
técnico: Ana Castro, Emmy González, Benjamín López, Javier
Obreque
Apoyo en
redacción de patrones: Blanca Arias (Universitat Pompeu Fabra)
Equipo
de Verbario Taxonomía: Nicolás Araya, Patricio Arriagada, Ximena Bravo, Marta Cerón, Ángela Gómez, Andrea Soto
Colaborador en desarrollo web: Nicolás Acosta
Diseño
web: Sebastián Marques
↑
Contacto
Irene
Renau:
Pontificia
Universidad Católica de Valparaíso
Av/El
Bosque, 1290, Viña del Mar, Chile
irene.renau
arroba pucv.cl
Rogelio
Nazar:
Pontificia
Universidad Católica de Valparaíso
Av/El
Bosque, 1290, Viña del Mar, Chile
rogelio.nazar
arroba pucv.cl
|