Linguamática (Jul 2013)
Construcción de una base de conocimiento léxico multilíngüe de amplia cobertura: Multilingual Central Repository
Abstract
El uso de recursos semánticos de amplia cobertura y dominio general se ha convertido en una práctica común y a menudo necesaria para los sistemas actuales de Procesamiento del Lenguaje Natural (PLN). WordNet es, con mucho, el recurso semántico más utilizado en PLN. Siguiendo el éxito de WordNet, el proyecto EuroWordNet ha diseñado una infraestructura semántica multilingüe para desarrollar wordnets para un conjunto de lenguas europeas. En EuroWordNet, estos wordnets están interconectados con enlaces interlingüísticos almacenados en el índice interlingual (en inglés, interlingual-index o ILI). Siguiendo la arquitectura de EuroWordNet, el proyecto MEANING ha desarrollado las primeras versiones del Multilingual Central Repository (MCR) usando un ILI basado en WordNet 1.6. Con ello, se mantiene la compatibilidad entre los wordnets de diferentes idiomas y versiones. Esta versión del MCR integra seis versiones diferentes de la WordNet inglés (de 1.6 a 3.0) y también wordnets en castellano, catalán, euskera e italiano, junto a más de un millón de relaciones semánticas entre conceptos así como propiedades semánticas de diferentes ontologías. Recientemente hemos desarrollado una nueva versión del MCR usando un ILI basado en WordNet 3.0. Esta nueva versión del MCR integra wordnets de cinco idiomas diferentes: inglés, castellano, catalán, euskera y gallego. La versión actual del MCR, al igual que la anterior, integra sistemáticamente miles de relaciones semánticas entre conceptos. Además, el MCR se ha enriquecido con cerca de 460.000 propiedades semánticas y ontológicas que incluyen Base Level Concepts, Top Ontology, WordNet Domains y AdimenSUMO, proporcionando coherencia ontológica a todos los wordnets y recursos semánticos integrados en ella.