M. Antònia Martí
Conferencia plenaria
Modelos de semántica distribucional
M. Antònia Martí Antonin
(Universitat de Barcelona)
Los modelos de semántica distribucional (MSD) construyen representaciones semánticas de manera dinámica en forma de espacios vectoriales multidimensionales a través del análisis estadístico de los contextos en que cada palabra aparece. Las palabras son los vectores y los contextos son las coordenadas de los mismos. El vector de cada palabra está constituido por los contextos en que ésta aparece y por el número de veces que ocurre en cada uno de ellos. Se trata de una aproximación cuantitativa del significado ya que representamos la información lingüística en términos de representaciones geométricas, los vectores. Gracias a esta representación cuantitativa del significado, en el espacio vectorial podemos comparar vectores (palabras) y obtener el grado de similitud que hay entre ellos de manera objetiva. Un aspecto importante de esta metodología, y donde los lingüistas pueden realizar una aportación significativa, es la determinación del tipo de contexto que se toma en consideración y si se aplica o no un procesamiento previo al corpus.
En el marco de la Lingüística Computacional esta aproximación al significado aparece como una alternativa a las limitaciones que presentan las aproximaciones tradicionales al significado de base simbólica. Frente a los modelos simbólicos, los modelos de semántica distribucional y su representación mediante modelos de espacios vectoriales, tienen unas propiedades que los hacen especialmente atractivos para el tratamiento computacional del significado. En primer lugar, el contenido semántico de una palabra se basa en su distribución y no en rasgos inherentes (rasgos semánticos o componentes del significado). Como resultado, las representaciones léxicas son cuantitativas y graduales, no simbólicas ni categoriales; se trata de representaciones relacionales, no referenciales; las relaciones semánticas entre las palabras representadas de este modo se pueden cuantificar y son graduales. Se trata de una aproximación radicalmente empírica. El modelo de aprendizaje del significado de las palabras es inductivo y es fácilmente escalable. Finalmente, el método es independiente de la lengua.