Viernes 11/10: Word Embeddings: Del símbolo al vector


Título: “Word Embeddings: Del símbolo al vector”

Expositor: Dr. Franco M. Luque (FAMAF)

Fecha: Viernes 11 de octubre de 2019, 11 hs, Auditorio IATE.

Resumen: Los word embeddings representan las palabras del lenguaje natural como vectores en R^n. Estas representaciones se aprenden de manera no supervisada a partir de grandes cantidades de texto. Los vectores codifican propiedades distribucionales de las palabras: palabras con usos parecidos tendrán vectores parecidos. Las propiedades codificadas van más allá aún: los espacios de embeddings capturan también relaciones sintácticas y semánticas entre conceptos, que pueden ser calculadas usando operaciones usuales de vectores como sumas o restas. Los embeddings significaron un importante progreso en el campo del Procesamiento de Lenguaje Natural, permitiendo mejorar el estado del arte en muchas tareas, y abriendo la puerta al uso generalizado de redes neuronales. En esta charla voy a introducir algunos modelos de embeddings, sus propiedades, su utilidad y sus limitaciones. 

Referencias:
[1] Mikolov, Tomas; et al. (2013). “Efficient Estimation of Word Representations in Vector Space”. arXiv:1301.3781 [cs.CL].
[2] Tshitoyan, Vahe; et al. (2019). “Unsupervised word embeddings capture latent knowledge from materials science literature”. Nature volume 571, pages 95–98.

Sobre el expositor: 

Franco M. Luque (Universidad Nacional de Córdoba & CONICET)
Investigo en las áreas de Procesamiento de Lenguaje Natural y Machine Learning.
Hice mi doctorado en los temas de análisis sintáctico y aprendizaje espectral.
Actualmente trabajo en análisis de sentimiento y discurso de odio en redes sociales, orientado a idiomas con recursos limitados.