Word embedding

Word embedding o encaje léxico es el nombre de un conjunto de modelos de lenguaje y técnicas de aprendizaje en procesamiento del lenguaje natural (PLN) en donde las palabras o frases del lenguaje natural son representadas como vectores de números reales. Conceptualmente implica el encaje matemático de un espacio con una dimensión por palabra a un espacio vectorial continuo con menos dimensiones.

Algunos de los métodos para generar este mapeo o representación son las redes neuronales; la reducción de dimensionalidad con matrices de co-ocurrencia de palabras; los modelos probabilísticos, y la representación explícita en términos del contexto en el cual estas palabras figuran.[1][2][3][4][5][6]

El Word y phrase embeddings (para palabras y frases respectivamente), utilizados de forma subyacente como forma de representación, demostraron aumentar el rendimiento de tareas en el procesamiento del lenguaje natural (NLP) como en el análisis sintáctico[7]​ y análisis de sentimiento.[8]

Desarrollo de la técnica

En lingüística la técnica de word embeddings fue discutida en el área de investigación de semántica distribucional. Apunta para cuantificar y categorizar las semejanzas semánticas entre elementos lingüísticos basándose en sus propiedades distribucionales en muestras grandes de dato de lengua. La idea subyacente que "una palabra está caracterizada por la compañía que mantiene" estuvo popularizado por J. R. Firth.[9]

Hay muchas ramas y muchos grupos de desarrollo trabajando en este tema. En 2013, un equipo en Google dirigido por Tomas Mikolov creó word2vec, un paquete de herramientas el cual puede entrenar un modelo de espacio vectorial más rápidamente que las aproximaciones anteriores.[10]​ La mayoría de las nuevas técnicas utilizan una arquitectura de red neuronal en vez de los modelos más tradicionales como n-gram y aprendizaje no supervisado.[11]

Software

Entre el software para entrenar y utilizar word embedding se halla word2vec, GloVe de Stanford, Gensim,[12]​ Indra[13]​ y Deeplearning4j.[14]​ Tanto el análisis de Componente principal (PCA en inglés) como T-Distributed Stochastic Neighbour Embedding (t-SNE) se utilizan para reducir la dimensionalidad del espacio vectorial de palabras y visualizar el encaje de palabras en grupos (clusters).[15]

Véase también

Referencias

  1. Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). «Distributed Representations of Words and Phrases and their Compositionality». arXiv:1310.4546  [cs.CL]. 
  2. Lebret, Rémi; Collobert, Ronan (2013). «Word Emdeddings through Hellinger PCA». Conference of the European Chapter of the Association for Computational Linguistics (EACL) 2014. arXiv:1312.5542. 
  3. Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization. NIPS. 
  4. Li, Yitan; Xu, Linli (2015). Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective. Int'l J. Conf. on Artificial Intelligence (IJCAI). 
  5. Globerson, Amir (2007). «Euclidean Embedding of Co-occurrence Data». Journal of Machine learning research. 
  6. Levy, Omer; Goldberg, Yoav (2014). Linguistic Regularities in Sparse and Explicit Word Representations. CoNLL. pp. 171-180. 
  7. Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars. Proc. ACL Conf. Archivado desde el original el 11 de agosto de 2016. Consultado el 23 de octubre de 2017. 
  8. Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP. 
  9. Firth, J.R. (1957). «A synopsis of linguistic theory 1930-1955». Studies in Linguistic Analysis (Oxford: Philological Society): 1-32.  Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952-1959. London: Longman. 
  10. word2vec
  11. A Scalable Hierarchical Distributed Language Model. 
  12. «Gensim». 
  13. «Indra». 
  14. «GloVe». 
  15. Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). «A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes». Computing in Cardiology.