Elle améliore cette dernière en incluant un modèle statistique particulier. La PLSA possède des applications dans le filtrage et la recherche d'information, le traitement des langues naturelles, l'apprentissage automatique et les domaines associés.
Elle fut introduite en 1999 par Thomas Hofmann[1],[2], et possède des liens avec la factorisation de matrices positives.
Il a été montré que l'analyse sémantique latente probabiliste souffre parfois de surapprentissage[3], le nombre de paramètres croissant linéairement avec celui des documents.
Bien que PLSA soit un modèle génératif des documents de la collection, elle modélise effectivement directement la densité jointe, elle ne permet pas de générer de nouveaux documents, et en ce sens n'est pas un « vrai » modèle génératif[4]. Cette limitation est levée par l'Allocation de Dirichlet latente (LDA).
Ces modèles ont été conçus pour pallier une limitation souvent évoquée de la PLSA, à savoir qu'elle n'est pas vraiment un modèle génératif, dans le sens où elle est incapable de générer de nouveaux documents.
↑(en) Thomas Hofmann, « Probabilistic Latent Semantic Indexing », Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval (SIGIR-99), 1999