almost 4 years ago

Probabilistic Latent Semantic Indexing

這篇Paper要處理的問題,就是文件的分類與檢索(indexing),基於LSA(Latent Semantic Analysis)並利用EM(Expectation Maximization)train出的corpus去方便做語意上的分類,並同時能解決同義字與一字多義的問題。

首先先簡單的介紹一下LSA,LSA的Idea很簡單,主要就是我們可以將training data中的每個document d與所有的training document中的word的聯集,形成一個非常大而稀疏(Sparse)的矩陣。

之後再利用SVD(Singular Value Decomposition)去將這個matrix分解成U(sigma)V的形式,其中的物理意義分別為U=P(d|k), V=P(w|z), sigma=diag(P(z))。

由於Sigma這個對角矩陣中對角線的每個element都是singular value,再把除了top k大的singular value外的element都設為零,以物理意義來說就是只留下前k大具代表性的vector,以達到dimention reduction的目的。

而PLSA就是基於以上所述的LSA,加上機率統計模型的輔助而試圖去做改進。

而PLSA的一大核心就是Aspect Model,Aspect Model是種generative model,所以希望能求得的是P(w,d)的pair,並利用這個式子去想辦法得到我們想要的P(z)。

但為了避免overfitting發生,所以他們引入了tempered EM(TEM),基於entropic regularization,並與deterministic annealing十分的接近。

透過加入貝塔這個參數,並iterative的去learn出最適合的貝塔。

最後就可以在latent space上面,而不是原本的sparse matrix上做indexing,並直接在上面計算相似度(similarity),能讓index加速但仍然保有一定程度的物理意義,並得到我們想要的結果。

我想這篇paper的貢獻主要就是基於LSA,加上機率統計模型的輔助去improve 原本的LSI,並

← [Paper critique] Product quantization for nearest neighbor search [Paper cirtique] Latent Dirichlet Allocation →