about 4 years ago

Latent Dirichlet Allocation是PLSI的一個改進版本,主要是改善PLSI的一些問題,像是因為PLSI是topic mixure model,但對於沒看過的文章,我們很難去對這篇文章針對每個topic去給weight,加上因為要每篇文章都對每個topic給定一個weight,就需要大量的parameter,但同時也增加了overfittting的機率,不得不說是個不小的缺點。

所以LDA引入了θ的概念,θ是個hidden random variable,可以想成就是每個文章對每個topic的distribution,利用α-θ-z間的關係來解決原本需要調整許多參數的問題,再利用β影響 w,作為每個 document 個別差異的 model 方式。

下圖為LDA的model visualize後的樣子:

經過一連串激烈的推導後,可得下以下的式子

如此這般,就可以得到每個word的topic mixture,進而推斷我們所想要的,文章的semantic的topic的意義。

← [Paper critique] Probabilistic Latent Semantic Indexing [Paper critique] Online Dictionary Learning for Sparse Coding →