最近看了一下LDA的文章, 写个小结, 理解正确与否有待验证.
Latent Dirichlet Allocation(LDA)是三层的层次概率贝叶斯模型(生成模型), 用于处理离散数据, 比如文本数据.
1. 概念单词(word): 形成数据的基本单元
文档(document): 单词形成的有限序列
语料库(corpus): 所有文档的集合
2. 记号假设一共有$ V \(个单词, 则第\) j $个单词表示为:
\[w = (0,\cdots,0,1,0,\cdots, 0), \text{其中$ 1 $位于第$ j $个位置.} \]