LDA主题模型

日期：2021-06-28 栏目：程序人生浏览：次

最近看了一下LDA的文章, 写个小结, 理解正确与否有待验证.

Latent Dirichlet Allocation(LDA)是三层的层次概率贝叶斯模型(生成模型), 用于处理离散数据, 比如文本数据.

1. 概念

单词(word): 形成数据的基本单元

文档(document): 单词形成的有限序列

语料库(corpus): 所有文档的集合

2. 记号

假设一共有$ V $个单词, 则第$ j $个单词表示为:

\[w = (0,\cdots,0,1,0,\cdots, 0), \text{其中$ 1 $位于第$ j $个位置.} \]