LDA主题模型

最近看了一下LDA的文章, 写个小结, 理解正确与否有待验证.

Latent Dirichlet Allocation(LDA)是三层的层次概率贝叶斯模型(生成模型), 用于处理离散数据, 比如文本数据.

1. 概念

单词(word): 形成数据的基本单元

文档(document): 单词形成的有限序列

语料库(corpus): 所有文档的集合

2. 记号

假设一共有$ V \(个单词, 则第\) j $个单词表示为:

\[w = (0,\cdots,0,1,0,\cdots, 0), \text{其中$ 1 $位于第$ j $个位置.} \]

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/zydxff.html