潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于 LDA模型是文本集合的 假设每个 每个 特别假设 先验分布的导入使LDA能够更好地应对话题模型学习中的过拟合现象 LDA的文本集合的生成过程如下: LDA模型是 狄利克雷分布(Dirichlet distribution)是一种多元连续随机变量的概率分布,是贝塔分布(beta distribution)的扩展。在贝叶斯学习中,狄利克雷分布常作为多项分布的先验分布使用。 定义: 多元连续随机变量 利用LDA进行话题分析,就是对给定文本集合,学习到每个文本的话题分布,以及每个话题的单词分布。 LDA模型的学习与推理不能直接求解。贝叶斯学习
的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。
生成概率模型
文本
由话题的一个多项分布
表示话题
由单词的一个多项分布
表示文本的话题分布
的先验分布是狄利克雷分布话题的单词
分布的先验分布也是狄利克雷分布
含有隐变量
的概率图模型
1. 狄利克雷分布
θ=(θ1,θ2,...,θk) 的概率密度函数为:
p(θ∣α)=i=1∏kΓ(αi)Γ(i=1∑kαi)i=1∏kθiαi−1i=1∑kθi=1,θi≥0,αi>0,记作θ∼Dir(α)
伽马函数,Γ(s)=∫0∞xs−1e−xdx,s>0
伽马函数性质:
Γ(s+1)=sΓ(s)
当
s 是自然数时,有
Γ(s+1)=s!2. 潜在狄利克雷分配模型
LDA模型是概率图模型:
狄利克雷分布
为多项分布的先验分布
狄利克雷分布
作为先验分布,而PLSA不使用先验分布
(或者说假设先验分布是均匀分布),两者对文本生成过程有不同假设3. 学习推理
吉布斯抽样算法
和变分EM算法
蒙特卡罗法
,而后者是近似算法
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算