文本信息处理中: 潜在语义分析使用的是 文本信息处理的 单词向量空间模型也有一定的 话题(topic),就是指文本所讨论的内容或主题。 这样,基于话题的模型就可以解决上述基于单词的模型存在的问题。 定义一种话题向量空间模型(topic vector space model) 潜在语义分析 利用 矩阵奇异值分解(SVD),对 潜在语义分析 根据 非负矩阵分解 也可以用于 话题分析 定义:找到两个非负矩阵乘积近似表示一个非负矩阵 非负矩阵分解 可以表为以下的最优化问题:
文本信息检索
,也被称为潜在语义索引(latent semantic indexing,LSI),在推荐系统、图像处理、生物信息学等领域也有广泛应用
单词向量空间的度量
表示文本之间的语义相似度非概率的话题分析模型
单词-文本
矩阵奇异值分解
,从而得到话题向量空间,以及文本在话题向量空间的表示非负矩阵分解
(non-negative matrix factorization,NMF)是另一种矩阵的因子分解方法,其特点是分解的矩阵非负。非负矩阵分解也可以用于话题分析。1. 单词向量空间、话题向量空间
1.1 单词向量空间
一个核心问题
是对文本的语义内容进行表示,并进行文本之间的语义相似度计算。
每一维对应一个单词
,其数值为该单词在该文本中出现的频数或权值
文本中所有单词的出现情况表示了文本的语义内容;
文本集合中的每个文本都表示为一个向量,存在于一个向量空间;
向量空间的度量,如内积或标准化内积表示文本之间的“语义相似度”。
单词频率-逆文本频率
(term frequency-inverse document frequency,TF-IDF)表示,其定义是
单词向量空间模型的优点
:
是模型简单,计算效率高
。因为单词向量通常是稀疏的,两个向量的内积计算只需要在其同不为零的维度上进行即可,需要的计算很少,可以高效地完成局限性
:
内积相似度
未必能够准确表达两个文本的语义相似度上一词多义性
(polysemy)及多词一义性
(synonymy),所以基于单词向量的相似度计算存在不精确的问题
1.2 话题向量空间
通常远远小于
单词的个数,话题向量空间模型更加抽象单词向量空间
模型与话题向量空间
模型互为补充,两者可以同时使用单词-文本
矩阵
X 近似为:单词-话题
矩阵
T & 话题-文本
矩阵
Y 的乘积形式,
X≈TY
2. 潜在语义分析算法
单词-文本
矩阵进行奇异值分解
话题向量空间
文本在话题向量空间的表示
确定的话题个数k
对单词-文本
矩阵
X进行截断奇异值分解
2.1 例子
3. 非负矩阵分解算法
单词-文本
矩阵进行非负矩阵分解
左矩阵
作为话题向量空间
右矩阵
作为文本在话题向量空间的表示
。注意通常单词-文本
矩阵是非负的(所有元素 >= 0)
X≈WH,X≥0,W≥0,H≥0
W 为基矩阵,表示话题空间,
H 为系数矩阵,是文本在话题空间的表示。
非负矩阵分解 旨在 用较少的基向量、系数向量 来 表示较大的数据矩阵
min∣∣X−WH∣∣2st.W,H≥0非负矩阵分解
的算法是迭代算法
W和
H进行更新。
W和
H均为非负4. TruncatedSVD 潜在语义分析实践
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算