前置概念
特征值和特征向量
给定一个方阵$\mathbf A$,它的特征向量$\mathbf v$经过$\lambda$线性变换后,新向量与之前的仍在同一直线上,方向或长度可能变化,即
$\mathbf{Av}=\lambda\mathbf{v}$
特征
特征指的是从原始数据提取的单个属性,一般是一个数。原始数据必须转化成一个特征向量才可以进一步分析。它们类似于统计中的自变量。特征向量所属的向量空间称为特征空间。
主题模型
是一种统计模型,如果一篇文章有一个中心思想,那么一些特定的词语会更频繁地出现。但是一篇文章通常包含多个主题,所以应该分析包含哪些主题,每个主题所占比例是多少。
潜在语义索引LSI
不同文章之间使用词语关联起来,得到词语的潜在语义索引。将文本集合表示成一个M*N的矩阵,M是词语总数,N是文档数。(i,j)代表在第j篇文档中i出现的个数。通过对文档向量进行奇异值分解,取前k个最大奇异值及对应的奇异矢量构成一个新矩阵来近似表示原文档向量。新矩阵反映了文档中任意两个词语之间的关联性,消除了词和文档之间语义的模糊度。
多项式分布
贝叶斯定理
$p(A|B)=\frac{p(A)p(B|A)}{p(B)}$
其中$p(A)$是A的先验概率,$P(B)$是边缘概率
贝叶斯估计是将贝叶斯定理推广到连续的概率分布中
先验分布*似然函数=后验分布
表示一个具有多个结果的事件执行k次的概率分布,是二项分布在高维度上的推广,记为$Mult(x)$
$p(x|\beta)=\frac{n!}{\Pi_{i=1}^Kx_i!}\Pi_{i=1}^Kp_i^{x_i}$
狄利克雷分布表示了一组多变量并且连续的概率分布,记为$Dir(\alpha)$
$p(\theta|\alpha)=\frac{\Gamma(\sum_{i=1}^K\alpha_i)}{\Pi_{i=1}^K\Gamma(\alpha_i)}\Pi_{i=1}^K\theta_i^{\alpha_i-1}$
$Dir(\alpha)*Mult(x)=Dir(x+\alpha)$
狄利克雷分布的期望$E(\theta)=\left(\frac{\alpha_1}{\sum_{i=1}^K\alpha_i},\frac{\alpha_2}{\sum_{i=1}^K\alpha_I},…,\frac{\alpha_K}{\sum_{i=1}^K\alpha_i}\right)$
潜在狄利克雷分配
三层贝叶斯模型。
文档中每一个词都是通过主题产生的,一篇文章可能有多个不同的主题。文档集上应分布着关于主题的某个概率分布,每篇文档的主题都满足这个概率分布。而词与词的不同组合,将产生不同的主题,因此每个主题又是关于词的条件概率分布。主题分布是不可见的,但是词语分布是可见的。根据文本向量化的思想,可以通过狄利克雷分布来刻画主题、词语和文档之间的关系,通过对文档中词语的分布情况,来推断文档的主题。
对于一篇文档m,主题分布z是用过多项分布$\theta$来表示并生成的,记做$zMult(\theta)$。分布$\theta$壳解释为通过按文档维度来计算的主题分布情况。这一分部无法直接观测得到,而$\theta$的共轭先验概率分布是超参数为$\alpha$的狄利克雷分布,记为$\thetaDir(\alpha)$,因此需要通过$\alpha$来推断$\theta$
设文档数量为M,主题数为K,共V个词语,$\theta_m$表示第m个文档$d_m$中的主题分布,是K维向量$z_m={z_{m,1},…,z_{m,K}}$
文档$d_m$通过$\theta_m$生成第k个主题记为$z_{m,k}$,$z_{m,k}$下面有$n_{m,k}$个词语,这些词语是通过多项分布$\phiMult$表示并生成的,$wMult(\phi)$。解释为按主题维度来统计词语的分布情况。$\phi$无法直接观测得到,是超参数为$\beta$的狄利克雷分布,记做$\phi~Dir(\beta)$,因此$\phi$通过超参数$\beta$来辅助推断。主题$z_{m,k}$下的词语分布是V维向量,$d_m$可以表示为${w_{m,1},…,w_{m,N}}$,N为词语数。
文档的生成过程就是反复执行选择主题-选择词语的操作,最终生成整个文档的集合。
隐含参数文档主题分布$\theta$和主题词语分布$\phi$是最终概率分布的关键,参数推断有两种方式,变分贝叶斯参数推断方法(使用最大化期望算法EM)和Gibbs采样法。
是词袋模型,不考虑词语顺序。
狄利克雷多项回归DMR
从文本数据本身出发,通过控制先验参数的输入,同时简化模型在采样阶段的复杂性,获得更好的效果和更快的速度。
在对样本利用狄利克雷参数进行建模时,会将狄利克雷先验参数一同作为模型参数进行推断,使得参数通过学习得到。在DMR建模时,相比LDA模型增加了两个参数,分别为文档特征向量$x_d$和主题特征向量$\lambda_t$。假设$x_d$包含了文档中的所有特征,$\lambda_t$包含了各个主题下所有特征的权重值。
首先通过方差为$\sigma^2I$,均值为$0$的正态分布选择一个$\lambda_t$,并从参数为$\beta$的地理克雷分布中选择一个主题t的分布$\phi_t$。设每个主题t的狄利克雷先验参数的计算公式为$\alpha_{dt}=exp(x^T_d\lambda_t$,文档-主题分布$\theta$和主题-词语分布$\phi$两个参数的生产方式与LDA一致。
多元狄利克雷多项回归主题模型MDMR
新闻文档生成过程和传统LDA一致
参考资料
主题模型 https://zh.wikipedia.org/wiki/%E4%B8%BB%E9%A2%98%E6%A8%A1%E5%9E%8B
潜在语义索引 https://zh.wikipedia.org/wiki/%E6%BD%9C%E5%9C%A8%E8%AF%AD%E4%B9%89%E7%B4%A2%E5%BC%95
奇异值分解 https://zh.wikipedia.org/wiki/%E5%A5%87%E5%BC%82%E5%80%BC%E5%88%86%E8%A7%A3
杜增文. 基于狄利克雷回归的微博主题检测模型研究[D].中国科学院大学(中国科学院大学人工智能学院),2020.