TextRank-BERT-LDA短文本主题挖掘模型

打开文本图片集
摘要:传统 LDA(Latent Dirichlet Allocation,潜在狄利克雷分配) 主题模型在处理商品评论短文本时,由于特征稀疏和主题混杂问题,表现不佳。文章提出了一种新型短文本主题模型 TextRank-BERT-LDA。该模型利用 TextRank 算法提取商品属性相关关键词并分割评论,有效解决了主题混杂问题;通过 BERT(Bidirectional Encoder Representations from Transformers,基于双向 Transformer 的预训练语言模型) 计算句子间的相似性并进行聚类,扩充短文本的特征表示。(剩余9505字)