情感分析论文阅读

Emotion Recognition by Textual Tweets Classification Using Voting Classifier (LR-SGD)

其中tokenize后每个词用一个向量表示,一个句子是一个二维矩,使用TF-IDF提取出句子中的关键词,所以训练的时候输入到每个句子中就是一个一维向量

最后投票的方式就是认为是正面的概率两个模型求平均,认为是负面的求平均,就实现了投票操作

NLP入门笔记阅读

https://github.com/NLP-LOVE/Introduction-NLP/blob/master/chapter/

中文分词方法

  • 基于词典的分词方法
    1. 正向最长匹配
    2. 逆向最长匹配
    3. 双向最长匹配
    4. 字典树,DAT最长匹配

去掉无意义的词可以优化分词效果

  • 基于机器学习的分词方法
    1. 隐含马尔科夫模型
    2. 基于结构化感知机的中文分词
    3. 条件随机场模型

词性标注

序列标注模型

命名实体识别

序列标注模型

数据集可以区tweeter上爬取,貌似有官方API。数据集进行了一些预处理,去除了无关紧要的符号和链接等。

测试数据集参考文献.M. Mohammad, F. Bravo-Marquez, M. Salameh, S. Kiritchenko, SemEval-
2018 task 1: Affect in tweets, in: Proceedings of International Workshop
on Semantic Evaluation (SemEval-2018), New Orleans, LA, USA, 2018.

采用Best–Worst Scaling方法对数据进行手动标注,避免数据内部和数据之间的矛盾。但是还有个强度量使用0-1之间的数值进行标注。

训练时数据集分三份,一份训练,一份development(用于评估模型的性能),一份test-gold,test-gold用于排名各个队伍。

使用Sentence BERT提取属性,使用CrystalFeel情感分析。优于一元分词(一个字看成一个向量)和二元分词(使用条件概率进行分词)。

使用Pearson correlations(皮尔逊相关系数)评测模型准确率。

这篇论文还测试了逻辑回归、随机森林、SVM等情感分类方法。对于葡萄牙语,另外使用了使用朴素贝叶斯,多层感知器,梯度上升等方式。

使用GSDMM识别topic,给出一个topic集合。一个消息只能有一个topic。topic分类的同时指出句子中关于这个topic的单词。

fastText文本分类方法。

架构

Attitude of Chinese public towards municipal solid waste sorting policy: A text mining study

有用的参考文献

Liu, X., Hu, W., 2019. Attention and sentiment of Chinese public toward green buildings based on Sina Weibo. Sustain. Cities Soc. 44, 550–558. https://doi.org/10.1016/j.scs.2018.10.047

Wang, Y., Li, H., Wu, Z., 2019. Attitude of the Chinese public toward off-site construction: a text mining study. J. Clean. Prod. 238, 117926. https://doi.org/10.1016/j.jclepro.2019.117926

语言处理步骤

  1. R 3.5.3(R语言)对数据进行去噪处理
  2. jiebaR用于分词
  3. NLPIR-Parser用于情感分析
  4. LDA topic model用于提取话题,LDAvis包用于可视化结果

What factors affect consumers’ dining sentiments and their ratings: Evidence from restaurant online review data

使用软件Linguistic Inquiry and Word Count (LIWC)进行分词、还原词根等预处理操作

没有正则化文本,而是正则化了情感分析的结果数值

使用lexion-based方法提取关键词

Pennebaker, J. W., & Francis, M. E. (1996). Cognitive, emotional, and language processes in disclosure. Cognition & Emotion, 10(6), 601–626

通过寻找表达情感的词的数量来进行情感分析,字典也是用LIWC的。$\frac{积极/消极情感词数量}{单词总量}$

语种识别技术–知乎

https://zhuanlan.zhihu.com/p/165863653

  1. out-of-space
  2. 朴素贝叶斯
  3. 多类别逻辑回归

非技术也能看懂的 NLP 入门科普.pdf

https://easyai.tech/ai-definition/

NLP两个任务:NLU(机器理解人),NLG(人理解机器)

NLU

NLU处理流程

传统
语料预处理>特征工程>选择分类器

深度学习
预料预处理>设计模型>训练模型

英文语料预处理

  1. 分词 Tokenization
  2. 词干提取-Stemming cites->city/children->child,推荐Snowball
  3. 词性还原-Lemmatization doing/did/does->do,可以用NLTK的WordNet
  4. 词性标注-Parts of Speech
  5. 命名实体识别-NER
  6. 分块-Chunking

英文语料预处理

  1. 分词
  2. 词性标注
    • 规则
    • 统计
    • 规则+统计
    • 基于深度学习
    • Jieba,SnowNLP,THULAC,StandfordCoreNLP,HanLP,NLTK,SpaCy
  3. 命名实体识别
  4. 去除停用词

Transformer是目前NLP最先进的方法,用于语义特征提取

分词是非结构化数据结构化的第一步,词是表达完整含义的最小单位,字含的信息太少,句子信息量太大。

中英文分词有一定的区别

分词方法

  1. 基于词典
  2. 基于统计
  3. 基于深度学习
    中文分词工具star排名
  4. Hanlp
  5. Stanford分词
  6. ansj分词
  7. 哈工大LTP
  8. KCWS分词
  9. jieba
  10. IK
  11. 清华THULAC
  12. ICTCLAS
    英文分词工具排名
  13. Keras
  14. Spacy
  15. Gensim
  16. NLTK

NLG

步骤

  1. 内容确定
  2. 文本结构
  3. 句子聚合
  4. 语法化
  5. 参考表达生成
  6. 语言实现

还有个停用词去除,即去除无关紧要的词。