Emotion Recognition by Textual Tweets Classification Using Voting Classifier (LR-SGD)
其中tokenize后每个词用一个向量表示,一个句子是一个二维矩,使用TF-IDF提取出句子中的关键词,所以训练的时候输入到每个句子中就是一个一维向量
最后投票的方式就是认为是正面的概率两个模型求平均,认为是负面的求平均,就实现了投票操作
NLP入门笔记阅读
https://github.com/NLP-LOVE/Introduction-NLP/blob/master/chapter/
中文分词方法
- 基于词典的分词方法
- 正向最长匹配
- 逆向最长匹配
- 双向最长匹配
- 字典树,DAT最长匹配
去掉无意义的词可以优化分词效果
- 基于机器学习的分词方法
- 隐含马尔科夫模型
- 基于结构化感知机的中文分词
- 条件随机场模型
词性标注
序列标注模型
命名实体识别
序列标注模型
Topic detection and sentiment analysis in Twitter content related to COVID-19 from Brazil and the USA
数据集可以区tweeter上爬取,貌似有官方API。数据集进行了一些预处理,去除了无关紧要的符号和链接等。
测试数据集参考文献.M. Mohammad, F. Bravo-Marquez, M. Salameh, S. Kiritchenko, SemEval-
2018 task 1: Affect in tweets, in: Proceedings of International Workshop
on Semantic Evaluation (SemEval-2018), New Orleans, LA, USA, 2018.
采用Best–Worst Scaling方法对数据进行手动标注,避免数据内部和数据之间的矛盾。但是还有个强度量使用0-1之间的数值进行标注。
训练时数据集分三份,一份训练,一份development(用于评估模型的性能),一份test-gold,test-gold用于排名各个队伍。
使用Sentence BERT提取属性,使用CrystalFeel情感分析。优于一元分词(一个字看成一个向量)和二元分词(使用条件概率进行分词)。
使用Pearson correlations(皮尔逊相关系数)评测模型准确率。
这篇论文还测试了逻辑回归、随机森林、SVM等情感分类方法。对于葡萄牙语,另外使用了使用朴素贝叶斯,多层感知器,梯度上升等方式。
使用GSDMM识别topic,给出一个topic集合。一个消息只能有一个topic。topic分类的同时指出句子中关于这个topic的单词。
fastText文本分类方法。
架构
Attitude of Chinese public towards municipal solid waste sorting policy: A text mining study
有用的参考文献
Liu, X., Hu, W., 2019. Attention and sentiment of Chinese public toward green buildings based on Sina Weibo. Sustain. Cities Soc. 44, 550–558. https://doi.org/10.1016/j.scs.2018.10.047
Wang, Y., Li, H., Wu, Z., 2019. Attitude of the Chinese public toward off-site construction: a text mining study. J. Clean. Prod. 238, 117926. https://doi.org/10.1016/j.jclepro.2019.117926
语言处理步骤
- R 3.5.3(R语言)对数据进行去噪处理
- jiebaR用于分词
- NLPIR-Parser用于情感分析
- LDA topic model用于提取话题,LDAvis包用于可视化结果
What factors affect consumers’ dining sentiments and their ratings: Evidence from restaurant online review data
使用软件Linguistic Inquiry and Word Count (LIWC)进行分词、还原词根等预处理操作
没有正则化文本,而是正则化了情感分析的结果数值
使用lexion-based方法提取关键词
Pennebaker, J. W., & Francis, M. E. (1996). Cognitive, emotional, and language processes in disclosure. Cognition & Emotion, 10(6), 601–626
通过寻找表达情感的词的数量来进行情感分析,字典也是用LIWC的。$\frac{积极/消极情感词数量}{单词总量}$
语种识别技术–知乎
https://zhuanlan.zhihu.com/p/165863653
- out-of-space
- 朴素贝叶斯
- 多类别逻辑回归
非技术也能看懂的 NLP 入门科普.pdf
https://easyai.tech/ai-definition/
NLP两个任务:NLU(机器理解人),NLG(人理解机器)
NLU
NLU处理流程
传统
语料预处理>特征工程>选择分类器
深度学习
预料预处理>设计模型>训练模型
英文语料预处理
- 分词 Tokenization
- 词干提取-Stemming cites->city/children->child,推荐Snowball
- 词性还原-Lemmatization doing/did/does->do,可以用NLTK的WordNet
- 词性标注-Parts of Speech
- 命名实体识别-NER
- 分块-Chunking
英文语料预处理
- 分词
- 词性标注
- 规则
- 统计
- 规则+统计
- 基于深度学习
- Jieba,SnowNLP,THULAC,StandfordCoreNLP,HanLP,NLTK,SpaCy
- 命名实体识别
- 去除停用词
Transformer是目前NLP最先进的方法,用于语义特征提取
分词是非结构化数据结构化的第一步,词是表达完整含义的最小单位,字含的信息太少,句子信息量太大。
中英文分词有一定的区别
分词方法
- 基于词典
- 基于统计
- 基于深度学习
中文分词工具star排名 - Hanlp
- Stanford分词
- ansj分词
- 哈工大LTP
- KCWS分词
- jieba
- IK
- 清华THULAC
- ICTCLAS
英文分词工具排名 - Keras
- Spacy
- Gensim
- NLTK
NLG
步骤
- 内容确定
- 文本结构
- 句子聚合
- 语法化
- 参考表达生成
- 语言实现
还有个停用词去除,即去除无关紧要的词。