github
https://github.com/qhungngo/EVBCorpus
来自于 https://sites.google.com/a/uit.edu.vn/hungnq/evbcorpus
https://github.com/facebookresearch/XNLI
XNLI
https://github.com/facebookresearch/XNLI
https://www.aclweb.org/anthology/D18-1269/
XNLI 将 NLI 数据集扩展到 15 种语言,包括英语、法语、西班牙语、德语、希腊语、保加利亚语、俄语、土耳其语、阿拉伯语、越南语、泰语、中文、印地语、斯瓦希里语和乌尔都语,并以 NLI 的三分类格式为每种语言分别提供了 7500 个经人工标注的开发和测试实例,合计 112500 个标准句子对
CSDN下载
https://download.csdn.net/download/weixin_41781408/11161362
新闻网站
有些国家提供了中越双语的网页,可以爬取
https://www.bing.com/search?q=%E4%B8%AD%E6%96%87+site%3Avn&mkt=zh-CN
付费
http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/
免费
http://opus.nlpl.eu/Wikipedia.php
https://www.kaggle.com/search?q=Vietnam
这个可以搜索其他的
这个网站所好像有所有语言的语料库,有点不懂,难道是自己翻译的?
http://www.language-archives.org/
这个网站也是所有语言都有,但是没看懂怎么下载
http://www.arts.chula.ac.th/ling/tnc/
泰国国家语料库,泰语。 来自于 http://pioneer.chula.ac.th/~awirote/ling/corpuslst.htm