资源 100+个自然语言处理数据集大放送再不愁找不到数据！

　　奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表（原始未结构化的文本数据），快去按图索骥下载数据自己研究吧！

　　Apache软件基金会公开邮件档案：截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。（200 GB）

　　博主原创语料库：包含2004年8月从站收集的19,320位博主的帖子。681,288个帖子以及140多万字。（298 MB）

　　亚马逊美食评论[Kaggle]：包含亚马逊用户在2012年10月前留下的568,454条食评。（240MB）

　　ASAP自动作文评分[Kaggle]：在本次比赛中，有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息，而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分，并采用双评分制。（100MB）

　　ASAP简答题评分[Kaggle]：每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息，而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分，并采用双评分制。（35MB）

　　CLiPS文体学研究（CSI）语料库：每年扩展两种类型的学生写作：文章和综述。这个语料库的目的主要在于文体学研究，当然也可用于其他研究。（数据集需要申请获得）

　　康奈尔电影对话语料库（Cornell Movie Dialog Corpus）：包含大量丰富的元数据，从原始电影剧本中提取的对线次会线MB）

　　企业信息：分类企业在社交上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息（关于公司或其活动的客观陈述），对话（回复用户等）或行动（要求投票或要求用户点击链接等的信息）。（600KB）

　　经济新闻相关文章：确定新闻文章与美国经济是否相关，如果相关，文章的基调是什么。时间范围从1951年到2014年。（12MB）

　　安然公司电子邮件数据：包含1,227,255封电子邮件，其中493,384个附件覆盖151位管理者。（210GB）

　　事件注册：免费工具，可以实时访问全球100,000个的新闻文章。有API接口。（查询工具）

　　联邦采购数据中心的联邦合同（USASpending.gov）：来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。（180GB）

　　议会文本块：来自第36届议会正式记录（Hansards）的130万标准文本块（句子或更小的片段）。（82MB）

　　哈佛图书馆：超过1,200万册哈佛图书馆所藏资料的书目记录，包括书籍，期刊，电子资源，手稿，档案资料，乐谱，音频，视频和其他资料。（4GB）

　　言论识别：志愿人查看短文，并确定它是否a）包含言论，b）性的，但没有言论，或c）一点也没有性。包含近15千行，每个文本字符串有三个志愿者判断。（3MB）

　　家得宝公司产品搜索关联[Kaggle]：包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签，家得宝公司将搜索/产品配对众包给多个评分者打分。（65MB）

　　确定文本中的关键短语：问题/答案对和文本组成；判断上下文文本是否与问题/答案相关。（8MB）

　　百万新闻头条-ABC[Kaggle]：由ABC新闻发布的从2003到2017年的130万新闻。（56MB）

　　MCTest：可免费使用的660个故事集和相关问题，可用于研究文本机器理解、问答（1MB）。

　　Negra：文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

　　新闻头条-印度时报[Kaggle]：印度时报发表的从2001到2017年的270万类新闻头条。（185MB）

　　新闻文章/页面配对：志愿者阅读一篇短文，被问及最匹配的两篇文章是哪一篇。（6MB）

　　全球新闻一周供稿[Kaggle]：在2017年8月的一周，用20多种语言全球发表的140万篇新闻事件数据集。（115MB）

　　句子/概念对的正确性：志愿者读关于两个概念的句子。例如，“狗是一种动物”，或者“船长可以和主人有同样的意思”，然后他们被问到这个句子是否正确，并将其1-5评级。（700KB）

　　人物语料库：收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。（获得需要申请）

　　Reddit评论：截至2015年7月，reddit论坛所有公开的评论。共计17亿条评论。（250GB）

　　透社语料库：一个包含透社新闻报道的数据集，用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“透社语录1”或RCV1，它远远大于原来在文本分类中被广泛使用的著名的透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。（2.5GB）

　　SaudiNewsNet：31030条从不同沙特阿拉伯的网络上摘取的标题和元数据。（2MB）

　　Twitter上关于新英格兰爱国者队“放气门”事件的舆情：在2015年超级碗比赛前，人们对被放了气的橄榄球以及爱国者队是否存在行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情，以便评估对整个事件的感受。（2MB）

　　Twitter上对于左倾相关事件的舆情分析：关于堕胎化、女权主义、希拉里·克林顿等各种左倾相关事件的推文，推文将根据内容推断被分类为For（支持）、Against（反对）、Neutral（中立）或None of the above（以上都不是）。（600KB）

　　Twitter的Sentiment140（情感分析数据集）：关于品牌/关键词的推文，网站包括论文和研究想法。（77MB）

　　Twitter上关于自动驾驶汽车的舆情分析：贡献者们阅读推文后，将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关，他们也要标记出来。（1MB）

　　Twitter上对于美国各大航空公司的态度（Kaggle数据集）：这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文，贡献者们将其分类为积极、消极和中立，对于那些分类为消极态度的推文，还会给出原因（例如“飞机晚点”或“服务态度差”等）。（2.5MB）

　　基于新闻标题的美国经济表现：根据新闻标题头条和摘要，对新闻和美国经济的相关性进行排序。（5MB）

　　城市词典（美国在线俚语词典）里的单词和定义：一个经过清洗的CSV语料库，包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。（238MB）

　　的Wesbury Lab语料库：2010年4月英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料（如文本等）。语料库是未经标记的原始文本，它被用于Stanford NLP。

　　的XML格式数据：所有维基（Wikimedia）的完整复制，以维基文本元（wikitext source）和元数据的形式嵌入到XML中。（500GB）

　　雅虎问答中的综合问题与答案：截至2007年10月25日的雅虎问答语料库，包含4,483,032条问答。（3.6GB）

　　雅虎问答中用法语提问的问题：2006-2015年雅虎问答语料库的子数据集，包含170万条法语问答。（3.8GB）

　　雅虎问答中的关于“如何做”的问题[LZ2]：根据语言属性从2007年10月25日雅虎问答语料库选出的子集，包含142,627条问答。（104MB）

　　雅虎从公开网页中提取的HTML格式页面：包含少量复杂HTML格式的页面和267万个复杂格式的页面。（50+ GB）

　　雅虎的N元语法模型表示（N-Gram Representations）数据：该数据集包含N元语法表示数据，这些数据可以用于IR研究中常见的查询重写（query rewriting）任务，也可以用于NLP研究中常见的词语和句子相似性分析任务。（2.6GB）

　　雅虎的N元语法模型数据（版本2.0）：n元语法模型数据（n=1-5），从一个包含1460万个文档（1.26亿条不重复的语句，34亿个运行词）的语料库中提取，这些文档是从12000个面向新闻的站点里爬取的（12 GB）

　　雅虎的英语语义注释快照：包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文，共有1,490,688个条目。（6GB）

　　本文来源于ipfs