网站首页 > 婚姻情感> 文章内容

资源 100+个自然语言处理数据集大放送再不愁找不到数据!

※发布时间:2018-5-26 5:45:17   ※发布作者:habao   ※出自何处: 

  奉上100多个按字母顺序排列的开源自然语言处理文本数据集列表(原始未结构化的文本数据),快去按图索骥下载数据自己研究吧!

  Apache软件基金会公开邮件档案:截止到2011年7月11日全部公开可用的Apache软件基金会邮件档案。(200 GB)

  博主原创语料库:包含2004年8月从站收集的19,320位博主的帖子。681,288个帖子以及140多万字。(298 MB)

  亚马逊美食评论[Kaggle]:包含亚马逊用户在2012年10月前留下的568,454条食评。(240MB)

  ASAP自动作文评分[Kaggle]:在本次比赛中,有8个作文集。每个作文都由一个单独提示所得回答所生成。所选作文长度为150到550个字不等。部分作文依赖于源信息,而另其他则不是。所有论文都是由7年级到10年级的学生所写。所有的作文都由人工打分,并采用双评分制。(100MB)

  ASAP简答题评分[Kaggle]:每个数据集都是由单个提示所得回答生成的。所选回答的平均长度为50个字。某些回答依赖于源信息,而其他则不是。所有回答由10年级学生所写。所有回答均为人工打分,并采用双评分制。(35MB)

  CLiPS文体学研究(CSI)语料库:每年扩展两种类型的学生写作:文章和综述。这个语料库的目的主要在于文体学研究,当然也可用于其他研究。(数据集需要申请获得)

  康奈尔电影对话语料库(Cornell Movie Dialog Corpus):包含大量丰富的元数据,从原始电影剧本中提取的对线次会线MB)

  企业信息:分类企业在社交上到底谈论了什么的工作。要求志愿者将企业陈述分类为信息(关于公司或其活动的客观陈述),对话(回复用户等)或行动(要求投票或要求用户点击链接等的信息)。(600KB)

  经济新闻相关文章:确定新闻文章与美国经济是否相关,如果相关,文章的基调是什么。时间范围从1951年到2014年。(12MB)

  安然公司电子邮件数据:包含1,227,255封电子邮件,其中493,384个附件覆盖151位管理者。(210GB)

  事件注册:免费工具,可以实时访问全球100,000个的新闻文章。有API接口。(查询工具)

  联邦采购数据中心的联邦合同(USASpending.gov):来自USASpending.gov的联邦采购数据中心所有联邦合同的数据库。(180GB)

  议会文本块:来自第36届议会正式记录(Hansards)的130万标准文本块(句子或更小的片段)。(82MB)

  哈佛图书馆:超过1,200万册哈佛图书馆所藏资料的书目记录,包括书籍,期刊,电子资源,手稿,档案资料,乐谱,音频,视频和其他资料。(4GB)

  言论识别:志愿人查看短文,并确定它是否a)包含言论,b)性的,但没有言论,或c)一点也没有性。包含近15千行,每个文本字符串有三个志愿者判断。(3MB)

  家得宝公司产品搜索关联[Kaggle]:包含家得宝公司网站的许多产品和客户搜索条款。挑战是预测搜索条目组合和产品的相关性分数。为了创建真实标签,家得宝公司将搜索/产品配对众包给多个评分者打分。(65MB)

  确定文本中的关键短语:问题/答案对和文本组成;判断上下文文本是否与问题/答案相关。(8MB)

  百万新闻头条-ABC[Kaggle]:由ABC新闻发布的从2003到2017年的130万新闻。(56MB)

  MCTest:可免费使用的660个故事集和相关问题,可用于研究文本机器理解、问答(1MB)。

  Negra:文本的语法标注语料库。可供所有大学及非营利机构免费使用。需要签署协议并发送申请才能获得。

  新闻头条-印度时报[Kaggle]:印度时报发表的从2001到2017年的270万类新闻头条。(185MB)

  新闻文章/页面配对:志愿者阅读一篇短文,被问及最匹配的两篇文章是哪一篇。(6MB)

  全球新闻一周供稿[Kaggle]:在2017年8月的一周,用20多种语言全球发表的140万篇新闻事件数据集。(115MB)

  句子/概念对的正确性:志愿者读关于两个概念的句子。例如,“狗是一种动物”,或者“船长可以和主人有同样的意思”,然后他们被问到这个句子是否正确,并将其1-5评级。(700KB)

  人物语料库:收集了作者文章风格和个性预测的实验。由145名学生的145篇荷兰语文章组成。(获得需要申请)

  Reddit评论:截至2015年7月,reddit论坛所有公开的评论。共计17亿条评论。(250GB)

  透社语料库:一个包含透社新闻报道的数据集,用于自然语言处理的研究开发、信息检索和机器学习系统。该语料库又被称为“透社语录1”或RCV1,它远远大于原来在文本分类中被广泛使用的著名的透社21578数据集。该语料库数据需要通过签署协议和发送邮件获取。(2.5GB)

  SaudiNewsNet:31030条从不同沙特阿拉伯的网络上摘取的标题和元数据。(2MB)

  Twitter上关于新英格兰爱国者队“放气门”事件的舆情:在2015年超级碗比赛前,人们对被放了气的橄榄球以及爱国者队是否存在行为议论纷纷。该数据集提供了丑闻发生的这段时间里Twitter上的舆情,以便评估对整个事件的感受。(2MB)

  Twitter上对于左倾相关事件的舆情分析:关于堕胎化、女权主义、希拉里·克林顿等各种左倾相关事件的推文,推文将根据内容推断被分类为For(支持)、Against(反对)、Neutral(中立)或None of the above(以上都不是)。(600KB)

  Twitter的Sentiment140(情感分析数据集):关于品牌/关键词的推文,网站包括论文和研究想法。(77MB)

  Twitter上关于自动驾驶汽车的舆情分析:贡献者们阅读推文后,将推文里对于自动驾驶的态度分为非常积极、较积极、中立、较消极和非常消极。如果推文与自动驾驶汽车无关,他们也要标记出来。(1MB)

  Twitter上对于美国各大航空公司的态度(Kaggle数据集):这是一个对于美国各大航空公司存在问题的情感分析任务。该数据集爬取了2015年2月的推文,贡献者们将其分类为积极、消极和中立,对于那些分类为消极态度的推文,还会给出原因(例如“飞机晚点”或“服务态度差”等)。(2.5MB)

  基于新闻标题的美国经济表现:根据新闻标题头条和摘要,对新闻和美国经济的相关性进行排序。(5MB)

  城市词典(美国在线俚语词典)里的单词和定义:一个经过清洗的CSV语料库,包含截至2016年5月的城市词典内所有260万个词汇、定义、作者和投票情况。(238MB)

  的Wesbury Lab语料库:2010年4月英文部分中所有文章的快照。网站详细描述了数据是如何被处理的——即去除所有链接和不相关的材料(如文本等)。语料库是未经标记的原始文本,它被用于Stanford NLP。

  的XML格式数据:所有维基(Wikimedia)的完整复制,以维基文本元(wikitext source)和元数据的形式嵌入到XML中。(500GB)

  雅虎问答中的综合问题与答案:截至2007年10月25日的雅虎问答语料库,包含4,483,032条问答。(3.6GB)

  雅虎问答中用法语提问的问题:2006-2015年雅虎问答语料库的子数据集,包含170万条法语问答。(3.8GB)

  雅虎问答中的关于“如何做”的问题[LZ2]:根据语言属性从2007年10月25日雅虎问答语料库选出的子集,包含142,627条问答。(104MB)

  雅虎从公开网页中提取的HTML格式页面:包含少量复杂HTML格式的页面和267万个复杂格式的页面。(50+ GB)

  雅虎的N元语法模型表示(N-Gram Representations)数据:该数据集包含N元语法表示数据,这些数据可以用于IR研究中常见的查询重写(query rewriting)任务,也可以用于NLP研究中常见的词语和句子相似性分析任务。(2.6GB)

  雅虎的N元语法模型数据(版本2.0):n元语法模型数据(n=1-5),从一个包含1460万个文档(1.26亿条不重复的语句,34亿个运行词)的语料库中提取,这些文档是从12000个面向新闻的站点里爬取的(12 GB)

  雅虎的英语语义注释快照:包含从2006年11月4日开始的经一些公开的NLP工具处理后的英文,共有1,490,688个条目。(6GB)

  本文来源于ipfs

关键词:情感问题100问