大数据

亚马逊将公布超过最大会话和知识数据集,超400万字

4月1 日, 亚马逊宣布:他们计划向公众公开“Topical Chat”数据集,超410万单词21万句子的语料库将于2019年9月17日发布。

该数据集是为参加Alexa Prize Socialbot Grand Challenge 3竞赛的团队开发的,申请截止日期为2019年5月14日,比赛于2019年9月9日开始。所有参加Alexa Prize竞赛的团队将可以访问此数据集的扩展版本(扩展主题聊天数据集),其中包括正在进行的集合和注释的结果。

主题聊天数据集将包含超过210,000个句子(超过4,100,000个单词),可支持高质量,可重复的研究,将成为研究界公开可用的最大社交对话和知识数据集。

每个语料库的对话和对话轮次与提供给众包工作者的知识相关联,并且所述知识是从与一组实体相关的一系列“非结构化”和“松散结构化”的文本资源中收集的。

亚马逊高级首席科学家Dilek Hakkani-Tur在博客文章中明确表示,没有任何语料是与Alexa客户的互动。

该数据库是实现基于知识的神经反应生成系统的后续研究,解决其他公开数据集无法解决的自然对话中的难题。这将使研究者可以专注于研究对话中主题和知识选择方面的转换,以及如何在对话中融入事实和观点。

相关报道:

https://developer.amazon.com/blogs/alexa/post/30dc5515-3b9f-4ec2-8f2a-ac98254625c6/topical-chat-dataset-helps-researchers-address-hard-challenges-in-natural-conversation

我还没有学会写个人说明!

张小龙:用停留时长衡量一个APP的好坏是错误的!

上一篇

Kubernetes1.14 版发布,增强了云原生平台的Windows节点支持

下一篇

你也可能喜欢

亚马逊将公布超过最大会话和知识数据集,超400万字

长按储存图像,分享给朋友

ITPUB 每周精要将以邮件的形式发放至您的邮箱


微信扫一扫

微信扫一扫