雷锋网 AI科技谈论音讯,近来,Stuart Axelbrooke在Kaggle平台上发布了Twitter客户支撑数据集发布,这个数据集包括来自负企业的超百万条推文与回复,你们能够运用这个数据集做许多有意思的作业。数据集的详细信息如下所示,雷锋网 AI科技谈论编辑整理如下:
Twitter客户支撑数据集(Customer Support)是一个巨大的推文与回复语料库,这个数据集比较现代化,有助于天然言语了解和会话模型的立异,也对客户支撑实践与影响作用的相关研讨有所协助。
天然言语处理(NLP)现在依然需求密布的编码方法,NLP中的立异加快了对数据的了解,可是驱动这一立异的数据集与现在真实运用的言语不太匹配。
Twitter客户支撑数据集里有Twitter上很多的用户和公司的客户支撑中心之间的对话语料库,这个语料库的言语首要是英文,比起其他会话文本数据集有三个首要优势:
聚集——这个数据集里的数据首要是用户联络客户支撑中心来处理特定的问题的对话,他们评论的问题类型相对来说较少,当与reddit语料库(reddit Corpus)等不受束缚的对话数据集比较,这样的一种状况更甚。
简练——因为Twitter上对话的简练性,客户支撑中心会回复得更天然,关于问题和处理方案的描绘都会会有过多废话,这也便于运用循环网络,能够使得信息的约束相对较低。
咱们能猜测公司客户支撑中心的答复吗?考虑到每个公司处理的问题都是在某个范围内,答案看起来是必定的!
数据集是CSV格局,每一行为一条推文。对列的描绘如下所示,每段对话至少包括一条用户恳求和一条公司回复。能够用inbound字段来核算哪个用户ID是公司用户ID。
用户ID,匿名,每个用户只要一个此类ID,数据会集的@被与用户相关的用户ID替换掉了。
用户的恳求推文是否被那些在推特进步行客户支撑的公司“归档(inbound)”。该特征在练习会话模型时的数据重组阶段十分有用。
推文内容。手机号和电子邮箱等灵敏信息用__email__等相似句段来掩盖。