“尬聊”被拉黑后，这个浙大学生开发了一个深度学习模型-365bet娱乐在线-365bet体育滚球-注册送365体育平台-365bet娱乐在线

对于一串给定的聊天回复，各发言之间有很强的联系。像这样具有显性树结构和潜在联系的发言，与常规分类方法相比（如SVM），RNN模型更适合。

和传统模型相比，深度学习模型在处理大规模数据集上有更大优势。

根据经验可以发现，聊天回复的上下文信息（如发布时间和发言人身份）可以极大地补充文本信息，因此把它们整合进模型是有必要的；

一些聊天回复可能很长，因此纳入注意力机制有助于处理这类包含数十个发言的输入。

ConverNet的预测主要分三步：首先，将对话进行信息编码，把自然语言转成计算机能理解的“语言”；其次，用LSTM对“消化”后的对话信息进行特征提取；最后，输出这个发言是聊天终结发言的概率。下图是ConverNet的基本结构，可以看到，它的基本构建块是一个双向LSTM。比起普通LSTM，双向LSTM可以克服在时间步t时kernel不知道之后的序列输入的问题。而为了加快训练速度和提升性能，他们也引入了Layer Normalization的相关做法。

ConverNet的结构

输入

ConverNet的输入是按发言时间排序的平铺序列，它无视上下发言是否围绕同一话题，目标聊天回复的树（一棵）会和上下的其他发言一起处理。

嵌入词向量

由于这是个LSTM，输入文本后，首先模型会用embedding layer把原文本的稀疏向量转换成包含更多语义和语法信息的稠密向量。在这里，原文本信息的N个单词（一段聊天回复中所有发言的单词数）有Cip个embedding vector（第pth个发言的第ith个单词），—Sp是第pth个发言相应的文本信息。

编码

模型的编码部分由一个双向LSTM、一个Layer Normalization以及一个Dwdl Attention Layer构成。对于输入xi，它的编码过程如下所示：

其中

下面是方程中各个参数在LSTM中的含义：

对于输入门（input gate）：it：Wxi，Whi，wci，bi和σi；

对于遗忘门（forget gate）：ft：Wxf，Whf，wcf，bf和σf；

对于神经元内计算：ct：Wct，Whc，bc和σc；

对于输出门（output gate）：ot：Wxo，Who，wco，bo和σo。

我们在上一节中提到了，ConverNet结合了双向LSTM和注意力机制，其中双向LSTM虽然解决了未知输入序列的问题，但它在处理较长对话时会不可避免地遗漏特征。上式展示了研究人员的解决思路，即用Dwdl Attention Layer的函数把双向LSTM的输出序列进一步编码，使最终输出的向量和双向LSTM隐藏神经元中的向量维度相同。

最后，神经网络再整合两个矩阵，这就使ConverNet具备了处理较长文本的能力。

解码

从编码层获得输入后，模型的解码层就能执行分类了。它包含几个MLP层，其中最后一层只有一个输出神经元。这里需要注意一下各层用的激活函数，普通MLP用的是ReLU，但为了保证最后输出的结果是0或1，最后一层MLP用的是Sigmoid函数。

实验结果

非常遗憾，从论文上看这个模型处理的还是英文对话的“聊天杀手”，因为研究人员使用的数据集是国外知名论坛Reddit的帖子和评论。为了更贴合日常谈话，他们还使用了电影剧本对白数据集作为补充。

两个数据集概览

最佳表现对比：SVM和ConverNet等

从上表可知，无论是AUC、Accuracy还是MAP，ConverNet的表现都是最突出的。和SVM模型相比，ConverNet在Reddit数据集上有5%的MAP提升（0.688 → 0.726），在电影剧本对白数据集上也有7%的MAP提升（(0.650 → 0.696）。这也从侧面印证了深度学习模型在预测在线对话文本上的能力。

而撇开数据不谈，这个模型带来的最直接的启示还是在实际应用层面。根据ConverNet的数据成果，研究人员总结了以下几点聊天技巧，可作为大家日常聊天的参考：

分享：当对话中出现Mr, Mrs, talked, heard, seen, care等词语时，聊天易持续长久，这些词汇体现了尊重与分享的愿望；而当出现YOU, THE, Christ, but, ass等词语时，聊天终结的概率会明显增大。

回合：在单聊场合，聊天的回合越多，越可能终止对话；而在群聊过程中，回合越多代表话题越热烈，越有可能持续。

长短：在单聊场合，聊天的句子越长，谈话越可能持续，其原因在于可能双方在进行深度的交谈；而在群聊场合，简短的句子更受欢迎，如果某人突然说了很长一大段发言，后面易出现冷场的状况。

时间。如果你发起对话时间在诸如深夜等休息时间，容易引起对方反感，也有可能成为聊天终结者。

情绪。在群聊当中，负面情绪有可能会引发新一轮的共鸣与探讨，但是在单聊中，负面情绪可能会倾向于终结对话。

来源：论智(jqr_AI)

论文地址：arxiv.org/pdf/1712.08636.pdf

校方报道：www.zju.edu.cn/2018/0408/c638a796555/page.htm返回搜狐，查看更多

“尬聊”被拉黑后，这个浙大学生开发了一个深度学习模型

相关文章

全民K歌保存的歌曲位置在哪

fgo枪兵排行最强单体枪兵Lancer英灵推荐[多图]

新手友好指南：如何高效利用LeetCode提升编程能力

adidas德国国家队2022年世界杯客场球衣球员版

友情链接