NLP|文本匹配模型-HCAN

正式开始看文本匹配的东西啦！文本匹配对NLPer来说是很重要的，不管是最后是做对话、推荐、搜索，文本匹配都是必不可少的。当然啦，BERT系列的模型出来之后，其实传统的深度学习模型效果是远远比不上的。不过这些预训练模型效果好是好，但是训练代价昂贵，当然啦，有人会说，现在已经有剪枝、量化、蒸馏这样的方法来减小预训练模型的大小，从而降低训练所需的代价(所以说模型压缩、加速这个方向还是很有前景的🤩咦，好像跑偏了，anyway)，但是这仍然远远不够，所以熟悉传统的文本匹配模型是非常有必要的。本篇博客讲解经典的HCAN模型，并采用tensorflow2实现。

HCAN模型介绍

HCAN模型来源于2019年的《Bridging the Gap Between Relevance Matching and Semantic Matching for Short Text Similarity Modeling》论文。整体来说不算太难。

HCAN模型提出的原因

在NLP中，存在着两大任务：relevance matching(RM)与semantic matching(SM)。所谓的RM常见于信息检索中，其目的在于根据query与documents的relevance，对documents进行排序，其核心是关键字匹配；而SM，其目的在于计算两个句子的相似度或者匹配度，其核心是句子语义上的匹配。从这个定义中，可以看出RM本质上也是语义匹配，所以RM与SM有一定的相似性。那么问题来了：能不能提出一种模型，在RM与SM上都能取得非常好的效果呢？这就是HCAN模型提出的原因。

HCAN模型架构

整个架构比较简单：word embedding层、hybrid encoder层、relevance matching与semantic matching层、最后的分类层。直接放图吧～

Embedding layer

输入句子对，记作$(q,c)$，在QA任务中，其表示question与answer，在信息检索中，其表示query与document。其中，$q、c$均表示句子的token的集合，它们的embedding记作：$\{w_1^q,w_2^q,w_3^q,…,w_n^q\}$与$\{w_1^c,w_2^c,w_3^c,…,w_m^c\}$，embeddding的维度为$L$，$n、m$是句子的长度，所以，$q\in R^{n\times L}、c\in R^{m\times L}$。

Hybrid Encoders

在得到句子的embedding后，为了进一步得到更加丰富的表示，在HCAN中，使用了三种不同类型的encoders：deep、wide、contextual。

Deep Encoder：所谓的Deep encoder，就是叠加多个卷积层，从而得到更加丰富的语义表示，在论文中，称作phrase-level representation，第$h$个卷积层的输出记作：$U^h$。这个和DPCNN中的region embedding有点相似，不熟悉DPCNN的，可以移步我的文章：DPCNN

注意，q与c是共享这些参数的！

Wide encoder：wide encoder则是换了一种思路，并联多个卷积层，也就是“变宽”。给定$N$个卷积层，假设第一个卷积层的窗口大小为k，那么N个卷积层的窗口大小依次是：$[k,k+1,k+2,k+3,..,k+N-1]$.

Contextual encoder：contextual encoder不使用卷积层，转而使用BILSTM来提取更为丰富的语义特征。给定$N$个BILSTM层，第$h$个BILSTM层的输出是：$U^h$。

三种encoder的比较

deep与wide由于使用CNN，所以并行计算效率比contextual要高，训练要快；此外，使用CNN的话，我们可以控制窗口大小，能够得到不同phrase level的语义表示。同时，这样对于relevance matching也是非常有用的。

deep的参数数量更少，因为deep中所有层的filter是一样的，所以可以实现参数共享。

Relevance Matching

注意：下面所示的维度均没有带上batch_size！

通过hybrid encoders之后，我们可以得到q与c的深层次的向量化表示：$ U_q\in R^{n\times F}、U_c\in R^{m\times F}$。在此基础上，我们首先要去得到relevance matching。采用的方式就是dot。公式如下：

$S=U_qU_c^T, \ \ \ \ \ \ \ \ \ \ S\in R^{n\times m}$

然后，在此基础上，在context列上使用softmax，公式如下：

$\tilde S=softmax(S)$

这一步的意义在于让得到的similarity score的范围处于[0,1]，此外，softmax也能够让score之间的区分度变大。

然后再对其使用最大池化和平均池化（注意，是全局池化，也就是说，池化后，会减少一个维度），论文中指出，平均池化要好一点。公式如下：

接下来，作者还引入了IDF来作为不同的query term与phrase的权重，衡量其重要性程度。

这样加权的方法也可以减小得分比较大的token(譬如停用词)的影响。

Semantic Matching

Semantic Matching的输出仍然采用hybird encoders的输出，即q与c的深层次的向量化表示：$U_q\in R^{n\times F}、U_c\in R^{m\times F}$。在此基础上，使用co-attention机制，不熟悉co-attention机制的童鞋，可以参看论文《BIDIRECTIONAL ATTENTION F LOW FOR MACHINE COMPREHENSION》，这是在MRC任务中大名鼎鼎的BIDAF模型，非常值得一看🤩。使用co-attention机制的公式如下：

其中，REP表示将input转化为n✖️m的矩阵，$W_q,W_c\in R^{F}，W_b\in R^{F\times F}$。

在两个方向上使用co-attention机制：query-to-context和context-to-query。

然后对得到的向量进行concat，再使用BILSTM来进行编码，得到输出。公式如下：

注意，我们只使用BILSTM的最后一个输出。

Final classification

对relevance matching与semantic matching得到的输出进行concat，然后使用两层的MLP，从而得到最终的输出。

HCAN在answer selection(使用TrecQA数据集、评价指标MAP与MRR)、paraphrase identification(使用TwitterURL数据集、评价指标macro-F1)、semantic textual similarity(使用Quora数据集，评价指标准确率)、Tweet Search(TREC Microblog数据集、评价指标P@30)。结果如下：