这篇文章主要是来总结一下目前在跨语言预训练模型方面的工作,当然啦,今年ACL有很多改进的工作,之后会再写一篇。这篇主要讲解的模型是:Multingual-BERT、XLM、XLM-R、MASS、MultiFiT。
NLP|distill系列预训练模型
目前关于预训练模型的改进大概是:模型小型化(蒸馏、剪枝、量化(混合精度训练)等)、网络结构的改进、多任务学习、更大的模型(增加模型capacity、增加算力等)、跨语言预训练模型等等,具体的可以看看FDU邱锡鹏老师关于PTMs的survey。这一篇博客主要介绍distill系列的预训练模型,主要是介绍distiilBERT、tinyBERT、fastBERT。(ps:最近和大佬们交流,深刻地意识到自己太菜了。。。害,努力吧。)
Pytorch的零碎笔记
最近在学pytorch,虽然与TF2很类似了,但是感觉很多地方还是不太一样,这篇文章主要就是记录一下学习pytorch中遇到的api。
NLP|BERT源码解读
最近一直在看预训练模型,发现大部分模型的源代码基本上都是在Google官方发布的BERT源码的基础上进行修改的(但是全都是TF1.x😷,这点我要吐槽了,按道理TF2.x出来之后,Google在大力推广TF2.x,然而连Google自己发布的ELECTRA、Adapter-BERT、ALBERT等等源代码都是import tensorflow.compat.v1 as tf😷,excuse me?)。所以还是回头再仔细看了一遍原来BERT的源代码。不过,整体阅读下来,感觉还是非常顺畅的,不得不说代码写的真的好。所以这篇文章主要是记录一下自己看BERT源代码的过程。
NLP|谈谈预训练模型中的Adapter结构
最近应该会产出大量的关于预训练模型的解读的内容🤩,主要是目前预训练模型确实在几乎各个任务上的表现都超越了传统的模型。将预训练模型应用于各个领域,这也是一个大的趋势。这篇文章主要是通过AdapterBERT与K-Adapter两篇paper,来谈谈预训练模型中的Adapter结构。
NLP|ELECTRA预训练模型
最近在看GAN相关的内容的时候,看到一篇关于预训练模型的新作:ELECTRA,核心是将GAN的思想引入到NLP中,非常地新颖。所以这篇文章将具体地讲解一下关于ELECTRA的内容,我个人是很喜欢这样精巧且优雅的文章的~🤩
强化学习|GAN models
由于需要,最近开始看强化学习的东西啦,大概一周时间搞完DRL基础,然后开始探索DRL在NLP中的应用。🤩这篇博客主要是记录关于GAN的原理、其背后的的理论以及其各种变体模型(especially for NLP)的内容,感觉还是挺有意思的。
tmux的使用
以前一直不知道为何大家推崇tmux,最近使用了一段时间的tmux后,同时配合着iterm2,发觉真香!🤩网上的教程很多,但是很多细节没有说到,导致我最开始接触tmux的时候,费了一两个小时才算入手,所以就打算写写tmux的使用。
NLP|chatbot系列-MRFN
正式入对话的坑啦🤣对话是目前NLP技术重要的落地场景之一,但是相比于其他的方向,对话目前的应用还不算成熟,也远远没有产生它应有的巨大商业价值,但是随着物联网与5G等的发展,对话的应用前景是非常光明的。此外,既然对话的坑还有很多,这也意味着总需要人去填满这些坑,对NLPer来说,是挑战也是机会。其他的不多说,本篇着重讲讲检索式对话的经典模型MRFN。
NLP|chatbot系列-IMN
正式入对话的坑啦🤣对话是目前NLP技术重要的落地场景之一,但是相比于其他的方向,对话目前的应用还不算成熟,也远远没有产生它应有的巨大商业价值,但是随着物联网与5G等的发展,对话的应用前景是非常光明的。此外,既然对话的坑还有很多,这也意味着总需要人去填满这些坑,对NLPer来说,是挑战也是机会。其他的不多说,本篇着重讲讲检索式对话的经典模型IMN。