0%

目前为止,已经学了很多东西,但是没有输出,总感觉似乎少了点什么。这片博客将回顾经典的Transformer模型。Transformer模型是Google在2017年所提出的模型。该模型抛弃了传统的RNN与CNN,全部采用Attention机制,结果证明其在当时取得了SOTA的效果,得到了广泛的应用。Transformer也是后来大火的BERT中的核心组成部分,所以Transformer模型的提出是非常具有开创性的工作。本文将首先介绍Transformer提出的背景,紧接着详细讲解其内部架构,最后对Transformer做一个小小的总结。

Read more »

目前为止,已经学了很多东西,但是没有输出,总感觉似乎少了点什么。这片博客将回顾经典的Attention机制。Attention模型是深度学习领域最有影响力的工作之一,最初应用于图像领域(hard attention),后来在NMT任务上取得巨大成功后,便开始风靡于整个深度学习社区,尤其是在NLP领域。随后提出的GPT、ELMo、transformer、BERT、GPT-2、XLNET等模型,均有Attention机制的影子。本文将详细讲解两种经典的Attention模型:Bahdanau Attention与Luong Attention,并对Attention模型进行一个小小的总结。

Read more »

到目前为止,已经学了很多东西,但是没有输出,总感觉似乎少了点什么。这篇博客将回顾经典的LSTM与GRU。LSTM与GRU是RNN中最为经典的unit,它的提出解决了RNN中梯度消失的问题,非常地具有开创性。本文将具体探究其原理细节。

Read more »

今天刷完了《剑指offer》(repo:CodingInterviewCode),撒花🎉并且,拾起了早早就注册使用却没有好好地管理的我的github。因此,总结一下使用git上传本地项目到自己的github上的流程,以便以后查阅。

Read more »

我的保研之路于2018年9月28日确认北大的录取通知的那一刻,就正式宣告结束了。现在算算,其实已经过去了一年半了。最近突然心血来潮,想记录一下那段兵慌马乱却又无比充实的日子。一方面,趁自己对这段记忆还清晰的时候,记录下来勉励自己;另一方面,也是希望能够对素昧谋面的保研er们能够有所帮助~

Read more »

最近在看《剑指offer》,也一直在用C++刷题,总是会遇到一些易混的地方,记录一下,以便以后翻阅。

Read more »

一直在用C++刷题,STL库用的很频繁,但是总是记不全,所以写一篇blog来总结一下。

Read more »

最近重新搭建了自己的blog,清除了很多之前的文章,没办法,自己的强迫症又犯了😆,容不得不美观的东西,人生在于折腾,哈哈哈🤣,也算是对之前的blog的整理吧😋。2020,希望一切顺利🤩,运气爆棚🎉~