To me, this course is something very personal and truly loved. I'm still surprised it turned out the way it is, making my feelings about NLP public and for everyone to see. I'm very happy and grateful now the course is available to many more people. Hope you enjoy it the way I did :)

For you.

这是Lena Voita从2018年秋季开始在Yandex数据分析学院（YSDA）教授的自然语言处理课程的延伸。到目前为止，这里可能只涉及部分主题。

这种新的课程形式是为了：

便捷
便于查找、学习和回顾（包括基础内容和高阶内容）并在实践中尝试。
清晰
每个部分，从前到后，不仅包括讲述的内容，更重要的是讲述和展示的方式，都是我深思熟虑之后的结果。
你（专属）
我制作这些学习资料，以便你（是的，你！）可以自学。也就是说，你可以按照你自己的速度，学习你喜欢的内容。而我的主要目的是帮助你进入你自己的学习冒险之旅。 专属定制

课程博客包含
交互学习部分 & 练习

分析与解释

研讨会 & 作业
资料位于我们的7.7k-☆课程仓库

学习提出正确的问题相关论文

包含总结和解释 Have Fun!

如果你想要在你的论文、报告等材料中引用这些学习资料（例如：图片），你可以采用下述BibTex：

                    @misc{voita2020nlpCourse,

                        title={ {NLP} {C}ourse {F}or {Y}ou},

                        url={https://lena-voita.github.io/nlp_course.html},

                        author={Elena Voita},

                        year={2020},

                        month={Sep}

                    }

本课程包含什么？你的冒险指南

课程-博客

我尽可能使其:

直观、清晰、具有吸引力；
全面: 完整的课程甚至更多内容；
与时俱进，包含该领域最新内容。

福利：

研究思考，
相关论文，
Have Fun！

研讨会 & 作业

对于每个主题，你可以从我们的7.7k-☆课程仓库中获得资料。

从2020年起，我们支持PyTorch和Tensorflow！

交互部分 & 练习

我经常会让你浏览一些包含可视化过程的“幻灯片”，操作一些东西或只是思考。

分析与解释

自2020年以来，顶级NLP会议（ACL、EMNLP）都设有"分析和可解释性"Track:这再次印证了分析是NLP不可或缺的一部分。

每节课都有一小节是关于"模型、方法内部运作相关结果"的阐述。

研究思考

学会像研究科学家一样思考：

找到方法中的缺陷，
想想为什么/什么时候什么东西能有所帮助，
提出改进的方法，
学习之前的尝试。

众所周知，使得学习变得更简单的方法是"先思考"，而非直接提供给你最终答案。即使你的目标不是研究人员，这仍然是一个学习东西的好方法!

演示: 研究卡片

这里我定义起点：一些你已经知道的东西。

这里我向你抛出问题，思考(一分钟，一天，一周，……)，然后寻找可能的答案。
？为什么会有效？

可能的答案

这里你将看到一些可能的答案。这部分是一个尝试新方法的动机：通常，这是一个研究项目的开始。

？我们如何利用这一点来改进这个模型？

现有解决方案

在这里，我将总结一些以前的尝试。你不应该想出像这里一样的东西，记住，每篇论文通常需要作者几个月的工作。这是一种思考这些重要事情的习惯：你有几个想法，你去尝试；如果它们不起作用，你就会重新考虑。最终，总会有办法的，这就是论文告诉你的。

相关论文

探索相关工作：

概览速读：在简要总结中看看关键结果，了解该领域的情况。
更深入一些：对于你更感兴趣的主题，阅读包含图示和解释更长的摘要；
深度阅读：阅读你喜欢的论文。

演示：论文卡片

优秀和酷酷的作者

在这里，我用几个句子来解释这篇论文的核心思想和/或它的主要结果。

EMNLP 2019

更多细节:点击(是的，就在这里，现在!)

在这里，我将给出一个较长的总结，并附有插图和解释。我试着向你介绍作者的推理步骤和主要观察结果，并尽量使你可以轻松理解。在你掌握了大意之后，阅读一篇原始的研究论文就容易多了。

Have Fun！

生动有趣。

在这里你将看到一些与课程主题相关的NLP游戏。

Week 1: Semantic Space Surfer

课程

词嵌入

分布式语义
基于计数的方法
Word2Vec： 可学习的表示
GloVe：先技术再学习
评价: 内在 vs 外部
分析与解释
福利：

研讨会 & 作业

第一周：课程仓库。

阅读更多 ⇨

文本分类

简介和数据集
通用框架
经典方法：朴素贝叶斯，最大熵（逻辑斯蒂回归），SVM
神经网络：RNNs和CNNs
分析与解释
福利：

研讨会 & 作业

第二周：课程仓库。

阅读更多 ⇨

语言模型

通用框架
N元语法语言模型
神经网络语言模型
生成策略
评价语言模型
使用技巧
分析与解释
福利：

研讨会 & 作业

第三周：课程仓库。

Generate a Text with Ngram LMs

Neural Language Models

阅读更多 ⇨

序列到序列模型和注意力机制

序列到序列基础 (编码器-解码器，训练，简单模型)
注意力机制
Transformer
子词分割（例如：BPE）
推断（例如：集束搜索）
分析与解释
福利：

研讨会 & 作业

第四周：课程仓库。

阅读更多 ⇨

迁移学习

什么是迁移学习
词语到语境中的词语
从替换词嵌入到替换模型
适配器
分析与解释

研讨会 & 作业

第五周和第六周：课程仓库。

阅读更多 ⇨

未完待续...

补充资料

卷积网络

直觉
构建模块: 卷积
构建模块: 池化 (max/mean, k-max, global)
CNNs模型：文本分类
CNNs模型：语言模型
分析与解释

阅读更多 ⇨

未完待续...