Letter from Lena

To me, this course is something very personal and truly loved. I'm still surprised it turned out the way it is, making my feelings about NLP public and for everyone to see. I'm very happy and grateful now the course is available to many more people. Hope you enjoy it the way I did :)

For you.

NLP Course | 专属定制

这是Lena Voita从2018年秋季开始在Yandex数据分析学院(YSDA)教授的自然语言处理课程的延伸。到目前为止,这里可能只涉及部分主题。

这种新的课程形式是为了:

  • 便捷
    便于查找、学习和回顾(包括基础内容和高阶内容)并在实践中尝试。
  • 清晰
    每个部分,从前到后,不仅包括讲述的内容,更重要的是讲述和展示的方式,都是我深思熟虑之后的结果。
  • 你(专属)
    我制作这些学习资料,以便你(是的,你!)可以自学。也就是说,你可以按照你自己的速度,学习你喜欢的内容。而我的主要目的是帮助你进入你自己的学习冒险之旅。 专属定制

如果你想要在你的论文、报告等材料中引用这些学习资料(例如:图片),你可以采用下述BibTex:

@misc{voita2020nlpCourse,
title={ {NLP} {C}ourse {F}or {Y}ou},
url={https://lena-voita.github.io/nlp_course.html},
author={Elena Voita},
year={2020},
month={Sep}
}


本课程包含什么?你的冒险指南


课程-博客

我尽可能使其:

  • 直观、清晰、具有吸引力;
  • 全面: 完整的课程甚至更多内容;
  • 与时俱进,包含该领域最新内容。

福利:

研讨会 & 作业

对于每个主题,你可以从我们的7.7k-☆课程仓库中获得资料。

从2020年起,我们支持PyTorch和Tensorflow!

交互部分 & 练习

我经常会让你浏览一些包含可视化过程的“幻灯片”,操作一些东西或只是思考。

分析与解释

自2020年以来,顶级NLP会议(ACL、EMNLP)都设有"分析和可解释性"Track:这再次印证了分析是NLP不可或缺的一部分。

每节课都有一小节是关于"模型、方法内部运作相关结果"的阐述。


研究思考

学会像研究科学家一样思考:

  • 找到方法中的缺陷,
  • 想想为什么/什么时候什么东西能有所帮助,
  • 提出改进的方法,
  • 学习之前的尝试。

众所周知,使得学习变得更简单的方法是"先思考",而非直接提供给你最终答案。即使你的目标不是研究人员,这仍然是一个学习东西的好方法!

演示: 研究卡片

这里我定义起点:一些你已经知道的东西。

这里我向你抛出问题,思考(一分钟,一天,一周,……),然后寻找可能的答案。
为什么会有效?
可能的答案
这里你将看到一些可能的答案。这部分是一个尝试新方法的动机:通常,这是一个研究项目的开始。
我们如何利用这一点来改进这个模型?
现有解决方案
在这里,我将总结一些以前的尝试。你不应该想出像这里一样的东西,记住,每篇论文通常需要作者几个月的工作。这是一种思考这些重要事情的习惯:你有几个想法,你去尝试;如果它们不起作用,你就会重新考虑。最终,总会有办法的,这就是论文告诉你的。


Have Fun!

生动有趣。

在这里你将看到一些与课程主题相关的NLP游戏。




课程

词嵌入

  • 分布式语义
  • 基于计数的方法
  • Word2Vec: 可学习的表示
  • GloVe: 先技术再学习
  • 评价: 内在 vs 外部
  • 分析与解释
  • 福利:

研讨会 & 作业

第一周课程仓库

文本分类

  • 简介和数据集
  • 通用框架
  • 经典方法:朴素贝叶斯,最大熵(逻辑斯蒂回归),SVM
  • 神经网络:RNNs和CNNs
  • 分析与解释
  • 福利:

研讨会 & 作业

第二周课程仓库

语言模型

  • 通用框架
  • N元语法语言模型
  • 神经网络语言模型
  • 生成策略
  • 评价语言模型
  • 使用技巧
  • 分析与解释
  • 福利:

研讨会 & 作业

第三周课程仓库

阅读更多 ⇨

序列到序列模型和注意力机制

  • 序列到序列基础 (编码器-解码器,训练,简单模型)
  • 注意力机制
  • Transformer
  • 子词分割(例如:BPE)
  • 推断(例如:集束搜索)
  • 分析与解释
  • 福利:

研讨会 & 作业

第四周课程仓库

迁移学习

  • 什么是迁移学习
  • 词语到语境中的词语
  • 从替换词嵌入到替换模型
  • 适配器
  • 分析与解释

  • 研讨会 & 作业

    第五周第六周课程仓库

未完待续...



补充资料

卷积网络

  • 直觉
  • 构建模块: 卷积
  • 构建模块: 池化 (max/mean, k-max, global)
  • CNNs模型: 文本分类
  • CNNs模型:语言模型
  • 分析与解释
未完待续...