11.2-NLP里的微调.md · greener/CS329P实用机器学习课程笔记 - Gitee.com

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

克隆/下载

11.2-NLP里的微调.md 1.28 KB

一键复制编辑原始数据按行查看历史

提交于 2022-01-17 00:15 . Chapter 3 to now

NLP里的微调

没有大规模标注的NLP数据库
大规模的未标号文档
自监督预训练
- 伪标号用于监督学习
  - 语言模型(LM)
  - 掩码模型(MLM)

常见预训练模型

Word embeddings
- 对每一个词学习 ${\bf u_w}$ 和 ${\bf v_w}$
  - 对于掩码 $\argmax_y{\bf u_y}^T\sum_i{\bf v_{x_i}}$
  - 预测词的 ${\bf u}$ 和上下文的 $\sum_i{\bf v_{x_i}}$
  - 从所有词里选出那个的 ${\bf y_i}$ 使二者内积最大，也就是最可能的预测
- ${\bf u}$ 可以用于其他的模型里
Transformer
- BERT: 用encoder
  - 句子相关性
  - 掩码
  - 微调
    - 句子分类
    - 实体命名
    - 你问我答
  - 实际考虑
    - 微调不稳定
      - 改变了Adam
      - 对小数据集不稳定，建议用原版 Adam
    - 需要多几个epoch
    - 随机初始化上层
- GPT: 基于decoder
- T5: 基于en-decoder

预训练模型的源

HuggingFace: Transformer

应用

BERT在11个NLP的应用里最成功
- 英文语法
- 电影评论
- QA
- 两句话的语义等价
- 假设和结论的关系

总结

预先连模型通常自监督
- 掩码和相关性
- 自己创造标注并训练
BERT是一个巨大的Transformer编码器
微调应用

1

https://gitee.com/greener/cs329p-note.git

git@gitee.com:greener/cs329p-note.git

greener

cs329p-note

CS329P实用机器学习课程笔记

master