2 Star 2 Fork 1

greener / CS329P实用机器学习课程笔记

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
11.2-NLP里的微调.md 1.28 KB
一键复制 编辑 原始数据 按行查看 历史
Yuliang Zhu 提交于 2022-01-17 00:15 . Chapter 3 to now

NLP里的微调

  • 没有大规模标注的NLP数据库
  • 大规模的未标号文档
  • 自监督预训练
    • 伪标号用于监督学习
      • 语言模型(LM)
      • 掩码模型(MLM)

常见预训练模型

  • Word embeddings
    • 对每一个词学习 ${\bf u_w}$ 和 ${\bf v_w}$
      • 对于掩码 $\argmax_y{\bf u_y}^T\sum_i{\bf v_{x_i}}$
      • 预测词的 ${\bf u}$ 和上下文的 $\sum_i{\bf v_{x_i}}$
      • 从所有词里选出那个的 ${\bf y_i}$ 使二者内积最大,也就是最可能的预测
    • ${\bf u}$ 可以用于其他的模型里
  • Transformer
    • BERT: 用encoder
      • 句子相关性
      • 掩码
      • 微调
        • 句子分类
        • 实体命名
        • 你问我答
      • 实际考虑
        • 微调不稳定
          • 改变了Adam
          • 对小数据集不稳定,建议用原版 Adam
        • 需要多几个epoch
        • 随机初始化上层
    • GPT: 基于decoder
    • T5: 基于en-decoder

预训练模型的源

  • HuggingFace: Transformer

应用

  • BERT在11个NLP的应用里最成功
    • 英文语法
    • 电影评论
    • QA
    • 两句话的语义等价
    • 假设和结论的关系

总结

  • 预先连模型通常自监督
    • 掩码和相关性
    • 自己创造标注并训练
  • BERT是一个巨大的Transformer编码器
  • 微调应用
1
https://gitee.com/greener/cs329p-note.git
git@gitee.com:greener/cs329p-note.git
greener
cs329p-note
CS329P实用机器学习课程笔记
master

搜索帮助