2 Star 3 Fork 1

greener / CS329P实用机器学习课程笔记

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
2.3-数据变换.md 1.53 KB
一键复制 编辑 原始数据 按行查看 历史
Yuliang Zhu 提交于 2022-01-15 23:41 . Chater2-3

数据变换

  • 数据被变换成适合机器学习的形式
  • 关注作用于不同数据的普适方法

实数变形

  1. 把列里的数值固定在区间 $[a, b]$里

$$x_i'={x_i-\min_{\bf x}\over \max_{\bf x}-\min_{\bf x}}(b-a)+a$$

  1. Z-socre 正则化:均值为 $0$,方差为 $1$,最常用

$$x_i'={x_i-mean({\bf x})\over std({\bf x})}$$

  1. 归一到 $[-1, 1]$

$$x_i'=x_i/10^j\\ \min j\\ s.t.\\ \max(|{\bf x}|)\le 1$$

  1. 取对数,乘除变加减

$$x_i'=log(x_i)$$

图片变换

  • 会爬取大量的图片
    • 存储和处理
  • crop and downsample
    • 截取中心
    • 下采样图片压缩降低分辨率
    • 提高读取速度
  • 机器对于图片的分辨率宽容度很高
    • 损失细节也可以识别特征
  • 注意图片格式,尤其是jpeg
    • 用中等质量(80-90%)会导致1%的精度下降
  • Image whitening
    • 把不重要的像素省略掉

视频变换

  • 和图片类似,要评判存储大小、视频质量、加载时间
    • 通常是小于10s的视频
    • 获得原始视频,只截取感兴趣的片段
  • 视频压缩算法很常用
    • 带来采样和解码速度的问题
    • 通常使用GPU
  • 权衡存储和解码

文本变换

  • 词根化或语法化
    • 时态、单复数、系动词、虚词
  • 词元化
    • 分隔出词/字符
  • 中文分词也是一个NLP的应用
    • 网上有很有效的框架

总结

  • 把数据从一个格式转换到机器学习所需要的格式,平衡数据集大小/质量/加载速度
  • 这些数据包括
    • 表格
    • 图片
    • 视频
    • 文本
1
https://gitee.com/greener/cs329p-note.git
git@gitee.com:greener/cs329p-note.git
greener
cs329p-note
CS329P实用机器学习课程笔记
master

搜索帮助