1 Star 0 Fork 0

邱迅 / MachineLearning

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

MachineLearning

介绍

记录自己学习机器学习的过程,我会把实践的代码同步在码云上。

学习计划

在10月底前,学习完SKlearn的相关内容。

课程安排

  • 决策树
  • 随机森林
  • 数据处理
  • PCA降维算法
  • 逻辑回归
  • 聚类无监督学习算法-Kmeans
  • 支持向量机
  • 线性回归
  • 模型评估
  • 朴素贝叶斯
  • XGBoost算法
  • 神经网络

运行环境

  1. IDE: pycharm
  2. 环境:sklearn,numpy,pandas
  3. 语言:python

论文计划

  1. 每个星期看三篇论文

学习笔记

  • 编码
  1. preprocessing.LabelEncoder:标签专用,能够将分类转换为分类数值。
  2. preprocessing.OrdinalEncoder:特征专用,能够将分类特征转换为分类数值。
  3. sklearn.preprocessing.KBinsDiscretizer------离散化 (Discretization) (有些时候叫 量化(quantization) 或 分箱(binning)) ,是将连续特征划分为离散特征值的方法。 离散化可以把具有连续属性的数据集变换成只有名义属性(nominal attributes)的数据集。
  • 特征选择
说明 超参数的选择
VarianceThreshold 方差过滤,可输入方差的阈值,返回方差大于阈值的新特征矩阵 看具体数据究竟是含有更多噪 声还是更多有效特征 一般就使用0或1来筛选 也可以画学习曲线或取中位数 跑模型来帮助确认
SelectKBest 用来选取K个统计量结果最佳的特征,生成 符合统计量要求的新特征矩阵 看配合使用的统计量
chi2 卡方检验,专用于分类算法,捕捉相关性 追求p小于显著性水平的特征
f_classif F检验分类,只能捕捉线性相关性 要求数据服从正态分 追求p小于显著性水平的特征
f_regression F检验回归,只能捕捉线性相关性 要求数据服从正态分布 追求p小于显著性水平的特征
mutual_info_classif 互信息分类,可以捕捉任何相关性 不能用于稀疏矩阵 追求互信息估计大于0的特征
mutual_info_regression 互信息回归,可以捕捉任何相关性不能用于稀疏矩阵 追求互信息估计大于0的特征
  • Embeded嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使 用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。

feature_selection.SelectFromModel类

参数 说明
estimator 使用的模型评估器,只要是带feature_importances_或者coef_属性,或带有l1和l2惩罚 项的模型都可以使用
threshold 特征重要性的阈值,重要性低于这个阈值的特征都将被删除
prefit 默认False,判断是否将实例化后的模型直接传递给构造函数。如果为True,则必须直接 调用fit和transform,不能使用fit_transform,并且SelectFromModel不能与 cross_val_score,GridSearchCV和克隆估计器的类似实用程序一起使用。
norm_order k可输入非零整数,正无穷,负无穷,默认值为1 在评估器的coef_属性高于一维的情况下,用于过滤低于阈值的系数的向量的范数的阶数。
max_features 在阈值设定下,要选择的最大特征数。要禁用阈值并仅根据max_features选择,请设置 threshold = -np.inf

空文件

简介

学习机器学习。 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/qiu-xun/machine-learning.git
git@gitee.com:qiu-xun/machine-learning.git
qiu-xun
machine-learning
MachineLearning
master

搜索帮助

53164aa7 5694891 3bd8fe86 5694891