一.数据集的划分

  • API: sklearn.model-selection.train_test_split
    假设x为特征值,y为目标值,train为训练集,test为测试集则返回结果有:

    x_train,y_train,x_test,y_test = train_test_split(a ,b ,test_size= ,…..)

  • 注意:返回有四个结果顺序为训练集特征值,测试集特征值,训练集目标值,测试集目标值
    主要参数设置:a为特征值数据,b为目标值数据,test_size为测试集占比通常为0.2-0.3

二.sklearn转换器

  • 想一下之前做的特征工程的步骤:1.实例化一个对象;2.调用fit_transform()
    其实实例化的是一个转换器类(Transformer),我们把特征工程的接口称之为转换器,其中转换器调用有这么几种形式:

    fit_transform
    fit
    transform

  • 这几个方法之间有什么区别呢,我们看以下代码就清楚了

    当使用fit和transform时

三.sklearn估计器

在sklearn中,估计器(estimator)是机器学习算法的API,是进行机器学习的面向对象,它的内部能够像转换器那样自动地保存一些运算结果。
以下是一些常用的算法估计器:

  1. 用于分类的估计器:

    sklearn.neighbors k-近邻算法
    sklearn.naive_bayes 贝叶斯
    sklearn.linear_model.LogisticRegression 逻辑回归
    sklearn.tree 决策树与随机森林

  2. 用于回归的估计器:

    sklearn.linear_model.LinearRegression 线性回归
    sklearn.linear_model.Ridge 岭回归

  3. 用于无监督学习的估计器

    sklearn.cluster.KMeans 聚类

以下为估计器工作流程

主要流程图

0条评论