老齐教室

这本书,帮你解决AI项目中最难最烦的工作

——《数据准备和特征工程》介绍

凡是在机器学习、数据科学领域的从业者,都知道这两句话:

  • Garbage in, garbage out(GIGO)。
  • 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

我们的项目经验也一再证明:高质量的数据永远是最重要的

然而,“现实很骨感”,真实项目中的数据充斥着各种问题,因此,数据准备和特征工程的工作就非常重要了,我们必须熟练掌握相关操作技能。经验表明,数据准备和特征工程会占用项目开发的绝大多数时间。

《数据准备和特征工程》概要

为了帮助有意进入数据科学领域的朋友熟悉这项重要工作的操作方法,我撰写了 《数据准备和特征工程》

本书旨在:

  • 梳理常用的数据准备和特征工程操作技术
  • 将常见的特征工程问题进行归类,给出相应的解决方案
  • 为读者提供大量的动手练习项目

本书特色:

  • 强调工程实践,这也是本书作者所有书籍的共同特点。书中通过大量案例,向读者演示了各种方法的具体实现方式。

  • 基础与前沿结合。虽然本书在“基础知识”中介绍了相关的基本实现方法,但因为现实项目的复杂性,在具体项目中还会用到各种工具及最新的研发成果,为此专设了“扩展探究”供读者了解更精彩的内容。

  • 以案例为载体,传授思想方法。数据科学项目需要严谨、科学的思想方法,这些方法并非通过简单说教就能让读者掌握,本书以“项目案例”为载体,不仅讲述操作技法,而且还让读者体验其中的思想方法,并且在“动手练习”中提供了练习项目,供读者检验和巩固所学内容。

资源

为了让读者更方便阅读《数据准备和特征工程》,还提供更多的资源支持。

资源1:在线实验和源码

我利用百度提供的AiStudio平台,创建了本书配套的实验课程,读者进入该课程之后,可以对照本书,在线调试所有代码,并且使用所提供的各种数据集。也可以将源码和数据集下载到本地使用。

申请加入在线实验课程的流程:

  1. 关注我的微信公众号:老齐教室

  1. 在微信公众号回复:姓名+手机号+“特征”。例如,某人姓名是:张三;手机号是:18677779999,即回复如下字样:张三+18677779999+特征【由于人工审核和添加,可能响应时间较长,请耐心等待,并随时查看。】

  1. 收到上述信息后,通过微信公众号返回申请人的“姓名、学号和邀请码”。
  2. 登录:https://aistudio.baidu.com/,凭上述信息加入《数据准备和特征工程》在线实验课程。
    1. 注册百度账号,并凭账号登录
    2. 在页面上点击“我的课程
    3. 在页面上点击“加入新课程
    4. 根据微信公众回复的内容,在页面表单中填写:邀请码、姓名、学号
    5. 提交上述信息,即可进入在线课程

资源2:在线视频课程

关注微信公众号:老齐教室,查看“书籍-数据准备特征工程”菜单,即可找到视频课程链接。

资源3:其他与本书相关技术

关注微信公众号:老齐教室,查看“文章-数据科学”菜单,即可阅读更多相关文章。

资源3:读者交流群

关注微信公众号,回复“特征群”,即可获得本书读者交流微信群的二维码,扫码即可加入。注意,此群仅供读者进行学习交流。

《数据准备和特征工程》目录

  1. 感知数据
    1. 了解数据科学项目
    2. 文件中的数据
    3. 数据库中的数据
    4. 网页上的数据
    5. 来自 API 的数据
  2. 数据清理
    1. 基本概念
    2. 转化数据类型
    3. 处理重复数据
    4. 处理缺失数据
    5. 检查缺失数据
    6. 处理离群数据
  3. 特征变换
    1. 特征的类型
    2. 特征数值化
    3. 特征二值化
    4. OneHot编码
    5. 数据变换
    6. 特征离散化
    7. 数据规范化
  4. 特征选择
    1. 特征选择简述
    2. 封装器法
    3. 过滤器法
    4. 嵌入法
  5. 特征抽取
    1. 无监督特征抽取
    2. 有监督特征抽取

购买

  1. 电子工业出版社天猫旗舰店:

操作方法: (1)下载下面的图片;(2)打开手机淘宝;(3)用手机淘宝扫描图片。

  1. 其他大型电子商务网站也陆续发布。

关注微信公众号:老齐教室。读深度文章,得精湛技艺,享绚丽人生。

使用支付宝打赏
使用微信打赏

若你觉得我的文章对你有帮助,欢迎点击上方按钮对我打赏

关注微信公众号,免费获得在线机器学习案例