这个分析笔记由Jake Vanderplas编辑汇总。 源代码和license文件在GitHub。 中文翻译由派兰数据派兰大数据分析平台上完成。 源代码在GitHub上。

scikit-learn简介: 基于Python的机器学习

教程目标

  • 介绍机器学习的基础,和一些实用的技巧。
  • 介绍scikit-learn的结构,以便于您可以使用这个功能强大的工具。

目录:

使用前提:安装&介绍 (15 分钟)

  • 确保您的计算机已经成功安装

机器学习的基本原理和Scikit-learn的接口 (45 分钟)

  • 什么是机器学习
  • 机器学习的数据框架
  • 监督学习
    • 分类算法
    • 回归算法
    • 结果评估算法
  • 无监督学习
    • 聚类算法
    • 降维算法
    • 密度估计
  • 机器学习模型的评估
  • 为您的数据集选择正确的算法

深入探索监督学习 (1 小时)

  • 支持向量机
  • 决策树和随机森林

深入探索无监督学习 (1 小时)

  • 主成分分析
  • K-means聚类
  • 高斯混合模型

模型验证 (1 小时)

  • 验证和交叉验证

使用前提

本教程需要安装以下的包:

最简单的安装方法是使用 conda 环境管理工具。我建议下载和安装miniconda

下面的命令会自动安装所有需要的包:

$ conda install numpy scipy matplotlib scikit-learn ipython-notebook

另外,您可以选择下载和安装 Anaconda 软件发行版(非常大),可以在https://store.continuum.io/ 中找到。

【译者注】在派兰大数据分析和人工智能平台上免费注册,即可拥有上述所有的包,本教程所有分析笔记也在派兰分析平台上同步,方便交互式学习。

检查您的安装

您可以运行如下命令去检查您安装的包的版本:

(在 IPython notebook中,同时按下 shiftreturn 可以运行一个单元的内容)


In [ ]:
from __future__ import print_function

import IPython
print('IPython:', IPython.__version__)

import numpy
print('numpy:', numpy.__version__)

import scipy
print('scipy:', scipy.__version__)

import matplotlib
print('matplotlib:', matplotlib.__version__)

import sklearn
print('scikit-learn:', sklearn.__version__)

import seaborn
print('seaborn', seaborn.__version__)

实用资源


In [ ]: