Anaconda.jpeg

Anaconda是初学Python、入门机器学习的首选。

它是一个用于科学计算的Python发行版,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。

Anaconda具有如下特点:

  • 开源
  • 安装过程简单
  • 高性能使用Python和R语言
  • 免费的社区支持

其特点的实现主要基于Anaconda拥有的:

  • conda包
  • 环境管理器
  • 1,000+ 开源库

Anaconda集成工具包及功能(部分):

  • NumPy:提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用,Python创建的所有更高层工具的基础,不提供高级数据分析功能
  • Scipy:依赖于NumPy,它提供便捷和快速的N维向量数组操作。提供模块用于优化、线性代数、积分以及其它数据科学中的通用任务
  • Pandas:基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的,包含高级数据结构,以及和让数据分析变得快速、简单的工具
  • Matplotlib:Python最著名的绘图库

其中,Scikit-Learn是Anaconda中集成的开源机器学习工具包,主要涵盖分类,回归和聚类算法,可以直接调用传统机器学习的算法进行使用。

同时,Anaconda也兼容Google开发的第二代人工智能系统TensorFlow,进行深度学习的开发。

最后,通过一个基于Python的决策树案例来了解一下机器学习的过程:

贷款申请的决策树,用于对未来的贷款申请进行分类

具体实现过程如下

  1. 准备数据集:从贷款申请样本数据表中,选取对训练数据具有分类能力的特征
  2. 构建树:选择信息增益最大的特征作为分裂特征构建决策树
  3. 数据可视化:使用Matplotlib对数据进行可视化
  4. 执行分类:用于实际数据的分类。例如输入测试数据[0,1],它代表没有房子,但是有工作,分类结果为“房贷”

附:Anaconda介绍、安装及使用教程