Python 机器学习的必备技巧(2)

日期：2020-06-10 栏目：程序人生浏览：次

Pandas 是 Python 生态中用于进行通用数据分析的最受欢迎的库。Pandas 基于 NumPy 数组构建，在保证了可观的执行速度的同时，还提供了许多数据工程方面的功能，包括：

对多种不同数据格式的读写操作

选择数据子集

跨行列计算

查找并补充缺失的数据

将操作应用于数据中的独立分组

按照多种格式转换数据

组合多个数据集

高级时间序列功能

通过 Matplotlib 和 Seaborn 进行可视化

Python 机器学习的必备技巧

Matplotlib 和 Seaborn

数据可视化和数据分析是数据科学家的必备技能，毕竟仅凭一堆枯燥的数据是无法有效地将背后蕴含的信息向受众传达的。这两项技能对于机器学习来说同样重要，因为首先要对数据集进行一个探索性分析，才能更准确地选择合适的机器学习算法。

Matplotlib 是应用最广泛的 2D Python 可视化库。它包含海量的命令和接口，可以让你根据数据生成高质量的图表。要学习使用 Matplotlib，可以参考这篇详尽的文章。

Python 机器学习的必备技巧

Seaborn 也是一个强大的用于统计和绘图的可视化库。它在 Matplotlib 的基础上提供样式灵活的 API、用于统计和绘图的常见高级函数，还可以和 Pandas 提供的功能相结合。要学习使用 Seaborn，可以参考这篇优秀的教程。

Python 机器学习的必备技巧

Scikit-learn

Scikit-learn 是机器学习方面通用的重要 Python 包。它实现了多种分类、回归和聚类算法，包括支持向量机、随机森林、梯度增强、k-means 算法和 DBSCAN 算法，可以与 Python 的数值库 NumPy 和科学计算库 SciPy 结合使用。它通过兼容的接口提供了有监督和无监督的学习算法。Scikit-learn 的强壮性让它可以稳定运行在生产环境中，同时它在易用性、代码质量、团队协作、文档和性能等各个方面都有良好的表现。可以参考这篇基于 Scikit-learn 的机器学习入门，或者这篇基于 Scikit-learn 的简单机器学习用例演示。