5 个不容忽视的机器学习项目

选自：KDnuggets 作者：Matthew Mayo 编译： RunlifeSunshine

重大的机器学习项目广为传知，比如 Scikit-learn, TensorFlow, Theano 等。但是那些市场虽小却发展迅猛、给用户提供优质服务的项目呢？

受欢迎的机器学习项目，通常而言，之所以受欢迎是因为它们提供了覆盖范围广泛的服务，或者是创新性地为用户提供了独特的小众化服务。广受欢迎的项目包括 Scikit-learn, TensorFlow, Theano, MXNet , Weka 等。这些项目有很多共同性，它们都针对大量客户提供服务。

但是，还有一些小型的机器学习项目致力于构建这些产品：流水线、包装纸、高水平应用程序接口、清洁剂等。它们针对细分市场提供灵活服务，面向的消费群体更小众化。下面就是 5 个这样的项目。

Deepy

Deepy 是基于 Theano 的可扩展性的深度学习框架。它为 LSTMs, Batch Normalization, Auto Encoders 等元件提供干净的、高级别的接口。 Deepy 显然旨在简洁性。它还有一个姊妹项目，也就是用 Deepy 实现深度递归专注式作家 (Deep Recurrent Attentive Writer, DRAW) 通用模型。

Deepy 到底有多简洁呢？下面是来自 Github 的一个使用 dropout 的多层模型的例子（dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作，不工作的那些节点可以暂时认为不是网络结构的一部分，但是它的权重得保留下来（只是暂时不更新而已），因为下次样本输入时它可能又得工作了）：

MLxtend

MLxtend 将针对机器学习任务的各种有用工具和延伸产品集为一体。本质上，它是将有机器学习、数据科学有关的各种有用工具和参考资料收集在一起。那么为什么 Sebastian Raschka （机器学习发烧友、数据分析师、python 程序员、作者、计算生物学家、开源贡献者）要发起这样的项目呢？下面是 Sebastian 列出的几个原因：

第一，我没有找到其它任何可以使用实现这种算法的地方（例如：序列特征选择算法、多数投票表决选择器、堆叠估计、绘图决定区域等，其对应的英文术语分别是 the Sequential Feature Selection algorithms, the Majority Voting Classifier, the Stacking estimators, plotting decision regions ）

第二，针对教育目的的算法工具（例如：逻辑回归、softmax 回归、多层感知机、主成分分析等）；这些算法是聚焦于代码的可读性，而不是纯粹的有效性。

第三，提供方便的包装纸：Tensorflow 的softmax 回归和多层感知机，以及针对 pandas （ pandas是python环境下最有名的数据统计包）数据框的列优先标准。

这本质上是关于被普遍应用的机器学习功能的资料室。另外， Sebastian 确实喜欢写代码，而且认为如果他需要将自己存放各种不同东西的「动物园」提供给别人，他就会保持代码的整洁性，而且是比平时更整洁。许多算法工具与 Scikit-learn 的应用程序接口享有相似性，但是在未来算法工具将不必局限于此。重要的关键点在于： Sebastian 保证会有越来越多的惊喜。他捣鼓过的任何独特或新颖的算法都有机会进入 MLxtend 的包裹里。

datacleaner

datacleaner 是研究者 Randal Olson 的工作。他也是伟大的 TPOT 机器学习流水线项目的负责人。 Olson 将 Data Cleaner 宣传为「能自动清理数据集并为数据分析做好准备的 Python 工具」。他宣布这不是魔法，并指出 datacleaner 能做的事情：一旦它成为 pandas 数据框可以处理的形式，它就能通过编写代码和清理数据为你节省大量时间。datacleaner 还在进步中，但是最近它已能处理常规而耗时的数据整理任务：选择性地舍弃有缺失值的数据列、用众数或中位数代替缺失值、用数量等价值编译非数字的变量等。 Randal 说，他正在寻找得力助手，尤其是在数据整理业务上很有想法的人。datacleaner 能以自动化的方式执行任务。 Randal 关注到了这样的细节，就是任何读过他的博客或 Github repos 的人都已经知道，关于这个项目的简洁的文件资料是平淡无奇的。我最近一直在使用 datacleaner ，到目前为止它还是遵守诺言的。

auto-sklearn

auto-sklearn 是针对 Scikit-learn 环境的自动化机器学习。它让机器学习用户从算法选择和超多参数调校 (hyperparameter tuning) 中解脱出来。它利用了贝叶斯优化、元学习和集成建设 (ensemble construction) 的优势。如果想详细了解 auto-sklearn 背后的技术，请阅读 2015 年发表的这篇论文 (论文标题：Efficient and Robust Automated Machine Learning. 论文链接：
http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning.pdf) 。

Deep Mining

Deep Mining 是机器学习流水线自整定器 (pipeline auto-tuner) ，它是来自麻省理工学院人工智能实验室的 Sebastien Dubois 。这款软件能迭代且智能地测试一些超多参数设备，从而尽可能快速地找到最好的参数组合，达到流水线所能达到的最好的分类精确度。 Deep Mining 不是一个有名的项目，然而借助麻省理工学院人工智能实验室的优势，它可能成为众多类似自动化流水线工具中的标杆。

相关推荐

java:Cassandra入门与实战——下

广联达终于出免费造价软件了，这五款真好用，准确率高达100%

开源库libmodbus的用法

Tekla 2023钢结构设计软件安装教程附下载方法

配置GitLab流水线和门禁系统

推荐五个优秀的富文本编辑器富文本编辑器app

MySql中json类型数据的查询以及在MyBatis-Plus中的使用

立即下载Galaxy Z Flip 6和Fold 6的壁纸 - SamMobile

BIOS/UEFI模式下如何分区 uefi分区教程

亿图图示免费VIP会员兑换码激活码礼品券