选自:KDnuggets 作者:Matthew Mayo 编译: RunlifeSunshine
重大的机器学习项目广为传知,比如 Scikit-learn, TensorFlow, Theano 等。但是那些市场虽小却发展迅猛、给用户提供优质服务的项目呢?
受欢迎的机器学习项目,通常而言,之所以受欢迎是因为它们提供了覆盖范围广泛的服务,或者是创新性地为用户提供了独特的小众化服务。广受欢迎的项目包括 Scikit-learn, TensorFlow, Theano, MXNet , Weka 等。这些项目有很多共同性,它们都针对大量客户提供服务。
但是,还有一些小型的机器学习项目致力于构建这些产品:流水线、包装纸、高水平应用程序接口、清洁剂等。它们针对细分市场提供灵活服务,面向的消费群体更小众化。下面就是 5 个这样的项目。
Deepy
Deepy 是基于 Theano 的可扩展性的深度学习框架。它为 LSTMs, Batch Normalization, Auto Encoders 等元件提供干净的、高级别的接口。 Deepy 显然旨在简洁性。它还有一个姊妹项目,也就是用 Deepy 实现深度递归专注式作家 (Deep Recurrent Attentive Writer, DRAW) 通用模型。
Deepy 到底有多简洁呢?下面是来自 Github 的一个使用 dropout 的多层模型的例子(dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了):
MLxtend
MLxtend 将针对机器学习任务的各种有用工具和延伸产品集为一体。本质上,它是将有机器学习、数据科学有关的各种有用工具和参考资料收集在一起。那么为什么 Sebastian Raschka (机器学习发烧友、数据分析师、python 程序员、作者、计算生物学家、开源贡献者)要发起这样的项目呢?下面是 Sebastian 列出的几个原因:
第一,我没有找到其它任何可以使用实现这种算法的地方(例如:序列特征选择算法、多数投票表决选择器、堆叠估计、绘图决定区域等,其对应的英文术语分别是 the Sequential Feature Selection algorithms, the Majority Voting Classifier, the Stacking estimators, plotting decision regions )
第二,针对教育目的的算法工具(例如:逻辑回归、softmax 回归、多层感知机、主成分分析等);这些算法是聚焦于代码的可读性,而不是纯粹的有效性。
第三,提供方便的包装纸:Tensorflow 的softmax 回归和多层感知机,以及针对 pandas ( pandas是python环境下最有名的数据统计包)数据框的列优先标准。
这本质上是关于被普遍应用的机器学习功能的资料室。另外, Sebastian 确实喜欢写代码,而且认为如果他需要将自己存放各种不同东西的「动物园」提供给别人,他就会保持代码的整洁性,而且是比平时更整洁。许多算法工具与 Scikit-learn 的应用程序接口享有相似性,但是在未来算法工具将不必局限于此。重要的关键点在于: Sebastian 保证会有越来越多的惊喜。他捣鼓过的任何独特或新颖的算法都有机会进入 MLxtend 的包裹里。
datacleaner
datacleaner 是研究者 Randal Olson 的工作。他也是伟大的 TPOT 机器学习流水线项目的负责人。 Olson 将 Data Cleaner 宣传为「能自动清理数据集并为数据分析做好准备的 Python 工具」。他宣布这不是魔法,并指出 datacleaner 能做的事情:一旦它成为 pandas 数据框可以处理的形式,它就能通过编写代码和清理数据为你节省大量时间。datacleaner 还在进步中,但是最近它已能处理常规而耗时的数据整理任务:选择性地舍弃有缺失值的数据列、用众数或中位数代替缺失值、用数量等价值编译非数字的变量等。 Randal 说,他正在寻找得力助手,尤其是在数据整理业务上很有想法的人。datacleaner 能以自动化的方式执行任务。 Randal 关注到了这样的细节,就是任何读过他的博客或 Github repos 的人都已经知道,关于这个项目的简洁的文件资料是平淡无奇的。我最近一直在使用 datacleaner ,到目前为止它还是遵守诺言的。
auto-sklearn
auto-sklearn 是针对 Scikit-learn 环境的自动化机器学习。它让机器学习用户从算法选择和超多参数调校 (hyperparameter tuning) 中解脱出来。它利用了贝叶斯优化、元学习和集成建设 (ensemble construction) 的优势。如果想详细了解 auto-sklearn 背后的技术,请阅读 2015 年发表的这篇论文 (论文标题:Efficient and Robust Automated Machine Learning. 论文链接:
http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning.pdf) 。
Deep Mining
Deep Mining 是机器学习流水线自整定器 (pipeline auto-tuner) ,它是来自麻省理工学院人工智能实验室的 Sebastien Dubois 。这款软件能迭代且智能地测试一些超多参数设备,从而尽可能快速地找到最好的参数组合,达到流水线所能达到的最好的分类精确度。 Deep Mining 不是一个有名的项目,然而借助麻省理工学院人工智能实验室的优势,它可能成为众多类似自动化流水线工具中的标杆。