百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

5 个不容忽视的机器学习项目

csdh11 2025-02-09 11:57 8 浏览

选自:KDnuggets 作者:Matthew Mayo 编译: RunlifeSunshine

重大的机器学习项目广为传知,比如 Scikit-learn, TensorFlow, Theano 等。但是那些市场虽小却发展迅猛、给用户提供优质服务的项目呢?

受欢迎的机器学习项目,通常而言,之所以受欢迎是因为它们提供了覆盖范围广泛的服务,或者是创新性地为用户提供了独特的小众化服务。广受欢迎的项目包括 Scikit-learn, TensorFlow, Theano, MXNet , Weka 等。这些项目有很多共同性,它们都针对大量客户提供服务。

但是,还有一些小型的机器学习项目致力于构建这些产品:流水线、包装纸、高水平应用程序接口、清洁剂等。它们针对细分市场提供灵活服务,面向的消费群体更小众化。下面就是 5 个这样的项目。

  1. Deepy

Deepy 是基于 Theano 的可扩展性的深度学习框架。它为 LSTMs, Batch Normalization, Auto Encoders 等元件提供干净的、高级别的接口。 Deepy 显然旨在简洁性。它还有一个姊妹项目,也就是用 Deepy 实现深度递归专注式作家 (Deep Recurrent Attentive Writer, DRAW) 通用模型。

Deepy 到底有多简洁呢?下面是来自 Github 的一个使用 dropout 的多层模型的例子(dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了):

  1. MLxtend

MLxtend 将针对机器学习任务的各种有用工具和延伸产品集为一体。本质上,它是将有机器学习、数据科学有关的各种有用工具和参考资料收集在一起。那么为什么 Sebastian Raschka (机器学习发烧友、数据分析师、python 程序员、作者、计算生物学家、开源贡献者)要发起这样的项目呢?下面是 Sebastian 列出的几个原因:

第一,我没有找到其它任何可以使用实现这种算法的地方(例如:序列特征选择算法、多数投票表决选择器、堆叠估计、绘图决定区域等,其对应的英文术语分别是 the Sequential Feature Selection algorithms, the Majority Voting Classifier, the Stacking estimators, plotting decision regions )

第二,针对教育目的的算法工具(例如:逻辑回归、softmax 回归、多层感知机、主成分分析等);这些算法是聚焦于代码的可读性,而不是纯粹的有效性。

第三,提供方便的包装纸:Tensorflow 的softmax 回归和多层感知机,以及针对 pandas ( pandas是python环境下最有名的数据统计包)数据框的列优先标准。

这本质上是关于被普遍应用的机器学习功能的资料室。另外, Sebastian 确实喜欢写代码,而且认为如果他需要将自己存放各种不同东西的「动物园」提供给别人,他就会保持代码的整洁性,而且是比平时更整洁。许多算法工具与 Scikit-learn 的应用程序接口享有相似性,但是在未来算法工具将不必局限于此。重要的关键点在于: Sebastian 保证会有越来越多的惊喜。他捣鼓过的任何独特或新颖的算法都有机会进入 MLxtend 的包裹里。

  1. datacleaner

datacleaner 是研究者 Randal Olson 的工作。他也是伟大的 TPOT 机器学习流水线项目的负责人。 Olson 将 Data Cleaner 宣传为「能自动清理数据集并为数据分析做好准备的 Python 工具」。他宣布这不是魔法,并指出 datacleaner 能做的事情:一旦它成为 pandas 数据框可以处理的形式,它就能通过编写代码和清理数据为你节省大量时间。datacleaner 还在进步中,但是最近它已能处理常规而耗时的数据整理任务:选择性地舍弃有缺失值的数据列、用众数或中位数代替缺失值、用数量等价值编译非数字的变量等。 Randal 说,他正在寻找得力助手,尤其是在数据整理业务上很有想法的人。datacleaner 能以自动化的方式执行任务。 Randal 关注到了这样的细节,就是任何读过他的博客或 Github repos 的人都已经知道,关于这个项目的简洁的文件资料是平淡无奇的。我最近一直在使用 datacleaner ,到目前为止它还是遵守诺言的。

  1. auto-sklearn

auto-sklearn 是针对 Scikit-learn 环境的自动化机器学习。它让机器学习用户从算法选择和超多参数调校 (hyperparameter tuning) 中解脱出来。它利用了贝叶斯优化、元学习和集成建设 (ensemble construction) 的优势。如果想详细了解 auto-sklearn 背后的技术,请阅读 2015 年发表的这篇论文 (论文标题:Efficient and Robust Automated Machine Learning. 论文链接:
http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning.pdf) 。

  1. Deep Mining

Deep Mining 是机器学习流水线自整定器 (pipeline auto-tuner) ,它是来自麻省理工学院人工智能实验室的 Sebastien Dubois 。这款软件能迭代且智能地测试一些超多参数设备,从而尽可能快速地找到最好的参数组合,达到流水线所能达到的最好的分类精确度。 Deep Mining 不是一个有名的项目,然而借助麻省理工学院人工智能实验室的优势,它可能成为众多类似自动化流水线工具中的标杆。

相关推荐

当iPhone X遇上 Mate 10 Pro 怎么挑?

产品:Mate10Pro(全网通)华为手机1iPhoneX一出就遇上了对手Hello!大家好我是石头这里是zol。首先来看看我手里的这个,不是装x的意思,今天好多人欢天喜地的拿到了属于自己或者属...

谁是办公高手? 六款商务平板全推荐

1超低功耗联想Thinkpad10领衔ThinkPad的名字在笔记本上依然是高曝光率,从IBM到联想,它一直以来是商务、办公领域的不二人选,然而在平板电脑大行其道的今天,ThinkPad当然也不单...

如何仅用几行代码将微信4.0公测版转换成玲珑格式?

微信4.0(玲珑版)已上架如意玲珑应用商店!!!...

音乐研发必备:理解 MIDI 协议与标准 MIDI 文件格式

1.MIDI简介...

HEIF格式可以节约50%的空间!质量会有影响吗?

关于手机1亿像素到底有没有必要,争议肯定是存在的,但无法回避的一点是随着像素的成倍增加,一张照片十几MB成了常事,这必将给本就不太宽裕的存储容量造成压力,这种压力又会转嫁到用户身上,让他们不得不花更多...

「干货分享」30个前端知识技能提升的资源网站

今天给小伙伴们分享30个前端相关学习资源网站及一些在线小工具,希望能帮助到大家。CSS相关1、css精灵牛|在线图片CSS生成工具。...

用Facebook引流Shopify独立站,如何优化Facebook商户页面?

什么是FacebookBusinessPage?FacebookBusinessPage是官方的称号,其实你可以简单理解为facebookbusinesspage就是微信公众账户,而我们...

玩转手机摄影 nubia Z9 mini新品首测

1Z9系列新品nubiaZ9mini发布会开始之前的邀请函总能透露出很多内容,或者说我们总会特意解读出很多内容。nubia此前发出的3月26日智能手机新品发布会的邀请函很显然再一次着重强调了其产品...

影院看片怕座位不好?那买个盒子在家看

着消费者对高清播放器的需求的不断增加,高清播放器的功能也在不断得到提升。以前看电影的时候相信很多人更喜欢去电影院里观看,但是有时候去电影院的人太多买不到好位子也会让不少人感到扫兴。现在随着技术的革新,...

今天你买了么?不入后悔的8款平板推荐

随着高考大战的落幕,对于广大学生朋友们来说正真的暑假终于来了!这个假期想要外出旅行或是居家畅玩,没有一款便携式全能娱乐利器的平板电脑怎么能叫放假呢?正直京东618购物季即将到来的日子,相信你也不会错过...

Cursor使用指南:释放AI编程的无限潜能

Cursor简介...

谁说轻薄本缺乏生产力?没体验过别乱说

笔记本电脑轻薄化一直是各大厂商们不断努力的方向,不过早前的轻薄笔记本电脑会受制于技术方面的限制,无法将高能耗的CPU以及显卡塞入轻薄的机身内。为了能给这些芯片散热、供电,制造商们不得不对这些芯片的功耗...

通告ImageMagick再爆核心漏洞 站长小心

目前所有版本的GraphicsMagick和ImageMagick都支持打开文件,当文件名的第一个字符为“|”,则文件名会被传递给shell程序执行,导致(可能远程)代码执行。文件打开操作位于源代码文...

《玻璃之花与坏掉的世界》再曝新宣传片

雨文冰璃发表于昨天22:56【新闻】《玻璃之花与坏掉的世界》再曝新宣传片http://comic.qq.com/a/20151122/016784.htmPONYCANYON和A-1Pictu...

7 招教你轻松搭建以图搜图系统

作者|小龙责编|胡巍巍当您听到“以图搜图”时,是否首先想到了百度、Google等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到...