百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

5 个不容忽视的机器学习项目

csdh11 2025-02-09 11:57 18 浏览

选自:KDnuggets 作者:Matthew Mayo 编译: RunlifeSunshine

重大的机器学习项目广为传知,比如 Scikit-learn, TensorFlow, Theano 等。但是那些市场虽小却发展迅猛、给用户提供优质服务的项目呢?

受欢迎的机器学习项目,通常而言,之所以受欢迎是因为它们提供了覆盖范围广泛的服务,或者是创新性地为用户提供了独特的小众化服务。广受欢迎的项目包括 Scikit-learn, TensorFlow, Theano, MXNet , Weka 等。这些项目有很多共同性,它们都针对大量客户提供服务。

但是,还有一些小型的机器学习项目致力于构建这些产品:流水线、包装纸、高水平应用程序接口、清洁剂等。它们针对细分市场提供灵活服务,面向的消费群体更小众化。下面就是 5 个这样的项目。

  1. Deepy

Deepy 是基于 Theano 的可扩展性的深度学习框架。它为 LSTMs, Batch Normalization, Auto Encoders 等元件提供干净的、高级别的接口。 Deepy 显然旨在简洁性。它还有一个姊妹项目,也就是用 Deepy 实现深度递归专注式作家 (Deep Recurrent Attentive Writer, DRAW) 通用模型。

Deepy 到底有多简洁呢?下面是来自 Github 的一个使用 dropout 的多层模型的例子(dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了):

  1. MLxtend

MLxtend 将针对机器学习任务的各种有用工具和延伸产品集为一体。本质上,它是将有机器学习、数据科学有关的各种有用工具和参考资料收集在一起。那么为什么 Sebastian Raschka (机器学习发烧友、数据分析师、python 程序员、作者、计算生物学家、开源贡献者)要发起这样的项目呢?下面是 Sebastian 列出的几个原因:

第一,我没有找到其它任何可以使用实现这种算法的地方(例如:序列特征选择算法、多数投票表决选择器、堆叠估计、绘图决定区域等,其对应的英文术语分别是 the Sequential Feature Selection algorithms, the Majority Voting Classifier, the Stacking estimators, plotting decision regions )

第二,针对教育目的的算法工具(例如:逻辑回归、softmax 回归、多层感知机、主成分分析等);这些算法是聚焦于代码的可读性,而不是纯粹的有效性。

第三,提供方便的包装纸:Tensorflow 的softmax 回归和多层感知机,以及针对 pandas ( pandas是python环境下最有名的数据统计包)数据框的列优先标准。

这本质上是关于被普遍应用的机器学习功能的资料室。另外, Sebastian 确实喜欢写代码,而且认为如果他需要将自己存放各种不同东西的「动物园」提供给别人,他就会保持代码的整洁性,而且是比平时更整洁。许多算法工具与 Scikit-learn 的应用程序接口享有相似性,但是在未来算法工具将不必局限于此。重要的关键点在于: Sebastian 保证会有越来越多的惊喜。他捣鼓过的任何独特或新颖的算法都有机会进入 MLxtend 的包裹里。

  1. datacleaner

datacleaner 是研究者 Randal Olson 的工作。他也是伟大的 TPOT 机器学习流水线项目的负责人。 Olson 将 Data Cleaner 宣传为「能自动清理数据集并为数据分析做好准备的 Python 工具」。他宣布这不是魔法,并指出 datacleaner 能做的事情:一旦它成为 pandas 数据框可以处理的形式,它就能通过编写代码和清理数据为你节省大量时间。datacleaner 还在进步中,但是最近它已能处理常规而耗时的数据整理任务:选择性地舍弃有缺失值的数据列、用众数或中位数代替缺失值、用数量等价值编译非数字的变量等。 Randal 说,他正在寻找得力助手,尤其是在数据整理业务上很有想法的人。datacleaner 能以自动化的方式执行任务。 Randal 关注到了这样的细节,就是任何读过他的博客或 Github repos 的人都已经知道,关于这个项目的简洁的文件资料是平淡无奇的。我最近一直在使用 datacleaner ,到目前为止它还是遵守诺言的。

  1. auto-sklearn

auto-sklearn 是针对 Scikit-learn 环境的自动化机器学习。它让机器学习用户从算法选择和超多参数调校 (hyperparameter tuning) 中解脱出来。它利用了贝叶斯优化、元学习和集成建设 (ensemble construction) 的优势。如果想详细了解 auto-sklearn 背后的技术,请阅读 2015 年发表的这篇论文 (论文标题:Efficient and Robust Automated Machine Learning. 论文链接:
http://papers.nips.cc/paper/5872-efficient-and-robust-automated-machine-learning.pdf) 。

  1. Deep Mining

Deep Mining 是机器学习流水线自整定器 (pipeline auto-tuner) ,它是来自麻省理工学院人工智能实验室的 Sebastien Dubois 。这款软件能迭代且智能地测试一些超多参数设备,从而尽可能快速地找到最好的参数组合,达到流水线所能达到的最好的分类精确度。 Deep Mining 不是一个有名的项目,然而借助麻省理工学院人工智能实验室的优势,它可能成为众多类似自动化流水线工具中的标杆。

相关推荐

探索Java项目中日志系统最佳实践:从入门到精通

探索Java项目中日志系统最佳实践:从入门到精通在现代软件开发中,日志系统如同一位默默无闻却至关重要的管家,它记录了程序运行中的各种事件,为我们排查问题、监控性能和优化系统提供了宝贵的依据。在Java...

用了这么多年的java日志框架,你真的弄懂了吗?

在项目开发过程中,有一个必不可少的环节就是记录日志,相信只要是个程序员都用过,可是咱们自问下,用了这么多年的日志框架,你确定自己真弄懂了日志框架的来龙去脉嘛?下面笔者就详细聊聊java中常用日志框架的...

物理老师教你学Java语言(中篇)(物理专业学编程)

第四章物质的基本结构——类与对象...

一文搞定!Spring Boot3 定时任务操作全攻略

各位互联网大厂的后端开发小伙伴们,在使用SpringBoot3开发项目时,你是否遇到过定时任务实现的难题呢?比如任务调度时间不准确,代码报错却找不到方向,是不是特别头疼?如今,随着互联网业务规模...

你还不懂java的日志系统吗 ?(java的日志类)

一、背景在java的开发中,使用最多也绕不过去的一个话题就是日志,在程序中除了业务代码外,使用最多的就是打印日志。经常听到的这样一句话就是“打个日志调试下”,没错在日常的开发、调试过程中打印日志是常干...

谈谈枚举的新用法--java(java枚举的作用与好处)

问题的由来前段时间改游戏buff功能,干了一件愚蠢的事情,那就是把枚举和运算集合在一起,然后运行一段时间后buff就出现各种问题,我当时懵逼了!事情是这样的,做过游戏的都知道,buff,需要分类型,且...

你还不懂java的日志系统吗(javaw 日志)

一、背景在java的开发中,使用最多也绕不过去的一个话题就是日志,在程序中除了业务代码外,使用最多的就是打印日志。经常听到的这样一句话就是“打个日志调试下”,没错在日常的开发、调试过程中打印日志是常干...

Java 8之后的那些新特性(三):Java System Logger

去年12月份log4j日志框架的一个漏洞,给Java整个行业造成了非常大的影响。这个事情也顺带把log4j这个日志框架推到了争议的最前线。在Java领域,log4j可能相对比较流行。而在log4j之外...

Java开发中的日志管理:让程序“开口说话”

Java开发中的日志管理:让程序“开口说话”日志是程序员的朋友,也是程序的“嘴巴”。它能让程序在运行过程中“开口说话”,告诉我们它的状态、行为以及遇到的问题。在Java开发中,良好的日志管理不仅能帮助...

吊打面试官(十二)--Java语言中ArrayList类一文全掌握

导读...

OS X 效率启动器 Alfred 详解与使用技巧

问:为什么要在Mac上使用效率启动器类应用?答:在非特殊专业用户的环境下,(每天)用户一般可以在系统中进行上百次操作,可以是点击,也可以是拖拽,但这些只是过程,而我们的真正目的是想获得结果,也就是...

Java中 高级的异常处理(java中异常处理的两种方式)

介绍异常处理是软件开发的一个关键方面,尤其是在Java中,这种语言以其稳健性和平台独立性而闻名。正确的异常处理不仅可以防止应用程序崩溃,还有助于调试并向用户提供有意义的反馈。...

【性能调优】全方位教你定位慢SQL,方法介绍下!

1.使用数据库自带工具...

全面了解mysql锁机制(InnoDB)与问题排查

MySQL/InnoDB的加锁,一直是一个常见的话题。例如,数据库如果有高并发请求,如何保证数据完整性?产生死锁问题如何排查并解决?下面是不同锁等级的区别表级锁:开销小,加锁快;不会出现死锁;锁定粒度...

看懂这篇文章,你就懂了数据库死锁产生的场景和解决方法

一、什么是死锁加锁(Locking)是数据库在并发访问时保证数据一致性和完整性的主要机制。任何事务都需要获得相应对象上的锁才能访问数据,读取数据的事务通常只需要获得读锁(共享锁),修改数据的事务需要获...