百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

python机器学习:线性回归中的哑变量转换

csdh11 2025-02-09 11:56 8 浏览

之前其实写过一个在python中如何进行哑变量转化的文章,今天又遇到了相同的问题,为了加强学习效果,决定今天和线性回归一起再写一遍。

什么是哑变量

举一个例子,假设变量“职业”的取值分别为:农民、工人、学生、企业职员、其他,共5种选项,此时我们用1,2,3,4,5来代表这5个职业类型是解释不通的。我们可以用4个哑变量来代替“职业”这个变量,分别为D1(1=农民/0=非农民)、D2(1=工人/0=非工人)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。在这种情况下,我们称“其他”为参考组。建模分析出来结果都是相对于“其他”组而言的。

实战操作

首先导入相关库和数据,代码如下:

import pandas as pd
import seaborn as sns
from sklearn import linear_model

tips=sns.load_dataset('tips')
tips

上面的代码中,我导入了seborn自带的数据集‘tips',可以看到,我们的数据长这样:


我们现在要做的是拟合'total_bill','size','sex'对'tip'的线性回归,运行以下代码:

lr=linear_model.LinearRegression()

lr.fit(X=tips[['total_bill','size','sex']],y=tips['tip'])

发现,报错“could not convert string to float",这个就是提醒我们要把”sex"转化为数值型变量,因为其为非等级的分类变量,所以我们就得用到哑变量转化,代码如下:

pd.get_dummies(tips)

我们直接用pandas自带的.get_dummies方法就可以啦,运行代码后输出如下:


可以看到,这个方法将数据集中所有的分类变量都自动转化为了哑变量。非常方便。

通常情况下,如果某个变量有n种选择,则将其用哑变量引入模型时,要设置n-1个哑变量,以避免完全的多重共线性。如性别的选择有两种,则引入一个哑变量,是男则数值为1,否则为0,当然也可以设置为女为1,否则为0。季节的选择有4个,则引入3个哑变量,哑变量1:春为1,否则为0。哑变量2:夏为1,否则为0。哑变量3:秋为1,否则为0。

请注意,以上我们用.get_dummies的方法得到的哑变量是n个,比如“sex"本来有2种选择,我们只需要

1个哑变量足够,所以,在上图中得到的哑变量,我们得减去一个然后建模,代码如下:

pd.get_dummies(tips,drop_first=True)

可以看到,.get_dummies方法给我们提供了删掉头一个哑变量的参数drop_first,我们将其设置为True就可以了,得到结果如下:


此时,我们就可以顺利的进行线性回归的拟合了

tips_dummy=pd.get_dummies(tips,drop_first=True)

lr=linear_model.LinearRegression()
lr.fit(X=tips_dummy[['total_bill','size','sex_Female']],y=tips_dummy['tip'])

lr.coef_
lr.intercept_

结果如图

可以看到,经过哑变量转化后,模型顺利输出了sex这个变量的系数。

结论

今天还是用一个线性回归的实例给大家介绍了哑变量的实际应用,希望对大家有帮助。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

(站外链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据)

往期精彩:

python应用:如何用python提取pdf文件中的文字

python数据分析:离群值的检测和处理

python非监督机器学习入门:K均值聚类实例操练

相关推荐

当iPhone X遇上 Mate 10 Pro 怎么挑?

产品:Mate10Pro(全网通)华为手机1iPhoneX一出就遇上了对手Hello!大家好我是石头这里是zol。首先来看看我手里的这个,不是装x的意思,今天好多人欢天喜地的拿到了属于自己或者属...

谁是办公高手? 六款商务平板全推荐

1超低功耗联想Thinkpad10领衔ThinkPad的名字在笔记本上依然是高曝光率,从IBM到联想,它一直以来是商务、办公领域的不二人选,然而在平板电脑大行其道的今天,ThinkPad当然也不单...

如何仅用几行代码将微信4.0公测版转换成玲珑格式?

微信4.0(玲珑版)已上架如意玲珑应用商店!!!...

音乐研发必备:理解 MIDI 协议与标准 MIDI 文件格式

1.MIDI简介...

HEIF格式可以节约50%的空间!质量会有影响吗?

关于手机1亿像素到底有没有必要,争议肯定是存在的,但无法回避的一点是随着像素的成倍增加,一张照片十几MB成了常事,这必将给本就不太宽裕的存储容量造成压力,这种压力又会转嫁到用户身上,让他们不得不花更多...

「干货分享」30个前端知识技能提升的资源网站

今天给小伙伴们分享30个前端相关学习资源网站及一些在线小工具,希望能帮助到大家。CSS相关1、css精灵牛|在线图片CSS生成工具。...

用Facebook引流Shopify独立站,如何优化Facebook商户页面?

什么是FacebookBusinessPage?FacebookBusinessPage是官方的称号,其实你可以简单理解为facebookbusinesspage就是微信公众账户,而我们...

玩转手机摄影 nubia Z9 mini新品首测

1Z9系列新品nubiaZ9mini发布会开始之前的邀请函总能透露出很多内容,或者说我们总会特意解读出很多内容。nubia此前发出的3月26日智能手机新品发布会的邀请函很显然再一次着重强调了其产品...

影院看片怕座位不好?那买个盒子在家看

着消费者对高清播放器的需求的不断增加,高清播放器的功能也在不断得到提升。以前看电影的时候相信很多人更喜欢去电影院里观看,但是有时候去电影院的人太多买不到好位子也会让不少人感到扫兴。现在随着技术的革新,...

今天你买了么?不入后悔的8款平板推荐

随着高考大战的落幕,对于广大学生朋友们来说正真的暑假终于来了!这个假期想要外出旅行或是居家畅玩,没有一款便携式全能娱乐利器的平板电脑怎么能叫放假呢?正直京东618购物季即将到来的日子,相信你也不会错过...

Cursor使用指南:释放AI编程的无限潜能

Cursor简介...

谁说轻薄本缺乏生产力?没体验过别乱说

笔记本电脑轻薄化一直是各大厂商们不断努力的方向,不过早前的轻薄笔记本电脑会受制于技术方面的限制,无法将高能耗的CPU以及显卡塞入轻薄的机身内。为了能给这些芯片散热、供电,制造商们不得不对这些芯片的功耗...

通告ImageMagick再爆核心漏洞 站长小心

目前所有版本的GraphicsMagick和ImageMagick都支持打开文件,当文件名的第一个字符为“|”,则文件名会被传递给shell程序执行,导致(可能远程)代码执行。文件打开操作位于源代码文...

《玻璃之花与坏掉的世界》再曝新宣传片

雨文冰璃发表于昨天22:56【新闻】《玻璃之花与坏掉的世界》再曝新宣传片http://comic.qq.com/a/20151122/016784.htmPONYCANYON和A-1Pictu...

7 招教你轻松搭建以图搜图系统

作者|小龙责编|胡巍巍当您听到“以图搜图”时,是否首先想到了百度、Google等搜索引擎的以图搜图功能呢?事实上,您完全可以搭建一个属于自己的以图搜图系统:自己建立图片库;自己选择一张图片到...