之前其实写过一个在python中如何进行哑变量转化的文章，今天又遇到了相同的问题，为了加强学习效果，决定今天和线性回归一起再写一遍。

什么是哑变量

举一个例子，假设变量“职业”的取值分别为：农民、工人、学生、企业职员、其他，共5种选项，此时我们用1，2，3，4，5来代表这5个职业类型是解释不通的。我们可以用4个哑变量来代替“职业”这个变量，分别为D1（1=农民/0=非农民）、D2(1=工人/0=非工人)、D3（1=学生/0=非学生）、D4(1=企业职员/0=非企业职员)，最后一个选项“其他”的信息已经包含在这4个变量中了，所以不需要再增加一个D5（1=其他/0=非其他）了。在这种情况下，我们称“其他”为参考组。建模分析出来结果都是相对于“其他”组而言的。

实战操作

首先导入相关库和数据，代码如下：

import pandas as pd
import seaborn as sns
from sklearn import linear_model

tips=sns.load_dataset('tips')
tips

上面的代码中，我导入了seborn自带的数据集‘tips'，可以看到，我们的数据长这样：

我们现在要做的是拟合'total_bill'，'size'，'sex'对'tip'的线性回归，运行以下代码：

lr=linear_model.LinearRegression()

lr.fit(X=tips[['total_bill','size','sex']],y=tips['tip'])

发现，报错“could not convert string to float"，这个就是提醒我们要把”sex"转化为数值型变量，因为其为非等级的分类变量，所以我们就得用到哑变量转化，代码如下：

pd.get_dummies(tips)

我们直接用pandas自带的.get_dummies方法就可以啦，运行代码后输出如下：

可以看到，这个方法将数据集中所有的分类变量都自动转化为了哑变量。非常方便。

通常情况下，如果某个变量有n种选择，则将其用哑变量引入模型时，要设置n-1个哑变量，以避免完全的多重共线性。如性别的选择有两种，则引入一个哑变量，是男则数值为1，否则为0，当然也可以设置为女为1，否则为0。季节的选择有4个，则引入3个哑变量，哑变量1：春为1，否则为0。哑变量2：夏为1，否则为0。哑变量3：秋为1，否则为0。

请注意，以上我们用.get_dummies的方法得到的哑变量是n个，比如“sex"本来有2种选择，我们只需要

1个哑变量足够，所以，在上图中得到的哑变量，我们得减去一个然后建模，代码如下：

pd.get_dummies(tips,drop_first=True)

可以看到，.get_dummies方法给我们提供了删掉头一个哑变量的参数drop_first，我们将其设置为True就可以了，得到结果如下：

此时，我们就可以顺利的进行线性回归的拟合了

tips_dummy=pd.get_dummies(tips,drop_first=True)

lr=linear_model.LinearRegression()
lr.fit(X=tips_dummy[['total_bill','size','sex_Female']],y=tips_dummy['tip'])

lr.coef_
lr.intercept_

结果如图

可以看到，经过哑变量转化后，模型顺利输出了sex这个变量的系数。

结论

今天还是用一个线性回归的实例给大家介绍了哑变量的实际应用，希望对大家有帮助。感谢大家耐心看完。发表这些东西的主要目的就是督促自己，希望大家关注评论指出不足，一起进步。内容我都会写的很细，用到的数据集也会在原文中给出链接，你只要按照文章中的代码自己也可以做出一样的结果，一个目的就是零基础也能懂，因为自己就是什么基础没有从零学Python的，加油。

（站外链接发不了，请关注后私信回复“数据链接”获取本头条号所有使用数据）

往期精彩：

python应用：如何用python提取pdf文件中的文字

python数据分析：离群值的检测和处理

python非监督机器学习入门：K均值聚类实例操练

python机器学习:线性回归中的哑变量转换

什么是哑变量

实战操作

结论

相关推荐

java:Cassandra入门与实战——下

广联达终于出免费造价软件了，这五款真好用，准确率高达100%

开源库libmodbus的用法

Tekla 2023钢结构设计软件安装教程附下载方法

配置GitLab流水线和门禁系统

推荐五个优秀的富文本编辑器富文本编辑器app

MySql中json类型数据的查询以及在MyBatis-Plus中的使用

立即下载Galaxy Z Flip 6和Fold 6的壁纸 - SamMobile

BIOS/UEFI模式下如何分区 uefi分区教程

亿图图示免费VIP会员兑换码激活码礼品券

python机器学习:线性回归中的哑变量转换

什么是哑变量

实战操作

结论

相关推荐

java:Cassandra入门与实战——下

广联达终于出免费造价软件了，这五款真好用，准确率高达100%

开源库libmodbus的用法

Tekla 2023钢结构设计软件安装教程附下载方法

配置GitLab流水线和门禁系统

推荐五个优秀的富文本编辑器 富文本编辑器app

MySql中json类型数据的查询以及在MyBatis-Plus中的使用

立即下载Galaxy Z Flip 6和Fold 6的壁纸 - SamMobile

BIOS/UEFI模式下如何分区 uefi分区教程

亿图图示 免费VIP会员兑换码激活码礼品券

推荐五个优秀的富文本编辑器富文本编辑器app

亿图图示免费VIP会员兑换码激活码礼品券