原文链接:?p=22805 原文出处:拓端数据部落公众号 为什么需要虚拟变量?
大多数数据都可以用数字来衡量,如身高和体重。然而,诸如性别、季节、地点等变量则不能用数字来衡量。相反,我们使用虚拟变量来衡量它们。
例子:性别让我们假设x对y的影响在男性和女性中是不同的。
对于男性y=10+5x+ey=10+5x+e
对于女性y=5+x+ey=5+x+e。
其中e是随机效应,平均值为零。因此,在y和x的真实关系中,性别既影响截距又影响斜率。
首先,让我们生成我们需要的数据。
原文链接:?p=22805 原文出处:拓端数据部落公众号 为什么需要虚拟变量?
大多数数据都可以用数字来衡量,如身高和体重。然而,诸如性别、季节、地点等变量则不能用数字来衡量。相反,我们使用虚拟变量来衡量它们。
例子:性别让我们假设x对y的影响在男性和女性中是不同的。
对于男性y=10+5x+ey=10+5x+e
对于女性y=5+x+ey=5+x+e。
其中e是随机效应,平均值为零。因此,在y和x的真实关系中,性别既影响截距又影响斜率。
首先,让我们生成我们需要的数据。
内容版权声明:除非注明,否则皆为本站原创文章。