用Excel也能玩转机器学习回归分析

很多人觉得机器学习高深莫测,非得写代码、搭模型、跑服务器。其实,日常工作中用Excel处理数据时,已经能悄悄用上机器学习里的回归分析了。

从工资预测说起

比如你想知道一个员工的工资和工作经验、学历、岗位之间有没有关系。手头有一张表格,列了100个人的工龄和月薪。这时候别急着翻Python教程,在Excel里画个散点图,再加个趋势线,其实就已经在做线性回归了。

右键点击图表中的数据点,选择“添加趋势线”,勾选“显示公式”和“显示R²”。你会看到一条直线和类似 y = 850x + 4200 的公式。这个y就是预测工资,x是工龄。每多干一年,平均涨850块,起点工资约4200。这不就是最简单的机器学习回归?

多变量也能搞

现实情况更复杂,工资不只看工龄。这时候可以用Excel的数据分析工具包。先打开它:文件 → 选项 → 加载项 → 勾选“分析工具库”。

有了这个工具,就能做多元回归。假设表格里还有学历(本科=1,硕士=2)和岗位级别(1-5级),把它们都选进去当自变量。运行回归后,会得到每个因素的系数。比如工龄系数720,学历系数1500,说明学历带来的涨幅比多干两年还明显。

回归统计
R Square: 0.83
标准误差: 962.1
观测值: 100

系数
截距: 3860.2
工龄: 720.3
学历: 1510.5
岗位等级: 680.7

新来一个3年经验的硕士,岗位3级,代入公式:3860 + 720×3 + 1510×2 + 680×3 = 约11,280元。这就是回归模型给出的合理薪资建议。

小心这些坑

不是所有数据都适合线性回归。如果工资和工龄的关系是“前五年猛涨,后面平缓”,就得考虑对数变换,把工龄取对数再回归。Excel里直接用LN()函数就行。

另外,别迷信R²。看着0.8挺高,但如果样本里混了程序员和行政岗,一起算可能误导。最好按岗位分组回归,或者加个“是否技术岗”的虚拟变量。

机器学习回归分析听起来玄乎,落地到表格里,其实就是找规律、建公式、做预测。下次填表时,不妨多瞄一眼数据背后的关系,说不定你的下一次升职加薪,就藏在那条趋势线里。