10 Week 10: 线性回归与逻辑斯蒂回归——预测爆款
10.1 课程目标
使用 Scikit-learn 进行简单的数据预测,并从社会学角度理解算法中的“权重”和“偏差”。
10.2 核心内容
10.2.1 1. 线性回归 (Linear Regression)
试图找到一条直线,最好地拟合数据点。 - 场景:根据文章的字数、图片数,预测阅读量。 - 公式:\(y = wx + b\) - \(w\) (权重):变量的重要性。 - \(b\) (偏差):基础值。
10.2.2 2. 逻辑斯蒂回归 (Logistic Regression)
虽然名字叫“回归”,但其实是分类算法。 - 场景:预测一篇文章是“爆款”还是“普通”(0 或 1)。
10.2.3 3. 算法的社会学隐喻
- 权重 (Weights):在算法眼里,什么特征更重要?(例如:震惊体标题的权重是否过高?)
- 偏差 (Bias):模型是否存在预设的偏见?
10.3 实战:使用 Scikit-learn
我们不再手写公式,而是使用 Python 强大的机器学习库 scikit-learn。
from sklearn.linear_model import LinearRegression
import numpy as np
# 模拟数据:[文章字数]
X = np.array([[1000], [2000], [3000], [500]])
# 模拟数据:[阅读量]
y = np.array([5000, 9000, 14000, 2000])
# 创建模型
model = LinearRegression()
# 训练模型
model.fit(X, y)
# 预测一篇 2500 字文章的阅读量
print(model.predict([[2500]]))10.4 作业
收集你关注的公众号最近 10 篇文章的“在看数”和“标题长度”,尝试用线性回归模型分析二者是否存在相关性。