首页 > 智能网

Python数据科学:线性回归

来源:智能网
时间:2019-05-28 21:26:35
热度:1128

Python数据科学:线性回归变量分析:①相关分析:一个连续变量与一个连续变量间的关系。②双样本t检验:一个二分分类变量与一个连续变量间的关系。③方差分析:一个多分类分类变量与一个

变量分析:

①相关分析:一个连续变量与一个连续变量间的关系。

②双样本t检验:一个二分分类变量与一个连续变量间的关系。

③方差分析:一个多分类分类变量与一个连续变量间的关系。

④卡方检验:一个二分分类变量或多分类分类变量与一个二分分类变量间的关系。

本次介绍:

线性回归:多个连续变量与一个连续变量间的关系。

其中线性回归分为简单线性回归和多元线性回归。

/ 01 / 数据分析与数据挖掘

数据库:一个存储数据的工具。因为Python是内存计算,难以处理几十G的数据,所以有时数据清洗需在数据库中进行。

统计学:针对小数据的数据分析方法,比如对数据抽样、描述性分析、结果检验。

人工智能/机器学习/模式识别:神经网络算法,模仿人类神经系统运作,不仅可以通过训练数据进行学习,而且还能根据学习的结果对未知的数据进行预测。

/ 02 / 回归方程

01 简单线性回归

简单线性回归只有一个自变量与一个因变量。

含有的参数有「回归系数」「截距」「扰动项」。

其中「扰动项」又称「随机误差」,服从均值为0的正态分布。

线性回归的因变量实际值与预测值之差称为「残差」。

线性回归旨在使残差平方和最小化。

下面以书中的案例,实现一个简单线性回归。

建立收入与月均信用卡支出的预测模型。

import numpy as np

import pandas as pd

import statsmodels.api as sm

import matplotlib.pyplot as plt

from statsmodels.formula.api import ols

# 消除pandas输出省略号情况及换行情况

pd.set_option('display.max_columns', 500)

pd.set_option('display.width', 1000)

# 读取数据,skipinitialspace:忽略分隔符后的空白

df = pd.read_csv('creditcard_exp.csv', skipinitialspace=True)

print(df.head())

读取数据,数据如下。

对数据进行相关性分析。

# 获取信用卡有支出的行数据

exp = df[df['avg_exp'].notnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 获取信用卡无支出的行数据,NaN

exp_new = df[df['avg_exp'].isnull()].copy().iloc[:, 2:].drop('age2', axis=1)

# 描述性统计分析

exp.describe(include='all')

print(exp.describe(include='all'))

# 相关性分析

print(exp[['avg_exp', 'Age', 'Income', 'dist_home_val']].corr(method='pearson'))

输出结果。

发现收入(Income)和平均支出(avg_exp)相关性较大,值为0.674。

使用简单线性回归建立模型。

# 使用简单线性回归建立模型

lm_s = ols('avg_exp ~ Income', data=exp).fit()

print(lm_s.params)

# 输出模型基本信息,回归系数及检验信息,其他模型诊断信息

print(lm_s.summary())

一元线性回归系数的输出结果如下。

从上可知,回归系数值为97.73,截距值为258.05。

模型概况如下。

其中R值为0.454,P值接近于0,所以模型还是有一定参考意义的。

使用线性回归模型测试训练数据集,得出其预测值及残差。

# 生成的模型使用predict产生预测值,resid为训练数据集的残差

print(pd.Dataframe([lm_s.predict(exp), lm_s.resid], index=['predict', 'resid']).T.head())

输出结果,可与最开始读取数据时输出的结果对比一下。

使用模型测试预测数据集的结果。

# 对待预测数据集使用模型进行预测

print(lm_s.predict(exp_new)[:5])

输出结果。

   首页   下一页   上一页   尾页