2018年,世界杯小组赛已经在如火如荼的进行中。在上篇文章的基础上【2018世界杯:用Python分析热门夺冠球队】,我们继续分析世界杯32强的实力情况,以期能够更进一步分析本次世界杯的夺冠热门球队。
三十年河东三十年河西,对于世界杯而言,这个时间可能4年就足够。
前几场爆冷,使得天台上已经拥挤不堪,跳水的股市更是让天台一度混乱。
在文章开始之前,提醒大家:
赌球有风险,看球须尽兴
本文的重点是通过分析32强之间的比赛,透过历史数据来预测夺冠热门球队。
本次分析的数据来源于 Kaggle, 包含从 1872 年到今年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家之间的友谊赛等比赛,一共大约 40000 场比赛的情况。
本次的环境为
window 7 系统
python 3.6
Jupyter Notebook
pandas version 0.22.0
先来看看数据的情况:
import pandas as pd import matplotlib.pyplot as plt %matplotlib inline plt.style.use('ggplot') # 解决matplotlib显示中文问题 plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体 plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题 df = pd.read_csv('results.csv') df.head()该数据集包含的数据列的信息如下:
日期
主队名称
客队名称
主队进球数 (不含点球)
客队进球数 (不含点球)
比赛的类型
比赛所在城市
比赛所在国家
是否中立
结果如下: