作为数据科学领域的一块金字招牌,它已经成为全球最受欢迎的数据科学竞赛平台。在其上,每个竞赛题目都隐藏着来自全球各地的一大批身怀绝技的数据科学家。其采用众包模式16 17赛季nba球员数据,收取部分佣金将公司的数据挖掘问题发布在平台上,并设置高额奖金吸引数据科学家参与解决。每一位注册参赛者都可以免费获取竞赛题目和数据集,将自己的数据分析方案以报告的形式呈现在平台上供大家讨论。数据分析方案最终被公司采纳的选手将获得丰厚的奖金。
以我现在的水平,不敢贸然参加比赛,怕自己出的成绩排在最后。所以打算先拿几组题来练习,一方面锻炼自己的数据思维和分析能力,另一方面提高自己的R或者说能力。这次练习用的数据集叫NBA shot log.csv(在公众号后台回复“NBA”即可下载数据)。这个数据集包含了2014-15赛季30支NBA球队904场常规赛281名球员的近13万次投篮数据。数据包含了比赛双方、主客场、胜负、射手、防守球员、投篮距离、命中率等21个变量,可以根据分析目的自由进行数据挖掘建模。经过几天的摸索,结合之前数据高手的分析计划16 17赛季nba球员数据,我决定用两条推文展示一下对这个数据集的分析和挖掘。本文主要给大家展示数据集的探索性数据分析(EDA)和可视化。下一篇文章会将一些机器学习算法拟合到数据中,预测球员的投篮命中率。NBA shot log.csv 的界面如下:
作为一个热爱数据分析、看了十几年篮球的写手,不得不说NBA的数据真的很适合分析。经常看篮球的JR们可能都知道,休斯敦火箭队总经理莫雷迷信一套篮球数据分析理论,坚信有数据支撑的决策才是最好的决策。今年金州勇士的夺冠和火箭成功闯入西部第二轮16 17赛季nba球员数据,无疑为莫雷的理论提供了最好的事实佐证。虽然本文是探索性数据分析与可视化,但在分析之前我们无疑需要设定几个分析目标:
当今 NBA 球员的投篮选择偏好有哪些?
哪些因素与球员的投篮命中率有关?
主场和客场比赛对球员表现和球队成败有那么大的影响吗?
当今联盟的关键球员是谁?
哪些球员是优秀的防守者,哪些球员是糟糕的防守者?
接下来我们将根据以上五个目标,利用R语言对数据集进行探索性数据分析与可视化。
读入数据后,快速浏览一下数据概览:
dim() #数据量