数据总结之球员篇(上):过去一个赛季谁的射门最多最准?
前言:再次科普一下xg与“真实射门得分率”
球队数据总结系列已经更新了6篇。每一篇里我都会用到一个概念:“真实射门得分率”。读者们对此有疑问也不是一两次了。实际上上赛季初我就已经介绍过这个自创的算法。这是一个基于高阶数据“预期进球数(expected goals,简称xg)”基础之上的算法,其目的是量化前锋修正射门难度的能力。这里我们先科普一下什么是“预期进球数”。
其实最近两年,国内网络上对这一数据的介绍已经非常多(大多会翻译成“进球预期值”),其中不乏一些持证教练和解说给出完全错误的科普……据我所知,这个数据最早应该是由OPTA公司提出的,后来很多公司也都投身其中,这也导致目前的xg数据源非常多,好在各家公司的核心思路都差不多,只不过系数和算法存在微小差异。这里我们先介绍一下思路。首先给大家看一个opta官网上的xg数据介绍视频里截下的动图:
这个视频很多博主在科普xg数据时都会使用,它揭示出了xg数据的本质——在射门发生之前一瞬间,不考虑射门质量,只根据射门环境,量化这次射门的进球概率。换言之,你可以理解为,它量化的是“射门的难度”。
当然,上面这个视频所参考的因素非常少。但是在过去两年里,xg算法所考虑的元素是不断增加,比如微博上一些博主在每场比赛后更新的球队xg数据,用的就是荷兰足球网站between the post的数据,而根据其兄弟网站(就是同一个老板创立的专门讨论足球理论的网站)11tegen11的介绍,他们在计算xg时参考了很多元素,包括射门位置(包括距离和角度)、射门前的传球情况(是否为传中、经过了多少脚传球、是否是断球后立即发起的进攻)、持球操作情况(是否经历了过人、是否过掉了守门员、是否属于OPTA界定的“绝佳机会”)等等。此外,各家数据源所用的样本库也不同。opta是过去30万次射门,而我常用的wyscout则用的是过去5年的所有射门。这些都会对xg量化造成一定的差异,但这个差异非常小。
如果我们认清了xg的本质是“射门难度”,那么,下一个推论就产生了:我们可以利用它,来量化“球员修正射门难度的能力”。说白了,打进一个进球概率为35%的射门,肯定比打进一个进球概率为65%的射门更难。这就有了我所提出的这个“真实射门得分率”的算法,公式是(实际进球数的总和-预期进球数的总和)/射门次数*100%,其内涵是:球员(或者球队)在平均每次射门中,对进球概率的修正值。当然,当预期进球多于实际进球时,计算结果会出现负数。
举例来说,下图马夏尔的射门,xg是0.04,也就是说根据过去5年的所有射门来计算,不考虑射门质量,马夏尔在这种环境下起脚射门,进球概率为4%:
那么,马夏尔打进了,他在这次射门中所收获的“真实射门得分率”在分子方面的奖励就是0.96。这是一个了不得的数字,在这个算法下,这种世界波会给球员的真实射门得分率带来极大加成。反之,你在门前打进一球,那么收获的奖励就有可能极小,比如下图麦克戈德里克的进球,xg为0.83,他所收获的奖励就只有0.17:
当然,如果你打丢了很简单的射门,那么你在真实射门得分率算法中的损失也会极大,比如下图,贝尔纳代斯基的射门xg为0.56,他打丢了,净损失就是-0.56:
也就是说,这个算法规避了之前单纯用进球数量化球员射门能力的弊端。要知道,球员日复一日的练习射门,本就有“修正射门难度”的目的。将射门难度列入量化标准,本就是对“射术”这个概念的更深入认知。而且此举还有一个很方便的地方:传统方法考量射门时,会考虑把点球排除在外,因为点球进球概率太高。但引入xg则不用过多担心点球问题。点球的xg高达0.76,换言之,就算你打进了点球,最终收获的加成也很少,可一旦打丢,那么损失就会极大。
当然,这个算法不可能完美。首先,运气会成为很大的影响因素,比如你一脚射出去打在防守球员身上,比如门将本来稳稳扑到皮球结果黄油手,这都可能让本来很糟糕的射门转化为进球。其次,有些中后场球员一个赛季不怎么射门,突然在中圈来一脚吊射,把一个xg小于0.01的射门给打进了,那他的真实射门得分率难道要就此认定为99%?
然而上述两个问题都可以通过一个很简单的方法予以解决——大样本。运气球和高难度吊门之类的进球,原本就是小概率事件。只要我们把考察条件设定为射门数必须超过一定次数,让样本变得足够大,这些问题都可以得到很大程度的修正。
然而还有最后一个问题,却是“真实射门得分率”永远无法解决的——产量。
不难看出,这个算法计算的是“效率”,是每次射门对射门难度的修正值。但请大家牢记一点:考量任何技术环节,产量和效率都是同等重要的。因此,我们在用这个算法的同时,也一定要额外参考一下产量,比如射门次数。
所以接下来,我们要放4张圆点图,来看看英、西、意、德4大联赛(法甲比赛数量不够,样本不够大)在过去一个赛季,谁的射门最多,射的射门最准。
英超:奥巴梅杨效率封王,阿圭罗勉强最趋近产效兼顾
标准:19-20赛季英超射门次数超过40次的球员
横轴:每90分钟射门数
纵轴:真实射门得分率
圆点大小:总进球数
颜色:每次射门预期进球数(射门机会选择)
(由于我们把圆点大小设置为总进球数,因此,较小的圆点实际上多少可以忽略掉,只看较大的圆点即可)
奥巴梅杨的真实射门得分率是最高的,达到了8.40%。注意颜色,奥巴梅杨由于打了不少时间的边锋,实际上射门环境并不特别好,每次射门的xg为0.158,比起瓦尔迪低了不少。他最终能在出场时间差不多、射门次数不过稍多的情况下靠1球的微弱优势力压瓦尔迪成为英超金靴,靠的就是强大的修正射门难度的能力。直到最后一轮,奥巴梅杨还在用小角度射门为自己拉高射门准星:
(奥巴梅杨,xg0.15)
英超这赛季严格来说缺乏兼顾产效兼顾的代表,纵轴顶端的几人每90分钟射门次数都不到3次。非要说有人能在质量与产量方面都交出不错答卷,恐怕只有一个阿圭罗。只可惜阿圭罗整季出场时间只有1559分钟。而这同另一个现象关系十分密切——注意右下角用红色阴影标注出来的那个人。热苏斯以每90分钟3.6次射门的频率,打出-6.73%的“可怕”真实射门得分率,排名倒数第4,成为英超“高产低效”的代表。下图二连黑,简直是在像某位斯姓队友挑战快乐之王的宝座:
(两次射门,xg分别为0.44和0.35)
此外要注意的是用蓝色阴影圈住的马内和瓦尔迪。利物浦说是本赛季英超射门最准的球队,实际上前场只有马内的射门表现比较好,萨拉赫和菲尔米诺射门准星都不怎么样,尤其菲尔米诺的真实射门得分率低至-5.57%,几乎与热苏斯同一档。而瓦尔迪则是英超所有射门选择较好(每次射门xg较高)的球员里,唯一射门准星出众的球员。事实上英超这赛季每次射门xg超过0.20的一共9人,除瓦尔迪真实射门得分率高达6.62%之外,就只剩下一个拉卡泽特(1.04%)的真实射门得分率为正数……
西甲:梅西产效兼顾,本泽马没那么强
标准:19-20赛季西甲射门次数超过40次的球员。其他要素与前图相通。
我们之前一再给大家强调过,有梅西和苏亚雷斯在,巴萨的进攻就不会差。他们这赛季境遇不佳的核心因素是防守而非进攻。事实上这一现象已经持续了很多年,结果巴托梅乌每年夏天在前场砸一个多亿,委实不知道他在想什么(近期看了一个报道说,巴萨高层对数据非常不重视,似乎得到了一些答案……)。
整季打下来,苏亚雷斯依旧是射门最准的西甲球员之一。像下图这种射门,捞足数据的同时其实也在帮助球队化腐朽为神奇,把不是机会的机会转化成了进球。
(苏亚雷斯,xg0.08)