中云网胜 旗下CPDA数据分析师福建授权中心

张学友是“逃犯克星”?贝叶斯公式告诉你真相_厦门大数据分析培训_福州

发布作者:
发布时间:2018-10-12 15:51:46
浏览次数:77

导读:为什么张学友的每场演唱会都有逃犯落网?是“热心歌神张先生”真的有天生神力,还是有科学依据?

01

为什么张学友的每场演唱会都有逃犯落网?

先看看“学友·经典世界巡回演唱会”的“显赫战功”:

  • 4月7日南昌站首个逃犯在现场落网。
  • 5月5日赣州演唱会开场安检的过程中,警方通过人脸识别技术,成功抓获一名网上逃犯。
  • 5月20日嘉兴演唱会安检时,发现逃犯一名,随后被警方逮捕。
  • 6月9日金华演唱会,两名逃犯落网。
  • 7月6日呼和浩特,警方抓获冒雨前来观看演唱会的全国在逃人员王某某。
  • 7月8日洛阳演唱会,早在5月份就期待满满的洛阳警方成功拿下“七杀”。
  • 9月21日遂宁演唱会,第一场就抓到了10余名违法犯罪人员。
  • 9月28日石家庄演唱会,现场三名逃犯落网。
  • 9月30日咸阳警方成功抓获5名逃犯。

几乎每场演唱会都会有逃犯落网,“歌神”张学友怎样看待自己“逃犯克星”的称号呢?

连续九场,场场有逃犯被抓,真实的原因到底是什么呢?

02

先让我们跳开,来看一个影院中的贝叶斯推理。

(下面案例的英文出处:Brandon Rohrer)

你前往影院排队观影,前面有个小伙伴,长发披肩,衣着中性,如上图,请问Ta是女士的概率有多大?

情况A

我在生命、宇宙以及任何事情的终极答案中介绍过类似的计算方法。

如上图,是一种视觉化的贝叶斯计算法,在《统计学关我什么事》一书中有详细解释。

请注意上面绿色和黄色两个长方形:

  1. “面积”的概念在贝叶斯概率的计算中,起着重要的作用。
  2. 事件的可能性,由绿色和黄色两种构成。二者各自的概率,体现为长方形的宽度。例如上图中,是假设男女比例是1:1。
  3. 长方形的高度,是指“可能世界”的可能构成。例如上图,绿色长方形指女性的可能世界,进而该可能世界,是由“一半长发+一半短发”的假设比例构成。

了解了面积法,开始计算,步骤如下:

  • 第一步:首先假定影院中男女各占一半,100个人中,50个男人,50个女人。贝叶斯计算的特点,就是可以主观预测,毛估估一下。
  • 第二步:假设女人中,一半为长发,余下的25人为短发。而男人中,48位为短发,两位为长发。这同样是基于常识和主观预测的毛估估。
  • 第三步:由此可以计算,有25个长发女人和2位长发男人。
  • 第四步:所以,Ta是女士的可能性为“25/(25+2)=92.6%”。

情况B

现在让我们增加一个新的信息,你现在排队是在准备进入男士休息室。依靠这个额外的信息,仅采用常识和背景知识即可完成判断Ta更可能是男性,无需思考。

但是,贝叶斯推理则能以数学实现形式,做出更加精确的预测。

其意义在于,在某些你无法很简单靠常识和直觉来做出量化判断的时候,你就需要精确的算法了。所以让我们继续用贝叶斯来计算如下:

如上图,还是采用面积计算法我们开始推理:

  • 第一步:100个人在男士休息室外排队,我们主观猜测毛估估一下,其中98名为男士,有2位陪同的女士。如上图中的绿色长方形,因为女性极少,所以该长方形很“瘦”。
  • 第二步:假设女人中,一半为长发,一半为短发。而男人中每50人里有两位为长发。和上面的情形一样,这同样是基于常识和主观预测的毛估估。我们注意到,尽管男性长发的比例很低,但是由于人群基数较大,所以下面计算男性长发人数的(深黄色那个)长方形很“胖”,有4个之多。
  • 第三步:按照以上的假设,短发男士有94人,长发为4人。而两位女士则一个长发一个短发。即,长发人士里有4男1女。
  • 第四步:Ta是女士的可能性为20%。

这里涉及了两个个关于概率的概念:

1. 先验概率。是指根据以往经验和分析得到的概率,它往往作为"由因求果"问题中的"因"出现的概率。

例如上面长头发是男是女的案例里,开始根据常识,假设人群整体性别比例为1:1。

2. 后验概率。是指在得到“结果”的信息后重新修正的概率,是“执果寻因”问题中的"果"。

由于知道了是在男士休息室前的排队,根据此信息,将人群男女比例调整为98:2。

该过程称为“贝叶斯推理”。贝叶斯推理可以总结为:通过观察行动(信息),将先验概率通过贝叶斯更新,转换为后验概率。

贝叶斯算法之所以在人工智能时代大放异彩,是因为其具有学习功能。贝叶斯推理中,修改过的“各个类别的后验概率”,已经使用了所有的信息。也就是说我们可以将其看作“从信息中学习到的结果”。贝叶斯推理正是具备了“收集信息并自动变聪明”的功能。

03

张学友演唱会抓逃犯,和贝叶斯计算有什么关系呢?

最近几年,摄像头、人脸识别、联网技术大规模使用,是导致逃犯被抓的首因。

简单来说,每个演唱会抓到逃犯的比例应该是比较接近的。张学友的演唱会有何不同呢?

不全面分析如下:

原因1:张学友的男性歌迷较多。

从抓捕照片看,基本为男性逃犯,好像只有一位女性。

因为男性人群的基更大,所以张学友演唱会上出现逃犯的概率更大。

原因2:演唱会规模较大。

因为整体人基数越大,男性歌迷人数更多,有逃犯的可能性越大。

原因3:年龄段分布较广。

原因4:阶层分布较广。

原因5:演唱会基本都在二三四线城市。

以上原因3、4、5,可能令歌迷与逃犯的人群重合度更高。也就是说,因为年龄分布、阶层分布、城市分布的原因,即使是在同样数量的男性歌迷中,出现逃犯的概率更大。

概括而言,因为:

  • 更大的人群基数
  • 更高的男性比例
  • 更高的逃犯比例

导致了张学友演唱会上出现逃犯的数量较多。

根据以上5点信息,我们通过贝叶斯推理,会有类似上面“男士休息室”的信息更新。

有兴趣的话,可以通过“面积法”计算一下。

所以,在张学友的演唱会上,出现疑犯的“后验概率”更高。

04

悬念在于,为什么逃犯愿意铤而走险去看张学友的演唱会?

上面分析后验概率,计算的其实是张学友歌迷中包括逃犯的比例。但是这个比例再高,如果逃犯不来现场,也没用。

下面我们用决策树分析法,计算逃犯愿意冒险主动来到现场的可能性。

我没有更多别的演唱会是否有逃犯被抓的数据,简单用决策树分析如下。

在寻常情况下,逃犯决定是否去看演唱会,会进行下图思考:

所以一般演唱会,逃犯冒险去看的概率为10%。

但是,张学友不是一般人啊,他人品正,没绯闻,歌唱得荡气回肠,容易令英雄豪杰们产生共鸣。

作为灵魂型歌手,张学友令逃犯歌迷更愿意冒险。

逃犯们每天东躲西藏,日子压抑。又如《肖申克的救赎》里所言,每个罪犯都觉得自己无罪。脑海里浮现出张学友的歌曲,“有故事的人”不禁感慨万千,非理性指大幅上升。

于是,逃犯冒险去看张学友演唱会的概率为30%。

这样,逃犯出现在张学友演唱会上的主动可能性,对比一般演唱会,一下变成了三倍。

加之前面提及的较高的逃犯比例之“后验概率”,二者相乘,令逃犯出现在张学友演唱会上的量较多。

在技术手段的帮助下(该类逃犯对科技进步估计不足,也拉低了理性的比例),张学友的演唱会变成了逃犯放飞自我的舞台。

你陪了我多少年,花开花落,一路上起起跌跌。

那天晚上,亡命天涯的大哥,在最后的四大天王的歌声中,勾起了年少往事,飞蛾扑火般慷慨赴约,哪怕最终身陷牢笼。


关闭
13600977889 工作日:9:00-22:00
周 六:9:00-22:00
联系电话
13600977889