大数据育儿，玄学还是真理？

杰哥编辑 2021年12月01日大数据 2002 0

在传统的家庭教育中，“育儿”这个词并不常见。过去的父母觉得只要把孩子“拉扯”长大就算完成使命了，至于孩子会成为什么样的人，是否成才，只能看运气。

而现代社会中，“育儿”越来越被家庭重视，从婴儿时期到青春期，家长几乎都会通过各种媒介了解育儿方法。

常常有这样一种说法：“老大照书养，老二照猪养”。许多父母在寻求育儿方式的途中遇到不少困惑，很多时候“照书养”可能根本达不到预想的效果，于是便试图放弃。

书本中的知识全是“鸡汤”吗?书中所提供的通过大数据得出的结论真的无效吗?未必，但很多家长并不愿意选择相信。

比如有一种病叫多动症，全称注意力缺陷及多动障碍(ADHD)，已有许多研究证实，服用药物会明显改善症状并有利于孩子的心理健康 [注：ADHD儿童长期的行为问题会让其遭受更多来自同学和老师的反感]。

然而，仍有许多家长担心药物会影响神经发育而讳疾忌医选择不吃药。事实上，关于药物的副作用早有研究，已经在药物的服用说明书上注明：绝大多数副作用是胃肠道反应，会产生恶心，呕吐，反酸等;至于影响神经发育之类的臆想，并没有足够的数据支持。

很多人会认为每个孩子都有特殊性，不相信某些数据验证过的结论。更多的人则偏向于相信老一辈传承的经验和谣言，不愿意去面对科学。

这属于一种经验主义错误，人们更相信自己的感官得到的结果，而不是数据得到的结果。

这种现象在球评届很常见，大多数球迷都会根据自己对一名球员的第一感觉来评价一名球员，而不是这名球员的具体比赛数据。

球迷通常不太可能观看所有的比赛场次，所以他们对球员的评价通常是基于正好看到某些球员的高光时刻。出现高光时刻与运气、手感等因素有着很大的关系，并不代表球员的真实水平。相比而言，数据更能代表一名球员的平均水平，能更好地衡量一名球员对比赛的贡献度。

另外，球迷们更喜欢从精神上的因素而不是事实去找原因。比如他们通常会批评一名球员：球风偏软、缺乏领袖气质、依赖战术……即使这名球员各项数据表现突出，球迷仍然认为他是数据刷子，数据并不能体现一名球员的真实水平，等等。

然而统计数据其实已经包含了这名球员“球风偏软”等负面因素带来的影响，如果一名球员在大样本下能长期维持体面数据，我们有理由相信他的实力是经得起时间考验的。

这种现象与老一辈的经验育儿有很大相似性。大数据育儿到底可不可行?局限性体现在哪儿?可能是很多家长好奇的话题。

数据的有效性

1990年之前，几乎所有的葡萄酒收藏家都没有把收藏价格和天气等因素联系在一起。

在当时想要知道一款葡萄酒的价格，你需要去询问专业的葡萄酒品鉴师，有些专业的杂志期刊如《葡萄酒先锋》、《葡萄酒观察者》刊登着各类名流品鉴师的观点和股价。

阿森费尔特是一位数据分析师，同时也非常热爱葡萄酒。他通过分析历史数据，找到了天气与价格之间的关系。并得到了一个天气和价格关系的回归方程，该方程可以粗略的简化为：

葡萄酒价格=12.145+0.00117×冬季降水量+0.0614×生长季平均气温-0.00386×收获季节降水量

阿森费尔特的观点在当时被世界各地的葡萄酒评论家嘲笑，他们更相信自己舌头而不是可笑的数字。

然而在连续预测中1989年与1990年的葡萄酒品质非凡之后，人们对阿森费尔特彻底有了改观。现在葡萄酒的品质和天气、降雨量的强相关已经成了一个常识，数据预测的有效性也得到了大多数人的认可。

同样，大数据的调查也是可以为育儿提供指导建议的。美国等西方国家在上世纪进行了许多纵向研究，即跟踪一个人十几年甚至几十年，分析他的家庭环境等成长因素，看这些因素如何影响孩子长大后的成就。

曾有一项大数据纵向研究调查了父母的哪些因素会影响孩子的学习成绩，其中，和学习成绩高度相关的8个因素是：

父母学历

父母社会地位

母亲第一胎年龄是否≥30

出生体重

父母在家说英语(相当于普通话)

是否被收养

父母是家长联谊会成员

家中藏书多

而与学习成绩无关的8个因素是：

家庭完整

最近搬入条件较好的小区

上幼儿园前妈妈全职带娃

参加过启智计划(类似早期启蒙教育)

父母定期带去博物馆

经常被打

经常看电视(相当于接触电子产品)

听父母读儿童书

可以看到，与孩子成绩相关的因素中，大部分都是父母或孩子固有的特征。

其中第3条“母亲第一胎年龄是否≥30”，可能是因为受教育程度较高的母亲倾向于晚婚晚育，而他们也拥有更多的资源与能力抚养孩子成长。

还有因素6，可能是因为抛弃孩子的亲生父母往往条件一般，而养父母的条件会比较好，他们将会把更多的资源用在抚养孩子上。

因素8，藏书多的家庭，孩子学习成绩好，它们之间只有相关，并没有因果。家庭藏书是家长自身素质(对应学习时间)的一种体现和外显。那些字面意义上的暴发户，拉一筐书堆在家里是没有用的。

而与学习成绩无关的因素中，则大多是父母后天的努力。因此，现如今许多家庭所焦虑的一些因素，比如学习更多兴趣班，去更多地方游玩长见识，尽早进行启蒙教育等，它们并不一定会影响到学习。

这样的大数据研究或许为育儿提供了一些方向，与其一股脑儿地紧跟潮流，让孩子提早学，尽可能多地学，倒不如把这些时间花在提升自身素质，构建良好的家庭学习氛围中。

数据的有限性

数据的预测确实存在一定的局限性，如球迷所说的数据刷子问题。但这并不是数据本身出现的问题，而是我们对数据的解读出现的问题。

举个例子，一名真正数据刷子的数据模式经常是基础数据(得分、助攻)好看，但是效率却惨不忍睹。因为他们的基础数据是依靠低效、高频的方式刷出来的。

从某种意义上说，没有经过分析的原始数据(基础数据)确实不能说明太大问题。然而这并不是说明数据失效了，而是说明我们对数据的解读还不够，或者忽略了某个重要的因素。

数据分析师也尝试去弥补基础数据失效这一问题，设计了一些更有效的参照指标，如真实命中率(TS%)和回合使用率(USG%)这两项高阶数据，一个代表了球员的效率，另一个代表了产量，综合考虑就能准确衡量一个球员为球队胜利贡献了多少。

在家庭教育中，我们往往觉得批评比表扬有效。但实际上并不一定如此。统计学中有种现象叫回归效应，即极低或极高的分数最终都会倾向于平均值。当我们批评一个孩子时，他可能已经表现非常不好了，即处于极低分数的状态，自然他会开始慢慢变好。而当我们表扬一个孩子时，他可能做得比平时出色，同样随着时间推移也更可能回归一般的状态。

普通人也能用的数据分析

看了这么多统计学专业术语，似乎数据育儿的方式只局限于高端精英，因为只有他们可以掌握一手基础数据，并会使用matlab、python等编程语言进行分析。

而我们普通人没接触过这一领域，即使知道了数据能指导育儿，似乎也无从下手。

事实并非如此。已经有许多研究证实，简单的数据统计预测效果可能与复杂的分析并没有显著差异。

比如，虽然我们可以用真实命中率(TS%)和回合使用率(USG%)这两项高阶数据综合评价一名球员的水平。但是有一个更简单的统计方法也能达到同样的效果。

这个统计方法叫做正负值，即简单地统计上场时间内，球队整体比分的输赢情况。比如一名球员在他上场的时间内球队是净胜10分，那他的正负值就是+10。虽然正负值这一数据也不够客观完美，但只要统计的场次足够多，这些系统误差很容易被排除，正负值这一简单的统计方法足以了解一名球员的真实水平。