「数据会说谎」的真实例子有哪些？究竟是数据在说谎，还是逻辑在说谎？

jeffrey919 · 发表于 2012-11-5 17:56

统计表明过生日越多的人活的越久，所以大家要多过生日

likajobs · 发表于 2012-11-18 20:58

百度DOTA吧平均水平三分钟辉耀。

xiaohuoban · 发表于 2012-11-19 12:01

巴蒂尔的作用远不能用数据说明

nokingl · 发表于 2013-8-20 17:05

美军曾根据战机被击中的位置来统计战机需要额外加固的位置，但事实是有差的，被击中的战机飞了回来，而那些没有飞回来的战机被击中的位置才是真正需要加固的~

junejjj · 发表于 2013-8-20 18:00

这样例子很多。
数据喝酒的人得肺癌几率会比较高。结论喝酒会得肺癌。
其实是喝酒人群中许多人爱抽烟。
最近看到一个。每天喝4杯soda的五岁小孩比同龄孩子暴力倾向大两倍。结论当然不是soda让人更暴力。我的观点是良好的家庭会更注重孩子饮食，远离垃圾食品，同时也会让小孩少一些暴力倾向。
在数据采集合理，正确的情况下。要判断结论是否正确很难。一个事件有多个因素造成，第一级因素又与第二级因素相关。上述例子很荒谬所以能让人知道是错误的，那其他看似不荒谬的呢。所以，个人认为正确的做法
避免草率做结论
统计更多维度的数据。
可以做多参数的相关分析。
啊我是统计外行，什么都不懂的。

121174395 · 发表于 2014-1-18 16:18

勒布朗的命中率

okayjie · 发表于 2014-1-18 18:27

数据从不说谎，只有人智商不够用罢了。

“我爷爷过了82次生日，活到82” —— 所以——“过生日有益于长寿”

所有说数据会说谎的，都跟上面的例子是一个样

yxinming · 发表于 2014-2-9 16:37

看到这个题目头脑里闪过一本书的名字《统计陷阱》（how to lie with statistics）。
下面是本书的序言。
在动手写这篇序的时候，我正巧看到了一则有趣的报道，标题为“生子不是福”。报道摘录如下：“芬兰图尔库大学的萨姆利·赫利在最近一期的《科学》杂志上发表文章指出，根据他与同事对1640年到1870年问375名妇女教堂记录的分析结果，在前工业化时代．生育儿子会显著缩短妇女寿命，而生育女儿则会对妇女的长寿起积极作用。为了保证分析结果的准确性和确定生男生女的长期效果，研究人员把考察对象限定于年过五旬的妇女。结果表明，生育子女的数目不会影响妇女寿命，但每生一个儿子，却会平均将其缩短34周。”如果你是一名士性，而且又尚未做母亲，读完这则报道之后，你会有怎样的想法呢?也许你的第一反应会同标题一样——生个女儿该有多好，毕竟34周(将近1年)的生命是十分珍贵的。但是，报道的内容是否值得信赖?支撑该报道的分析方法又是否恰当呢。在信息爆炸的年代，我们将随时随地成为信息的接收者，散布在报纸、杂志、电视、广播中的信息．良莠并存、真伪同在，我们该如何“借来一双慧眼”，看个清楚明白呢? 20世纪50年代，美国的各大媒体和宣传机构越来越重视利用统计——“这个神秘的语言” -说话，然而大量的统计数据、统计资料由于主、客观的原因被滥用，很难起到描述事实、传递信息的作用。相反，还往往对读者形成误导。选莱尔·哈夫(Darrell Huff)，一位具有深厚统计背景的新闻记者——发现了这一现象。他在广泛调查的基础上，从报刊、杂志、书籍中，从美国统计学会一些统计学家提供的实例中，收集了大量案例，并在1954年写下了“How to Lie with Statistics”一书。该书一经出版，便畅销美国，成为美国20世纪50年代的畅销书之一。并受到了当时美国各种书评杂志的好评。《管理评论》认为：“哈夫先生用如此生动的、充满人情味的方式来论述统计这个干巴巴的课题，真是一讯灵丹妙药。……我们太需要这本书了，它虽然娱乐性强、浅显易读，却十分具有说服力。”《图书期刊》如此评价：“作者和制图者倾注了全力，给大家提供了一本十分轻松活泼的读物和卡通画。它们能给你带来娱乐，又能引发思考，而且还揭穿了许多统计方法的谎言。”《大西洋》评价道：“这是一本具有善意破坏性的书，读完它后，你对于‘万能统计’的信任将大大降低。”正是由于这本书融娱乐性和知识性为一体，使它成为一本具有影响力的著作。该书出版至今，多次重印并被译成多国文字。这本经典著作自其出版至今已将近50年，书中所体现的思想和方法仍然广为称道。事实上，目前在美国几乎所有知名的网上书店，仍然可以购买到此书，并一直受到读者的好评。而且，由于该书的畅销，使得“编造虚假信息”这一命题受到了人们持续普遍的关注，如果上网查询，输入关键字“HOW to Lie with Statistics”，我们将发现：相匹配的查询结果不是几条、几十条，而是数千条。本书具有独具匠心的行文结构。从第1章到第9章，作者想像自己是一个技艺高超的惯骗，正在向后起之秀面授各种行骗的技巧。协助行骗的工具有很多，包括：有偏的样本、刻意挑选的平均数、遗漏某些重要的数据、样本的误差、统计图、平面图、不匹配的资料、混淆相关关系与因果关系以及不正确地使用资料。对每一种工具的功能和使用场合，他都一一做了详细的介绍。第10章是一个总结性的章节，在此章中，作者摈弃了前9章使用的描述手法，直接正面地阐述了“对统计资料”应该“提出的五个问题”：(1)“谁说的?”(2)“如何知道的?”(3)“是否遗漏了什么?”(4)“是否偷换了概念?”以及(5)“资料是否有意义?”通过寻找这5个问题的答案，读者能初步判断资料是否真实可信。原著的标题为“How to Lie with Statistics”，有多种译法。可直译为《如何利用统计撒谎》，这样基本体现了本文前9章的行文风格，但考虑到作者的目的是识破谎言，最终将译名定为《统计陷阱》。本书具有引人入胜的行文风格。作者文笔幽默、活泼，书中的案例充实，插图生动，十分吸引人，实在很难将它与枯燥、刻板的统计书籍联系起来。在序言中，作者将伪装统计资料的人比喻成一个在昏暗的灯光下没日没夜工作的“白衣侠客”，将本书描述成“一本如何利用统计行骗的入门读物”，类似手法的描述散布于书中，十分形象。虽然书中也出现了一些统计术语和统计方法，但在作者重说明、轻证明的描述下，即使你从来没有接触过统计，也能很好地掌握其中的思想。本书实用性强、适用面很广。虽然书中大部分案例发生在美国，但随着我国市场经济体制的逐步确立，在日常的经济生活中我们将接触到越来越多的统计数据和资料，例如各种证券信息、投资可行性研究报告、公司财务报告等。这些资料、数据，也需要有去粗取精、去伪存真的过程。我们又该如何进行鉴别?同样的问题已经摆在7我们面前。在对各类统计数据进行利用的过程中，证券市场最具代表性。由于利益的驱动，总会有“大胆”的公司为了抬高股价或圈钱而操纵财务报表。投资者如果报据虚假的财务数据进行投资，极可能使投资付之流水。为了对众多数据准确地辨别其真伪，了解、掌握公司的操纵造假手段是必要的。资产重蛆、资产评估、关联交易等都能够成为利润虚增的手段，而其中每一种手段还可以包括多种形式。以关联方交易为倒，既可以销售给控股股东和非控股子公司，也可以是不同控股程度子公司之间的销售，还可以是上市，公司溢价采购控股子公司的产品厦劳务形成固定资产。美国安然公司(Enron corp.．)就是一个很好的例子。在当前安然案正在调查之际，要讲清安然崩溃的玄机几乎是不可能的。安然是金融创新的巨擘，它所发明的一系列金融创新工具及衍生产品极其复杂；而同时安然也是操纵财务报表的大师，它有意识地隐瞒了大量的重要信息及高度复杂的关联交易，安然公司的财务报表多年以来在华尔街上其实无人能够真正理解，而且几乎无人敢于挑战。从这个角度来看，安然无疑是数据陷阱大师。众所周知，中国证券市场上类似的例子也层出不穷，其高明程度虽然远逊于安然，但是这种“统计陷阱”也迷惑了众多的投资者。随着我国加入WTO，加入到世界经济一体化的进程中，国与国之间的经济比较也变得越来越重要。在比较过程中，对比较指标的选择会产生十分微妙的差异。下面是摘自2002年3月20日《财经》杂志中题为“GDP高增长的背后”一文的一些数据。中国内地、台湾，以及韩国、美国和日本5个地区或国家1994年到2000年营业盈余的复合增长率分别为：9.8％、9.5％、7.7％、5.2％和-1.4％，比较这些数值发现：中国内地具有最快的增长率，其余依次降低，且日本最低，为负增长。然而，如果我们把指标换成反映经济回报率的指标时却会得到另外一番景象。同样这5个地区或国家，营业盈余占GDP的比例依次为：20．6％、31．8％、30．2％、23．3％和20.1％，营业盈余占社会固定资产净值的比例依次为：13.5％、21.1％、15.4％、15.6％和8.0％。比较这样两组指标值，我们不难发现中国内地的经济回报率水平偏低，在这些地区或国家中大约位于倒数第二名。综合这三组数据能较好地体现中国内地近几年的经济发展状况：虽然经济增长速度较快，但是经济效率却仍处于较低水平，这篇文章的作者客观地反映了真实情况。但如果作者有自己的打算和想法，那么这两组指标将起到完全相反的作用一第一组指标能振奋人心，而第二组和第三组指标却让人情绪低落。在比较过程中，选择的指标是否具有可比性也是一个值得玩味的问题。同样是失业率，我们会很惊奇地发现，中国的失业率远远低于美国和欧盟一些主要的国家，几乎可以认为处于自然失业率水平上。这是否意味着我国真的不存在失业问题呢?对此，常识就会给出一个否定的答案，因为我们能够强烈地感受到下岗所带来的影响。我国失业率低仅仅是因为采用了不同的统计口径和统计计算方法。 “五·一”、“十·一”等假日创造的无限商机已经引起旅游公司、运输部门及住宿餐饮等部门的高度重视。如何对假日经济加以正确引导和规范成为越来越多人们感兴趣的课题。为了获得全国消费者旅游习惯的第一手资料，某公司曾展开一个抽样调查，根据已有资料：旅游总收入中来自农村消费者的收入仅占20％以下，比例较低。该公司为简化调查，剔除比例较低的农村消费者，而将调查对象定为25个城市的6400个居民。暂且不看调查结果，仅从调查方式中，我们便可肯定地得到结论：该调查结果不足以说明全国消费者的旅游习惯。虽然来自农村消费者的旅游收入只占总收入的较小比例，但由于经济水平的差异，城市消费者与农村消费者的消费偏好总是存在较大的区别。因此，用仅包含城市消费者的样本去说明既包括城市消费者又包括农村消费者的“全国”消费者旅游习惯，明显是不合理的。上面只是经济中的几个例子，生活中我们还可以接触到各种各样的谎言，每个人都需要对各种信息进行识别，因此．掌握书中的工具是防止受骗的可行方法。培根曾经说过：“如果一个人以种种肯定的立论开始，他必将终止于各种怀疑；但如果他愿意抱着怀疑的态度开始，那么他必将获得肯定的结论。”我想对数据资料的判断和接收也是如此。本书翻译过程中，得到了上海财经大学统计学系刘汉良教授的大力支持和帮助，他在百忙之中仍多次抽空帮助校对译稿。上海财经大学统计学系主任徐国祥教授对本书的翻译、出版也给予了热情关心和帮助。上海财经大学出版社黄磊先生对本书提出了许多建设性的建议，在此一并致以诚挚的谢意。翻译是一门遗憾的艺术。由于译者文字功底和理论水平有限，原著中的精彩程度难免打了折扣，译作中也难免存在错误和不足，敬请专家、读者批评指正。在整个翻译过程中，译者经常会为原著中精妙的思想和流畅的语言而惊喜，虽然未必能将其原汁原味地呈现给大家，但开卷有益，希望读者能与我一起分享这份喜悦! 译者2002年7月于上海财经大学
显示全部

jetlu1024 · 发表于 2014-2-11 16:45

数字不会说谎，统计学家会

xiaomeng135 · 发表于 2014-3-4 18:53

上级要求调查内部员工的状态、需求等，形式主义！
调查问卷几百个题，然后匿名。
大家为了尽快完成上级交给的任务，题目也没看，或者飘了一眼，就随便选了～～～