好的，按页码为你做逐页全文翻译（保留段落与小标题；页眉“BIG DATA / MORE / MESSY”等不再重复）。以下对应你提供的图片顺序与页码：19–37 页。

第19页

2 MORE

大数据的核心，是看见并理解信息内部以及信息之间的关系——而这些关系，直到不久之前我们都还难以真正把握。IBM 的大数据专家 Jeff Jonas 说，你需要让数据“对你说话”。从某个层面听上去这似乎很琐碎。很久以来，人类一直借助数据来认识世界：要么是日常无数观察的非正式意义上，要么主要是在过去两三个世纪里，以可量化单位并可由强力算法操弄的正式意义上。

数字时代或许让处理数据更容易更迅速，能在一瞬间计算出数以百万计的数字。但当我们谈“会说话”的数据时，我们指的是更进一步、也很不一样的东西。正如第一章所说，大数据意味着三种相互关联、彼此强化的思维转变。第一，是能够就某个主题分析海量数据，而不是被迫满足于小样本。第二，是愿意拥抱数据的“脏乱”（真实世界的杂质与不精确），而不是把“精确无误”置于一切之上。第三，是对相关关系的重视日益增加，而非执着追寻难以捉摸的因果。本章将讨论第一种转变：用“全部可得的数据”而不是只取其中一小部分。

准确处理成堆的大量数据的挑战，已经伴随我们很久。历史上大多数时候，我们只能使用很少的数据，因为我们在收集、组织、存储与分析数据方面的工具都很差……

第20页

……因此我们把用到的信息尽量缩到最小，这样更易检查。这其实是一种无意识的“自我节制”：我们把与数据打交道的困难，当成不幸的现实，而不是看清它的本质——那是当时技术所施加的人为约束。如今，技术环境已发生一百七十九度的转变。我们仍然、而且可能总会在某些方面受制于可管理的数据量上限，但这种限制相比过去要小得多，而且会随时间越来越小。

从某种意义说，我们还没有完全体会到如今能收集与使用更大数据池的自由。我们设计机构的经验，大多是建立在“信息供应有限”的前提上。我们计算过自己只能收集到一点点信息，于是通常也就只收集一点点；这成了自我实现的预言。我们甚至发展出复杂的技巧来尽量少用数据。毕竟，统计学的一个目标，就是用最小的数据量去确认最丰富的发现。结果，我们把这些做法法典化进了常规、流程与激励结构之中，从而扼杀了我们所使用的信息数量。若要理解“转向大数据”意味着什么，故事得从回望历史说起。

直到最近，私营企业——如今甚至个人——才有能力在大规模上收集并整理信息；在过去，这项任务属于强大的组织，比如教会与国家（在许多社会里两者其实是一回事）。最早的计数记录可追溯到公元前约 5000 年：苏美尔商人用小黏土珠来表示交易货物。但大规模的计数，则一直是国家的职分。几千年来，各国政府都试图通过收集信息来掌握其人民的状况。

想想人口普查。传说古埃及与中国都曾进行过普查。《旧约》提过它；而《新约》告诉我们，奥古斯都下令普查天下（路加福音 2:1），约瑟与马利亚因此前往伯利恒，耶稣在那里诞生。英格兰 1086 年的《末日审判书》（Domesday Book），是英国最受尊崇的典籍之一……

第21页

……在当时，它对英格兰人口、土地与财产做出了前所未有的全面清点。皇家专员分赴乡间，把信息汇编进这本书里——后来这本书被称为“Domesday”（“末日审判”），因为这一过程让人联想到《圣经》中的最后审判：所有人的生命册被摊开。

人口普查既昂贵又耗时。下令编纂《末日审判书》的威廉一世，甚至没有活到它完成的那一天。可若不承担这份负担，唯一的替代就是放弃收集信息。而即便投入了如此多的时间与金钱，所得信息也只是近似，因为普查员不可能把每个人都完美统计。事实上，“census（普查）”一词就来自拉丁语 censere，意为“估计”。

三百多年前，一位英国帽商约翰·格朗特（John Graunt）提出了一个新点子。他想知道伦敦在瘟疫时期的人口。他没有去数每一个人，而是设计了一种方法——今天我们称之为**“统计”——使他能够推断人口规模。他的方法很粗糙，但奠定了这样一个观念：可以从小样本外推出对总体的有用认识。关键在于如何外推**。格朗特的办法，是把样本放大。

这种方法当时备受称赞，尽管我们后来发现，他的数字之所以看起来合理多半是运气。几代人以来，抽样缺陷严重。因此，对于普查以及类似“大数据型”的工程，蛮力式的“数到每一个人”长期占上风。

由于普查过于复杂、昂贵、耗时，它们很少进行。古罗马人口动辄数十万，每五年才普查一次。美国宪法规定每十年一次普查；随着国家人口激增，到 19 世纪晚期这也变得棘手，数据增长速度超过了统计局的处理能力。

1880 年的人口普查竟花了八年才完成。信息在出炉前就已经过时了。更糟的是……

第22页

……官员估计，1890 年的普查若仍按旧法，需要整整十年才能制表——荒唐之极，更别提它还关系到税赋分配与国会席位划分（都依据人口）。因此，要得到的必须不仅是准确的计数，还是及时的计数。

美国人口普查局遭遇的问题，与新千年之初许多科学家与商界人士面临的情形相似：收集到的信息淹没了既有的处理工具，新技术势在必行。19 世纪 80 年代，形势严峻到普查局与美国发明家赫尔曼·霍列里斯（Herman Hollerith）签约，使用他打孔卡理念制成的制表机来进行 1890 年普查。

在他的巨大努力下，制表时间从八年缩短到不到一年。这可谓惊人的壮举，开启了数据处理自动化的时代（也为后来诞生的 IBM 奠定基础）。然而，作为获取与分析大数据的方法，它仍非常昂贵。普查意味着美国每个人都要填表，信息被转录到打孔卡，再用于制表。如此高成本的方法，使得在十年以内进行一次普查几乎不可想象，尽管对一个高速增长的国家而言，十年一次已经不够。

问题由此而来：要不要用全部数据？还是只用一点？在被测对象上拿到全部数据当然最敏感、最稳妥；只是规模一大，往往不切实际。那该如何选样？有人主张有意识地构造一个具有代表性的样本。但 1934 年，波兰统计学家 Jerzy Neyman 证明，这样做往往会造成巨大误差；关键在于随机性：要尽可能随机地选取样本对象。

统计学家发现，随机抽样能显著提高抽样精度，并不需要同步地大幅增加样本量。事实上，听起来也许不可思议，一个随机选取的样本（每个个体被选中的概率大致相等）就能高度代表总体。在 20 次中有 19 次，它对总体的估计会在**±3%** 的误差范围内——不论总体规模是十万还是一亿。为何如此，数学上很复杂；简短答案是：一旦超过某个点，样本再变大，每个新观察带来的新信息反而递减**。

第23页

随机性胜过样本量的洞见令人震惊，它为一种新的信息收集方式铺平道路：以低成本收集随机样本，并以高精度外推出总体。政府因此可以每年用随机样本做小型普查，而不是十年才来一次。事实也如此：美国人口普查局除十年一次的全民普查外，每年还基于抽样进行两百多项经济与人口调查。抽样，成为早期信息过载时代的解决方案——那会儿收集与分析数据非常困难。

这种方法的应用很快超出公共部门与普查本身。本质上，随机抽样把“大数据问题”变成**“较可管理的数据问题”。在商业中，它用于制造质量保证——让改进更容易**、更便宜。原先的全面质量控制要检查每一个下线产品；后来随机抽测一部分就够了。同样，新方法推动了零售中的消费者调查与政治中的民意测验。我们过去称为“人文学”的一大块内容，也因此转向了社会科学。

然而，随机抽样虽然成功、并成为规模化测量的支柱，它毕竟只是权宜之计，是在无法获取全数据时的次优方案，而且它自带诸多弱点。它的精度依赖于收样的随机性，而做到真正随机非常难；而且系统性偏差（收集方式中的偏性）会令外推大错特错。

第24页

选举民调里，使用固话抽样就会出现这种偏差：样本会系统性低估只用手机的人（他们往往更年轻、更自由派），正如统计学家 Nate Silver 指出过的。这会导致错误预测。例如 2008 年奥巴马与麦凯恩的总统大选中，盖洛普、皮尤、ABC/华盛顿邮报等主要机构在“是否调整仅手机用户”这一点上，前后差出 1–3 个百分点——在胶着选战里，这个差距非常可观。

更麻烦的是，随机抽样很难随规模扩展到亚类与子群体。因为一旦把总体切分得越小，错误预测的可能性就越大。原因不难理解：假设你随机调查 1000 人的下届选举投票意向。如果样本足够随机，那么总体民意大概率会落在样本观点的**±3%** 之内。可**±3%** 不够精细怎么办？如果你还想按照性别、地域、收入进一步细分呢？

如果你想把这些子群体组合起来，瞄准一个利基人群又怎么办？在 1000 人的样本里，诸如“东北地区的富裕女性选民”这样的子群，规模可能不到 100。用几十个观察来预测所有东北富裕女性的投票意向，误差必然很大，即便总体样本已接近完美随机。而总体样本中的微小偏差，在子群层级往往会被放大。

因此，一旦你想向下钻探到更有意思的小类，抽样很快就失去效用。在宏观层面好用的办法，在微观层面就会崩塌。抽样像一张胶片照片：远看不错，一放大就糊。

抽样还需要细致的规划与执行。通常你不能临时追加问题去问样本对象——若没在一开始就把问题设计进去……

第25页

……那到头来，它终究只是捷径。因为它只是样本，而不是“全部”，所以数据集在可扩展性与可塑性上都受限——同一批数据，后来就无法为了完全不同的目标再以全然不同的方式重算。

以DNA 分析为例。到了 2012 年，对个人基因组进行测序的成本降到约一千美元，让它逼近可以规模化开展的大众技术。于是出现了个人基因测序产业。自 2007 年起，硅谷的 23andMe 只收几百美元就给人做 DNA 分析。其技术通过找出遗传密码中与某些疾病（如乳腺癌或心脏病）相关的标记位点来提示风险。并且，借由汇聚客户的 DNA 与健康信息，23andMe 还能发现否则难以发现的新知。

但有个障碍：公司只测序极小部分基因——那些已知与特定弱点相关的标记；而数十亿个碱基对仍未被测序。因此，23andMe 只能回答与这些已选标记有关的问题。一旦有新标记被发现，还得重新测序（或至少测其中相关段落）。相对于测全基因组，这类子集工作意味着一种权衡：公司可以更快、更廉价地找到自己想找的东西，但它无法回答那些事先没想到的问题。

苹果传奇 CEO 史蒂夫·乔布斯在抗癌时采取了完全不同的办法——他成为全球最早一批把个人全基因组与肿瘤基因组一起测完的人之一。为此他支付了六位数费用——远比 23andMe 贵数百倍。回报是：得到的不是样本，而是完整数据文件，包含全部遗传密码。

医生为一般癌症患者选药时，通常希望患者 DNA 与临床试验中那批患者**“足够相似”**，药才能奏效。然而乔布斯的医生们……

第26页

……可以根据他具体的遗传构成，选择最合适的治疗。一种方案若因癌细胞突变而失效，他们就能迅速切换到另一种——乔布斯戏称为“从一个跳板跳到另一个”。他说：“要么我成为第一批能跑赢这种癌症的人，要么我就成为最后一批死于它的人。”虽然这句乐观话最终没有成真，但方法——即拥有全部数据，而不只是一点点——确实为他赢得了数年的生命。

小标题：From some to all（从部分到整体）

抽样是一个时代的产物：当时人们测量世界，却缺少足以分析所收集信息的工具。所以抽样也成了那个时代的残留物。如今的计数与制表短板已不再存在到那种程度。传感器、手机 GPS、网页点击、推特信息……数据可以被动收集，计算机也能以越来越轻松的方式去处理这些数字。

在我们能够驾驭海量数据的时代，“抽样”这个概念就不那么合理了。处理与分析大数据的技术工具已大幅进化，但我们的方法与心态却慢一些。

不过，抽样长期以来的代价如今依然存在：它会丢失细节。有些情形别无选择必须抽样，但在很多领域，我们正从“收集一些数据”转向“尽可能把能拿到的数据都收进来”，如果可行，最好是n = all。

正如我们所见，n = all 使我们得以深入钻取数据，而样本做不到这一点。回想之前的例子，±3% 的总体误差也许够用，但你会失去细节与颗粒度；而现实世界并不总是“正态分布”。真正有趣的事物，往往就藏在抽样抓不住的地方。

因此，Google Flu Trends 并不依赖一小份随机样本，而是利用美国数十亿条搜索查询。用全部数据而非小样本，能把分析精细到预测特定城市的流感传播，而不仅是州或全国。Oren Etzioni 的 Farecast 项目一开始用 1.2 万个数据点（可视为样本），表现不错；但他越加数据，预测质量就越好。最终，Farecast 用了一整年的国内航班全量记录。“这是时间序列数据——不断收集，你就越来越能看清模式。”Etzioni 说。

所以，我们常常可以放弃随机抽样这条捷径，转而追求更全面的数据。这要求充足的处理与存储能力，以及尖端的分析工具；还需要简单、低价的数据采集方式。过去这些件件都昂贵难解，如今成本与复杂度已经大幅下降。原本只有巨头能做的事，如今多数组织都能做。

用全部数据可以识别那些原本淹没在信息海洋中的联系与细节。比如信用卡欺诈检测：它靠找异常，而找到异常的最佳方式，是把所有数据都咬碎嚼烂，而不是只看样本。离群点往往最有意思，而你只有在与大量正常交易作比较时才能识别它们。这是个大数据问题；并且因为交易瞬时发生，分析通常也必须是实时的。

Xoom 是一家做国际汇款的公司，背后有不少大数据名家作顾问。它分析所处理交易的全部数据。2011 年，系统发现来自新泽西的 Discover 卡交易略高于平均，于是拉响警报……

第27页

……逐笔看来，这些交易都毫无异常、似乎合法；但事实证明，它们来自一个犯罪团伙。唯一能发现这种异常的方法，就是查看所有数据——抽样很可能就会错过它。

使用全部数据，并不一定意味着绝对规模很大（尽管常常如此）。Google Flu Trends 的模型在幕后做了数以亿计的数学计算；人类全基因组有 30 亿碱基对。但仅凭数据点数量或数据集规模并不能定义“大数据”。把这些案例划为“大数据”的关键在于：它们不走随机抽样的捷径；无论是 Flu Trends，还是乔布斯的用药，做的都是尽量使用接近“全集”的数据。

日本的相扑假赛研究，是“为何要用 n = all”的一个好例子。长期以来，相扑比赛被指有“放水”，却总遭否认。芝加哥大学经济学家 Steven Levitt 查阅了十多年的比赛记录（全部），寻找异常。结果写成发表于《美国经济评论》的论文，后来收入《魔鬼经济学》，展示了检查海量数据的价值。

他们分析了 11 年、6.4 万多场相扑对决，结果发现确有做假，但发生在多数人没想到的地方。不是冠军之战（那可能也会被操纵），而是系列赛的尾声。数据表明：在**“终盘战”发生了不对劲的事——这时很多力士已无夺冠机会，看似利害不大**。

相扑还有个特点：要保级，力士在 15 场赛会中至少要过半胜（≥8 胜），这常导致利益不对称。比如 7 胜 7 负的力士对阵 8 胜 6 负的对手，7–7 的人更需要胜利。数据表明：更需要胜利的一方显著更常取胜（约高 25%），难以仅用“肾上腺素更旺”来解释。进一步分析发现：若下一次这两人再交手，前一场的胜者反而更可能落败，而在其他更早或更后的对碰中并未出现这种现象。于是，第一次的胜利看起来像是**“人情”，而之后回礼，正体现了相扑圈那种紧密**的人情网络。

这些信息一直摆在眼前，但随机抽样可能就露不出来。即便依据基础统计，不知道要找什么时，也无从确定抽哪种样本。相反，列维特等人用更大的数据集，力图覆盖全部比赛。用大数据调查，有点像撒网捕鱼：一开始不清楚能不能有所收获，更不清楚会捞到什么。

当然，用的数据集未必达到TB 级。相扑的数据从比特数看甚至少于今天一张普通数码照片。但它作为大数据分析，看得远超典型的随机样本。我们说“大”，更多指的是相对意义：相对更接近“全体”的集合。

长久以来，随机抽样是不错的捷径：它让许多“大数据问题”在前数字时代变得可做。但采样会丢信息，就像把一张数码照片或一段音乐压缩到更小文件一样。拥有完整（或接近完整）的数据集，就能更自由地换角度与放大查看不同细节。

一个恰当的类比是 Lytro 光场相机：它不是像传统相机那样只捕捉一道光线，而是捕捉整个光场的射线阵列，多达1100 万条……

第30页

……摄影师可以在拍完之后再决定对焦何处；因为全部光线都记录在数字文件里，先不必对焦。由于更接近**“全体数据”，信息也更易于重复利用**——不同于普通照片，摄影师必须在按下快门前就决定好聚焦对象。

同理，因为大数据尽可能利用全部信息，它允许我们细看局部或探索新假设，而不必担心“放大就糊”。这正是我们能据此识别相扑假赛、按地区追踪流感传播、以及把癌症治疗精准瞄准到患者 DNA 的特定片段的原因——我们可以在惊人的清晰度下工作。

当然，用全量而非样本并非处处必要。我们仍然生活在资源受限的世界。但在越来越多的场景里，使用现成的全部数据是说得通的，而且如今做到这点可行，而过去不可行。

受 n = all 冲击最大的领域之一是社会科学。随着大数据分析取代传统的高技能抽样调查专家，社会科学失去了对“经验性社会数据”的垄断。过去该学科主要依赖抽样研究与问卷；可当数据是在人们日常活动中被动采集时，抽样与问卷的既有偏差就消解了。我们可以收集到以前无法收集的信息——无论是电话记录揭示的人际关系，还是推文中显露的情绪。更重要的是，抽样的必要性消失了。

网络科学权威 Albert-László Barabási 想在整个人口的规模上研究互动。他与同事分析了某欧洲国家一家运营商的匿名手机通话日志，覆盖该国五分之一人口，时长四个月。这是第一次在社会层面对整个社会网络做如此大规模的研究，真正意义上的 n = all。在这样千万级人群、跨越时间的视野下，他们得到了一些其它方法难以揭示的新洞见。

耐人寻味的是，与小样本研究相反，他们发现：若从网络中移除“在社区内部有很多连接的人”，剩余的社会网络会退化但不崩溃；而若移除“把社区连接到外部的人”（即跨社区的桥接者），网络会瞬间瓦解，仿佛结构被抽走了支柱。这是重要而出人意料的结果：看来**“密友多”的人对网络稳定性的作用不如那些“连接远方他群”的人**。这提示我们，群体及整个社会都重视多样性与外向的连结。

我们往往把统计抽样当作某种不变的基石，仿佛几何公理或万有引力。但这个概念其实不到一百年历史，诞生于特定技术约束下，为解决特定问题而设。如今那些约束已不再如昔。在大数据时代抓“随机样本”，就好像汽车时代还抓着马鞭不放。当然，在某些情境中我们仍会抽样，但它不必、也不会成为分析大规模数据集的主流方式。我们将越来越多地直取“全集”。

第33页（第32–33 页跨页标题页，以下为正文）

3 MESSY（凌乱）

在越来越多的情境中，使用所有可得数据已变得可行。但它也有代价：数据量越大，不准确的门便越开。确实，错误数值与损坏位一直会混入数据集；过去我们把它们当成问题、力求清除，部分是因为别无他法。我们过去从未把它们看作不可避免之物并学着与之共处——而这，正是从小数据转向大数据时的一项根本性转变。

在小数据的世界里，减少误差、确保高质量几乎是本能。因为我们只收集到很少的信息，所以就格外在意把记录的每一个数字都做到尽可能准确。几代科学家不断优化仪器，让测量更精确：不论是测天体位置，还是显微镜下物体的尺寸。抽样世界里，准确性更是关键：分析少量数据点时，误差会被放大，可能污染整体结果。

历史上，人类最伟大的成就很多都来自用测量征服世界的冲动。13 世纪中叶在欧洲兴起的度量标准化运动，开启了对时间与空间的精确量度——正如历史学家 Alfred Crosby 所言，这是对“现实的度量”。

如果能测量一种现象，我们便相信能够理解它。后来，测量与科学方法相连：能量化、能复现、能呈现可重复结果。“测量即认知”，开尔文勋爵断言。培根宣称“知识就是力量”。与此同时，数学家与后来出现的精算师、会计师，发展了准确收集、记录与管理数据的方法。

到19 世纪，当时的科学强国法国建立了精确定义的度量体系来捕捉时间、空间等，并推动他国采纳相同标准，甚至把国际公认的原型单位铺进条约。这是“测量时代”的巅峰。然而仅仅半个世纪后，20 年代的量子力学发现粉碎了“完全、完美测量”的梦想。即便如此，在物理学之外相对较小的圈子之外，人类追求无瑕测量的心态仍在工程师与科学家之间延续；在商业世界，这种心态甚至扩张，因为数学与统计等理性科学开始影响商业的方方面面。

不过，在今天新出现的很多场景里，允许不精确——允许凌乱或许是一种优势，不是缺陷。这是一种权衡：放宽允许的误差标准，我们就能拿到更多数据。这并非简单的“量多胜过量少”，而是有时“量多胜过更精”。

“凌乱”有很多种含义。最简单的一种，是数据点越多，错误出现的概率就越大。比如把桥梁的应力读数增加到一千倍，确实会更可能出现……

第34页

……错误。但也可以通过融合不同来源的不同类型信息（它们并不总能对齐）让“凌乱”增加。举例说，用语音识别把呼叫中心的投诉转成文本，再把这些数据与接通处理时长相比较，会让我们得到一张不完美但有用的快照。凌乱也可指格式不一致，需要先**“清洗”。称呼 IBM 的方式就有一箩筐，从 I.B.M. 到 T. J. Watson Lab 到 International Business Machines。当我们抽取或处理数据时也会引入凌乱，因为我们在把它转化成别的东西**，比如在做情感分析来预测好莱坞票房收入。凌乱本身，就是凌乱。

设想我们要测一个葡萄园的温度。如果只有一个传感器覆盖整块土地，就必须保证它始终准确且工作正常——不允许凌乱。相反，如果为上百条葡萄藤各装一个传感器，我们可以使用更便宜、更简单的设备（只要它们没有系统性偏差）。某些时刻个别传感器可能会报错，造成一个不那么精确、更“凌乱”的数据集；但很多读数的聚合会给出更全面的图景。因为这个数据集包含更多数据点，它提供的价值远大于它所带来的凌乱。

再设想我们提高采样频率。若每分钟测一次，数据到来的时序基本完美。可若改为每秒十次或一百次，时序的准确性就不那么确定了：信息在网络中传输时，记录可能延迟、乱序，甚至丢失。信息会更不精确，但它的巨大体量让我们有理由接受不那么严格的“精确”。

第35页

在第一个例子里，我们牺牲了单点精度换来广度，收获了原本看不到的细节；第二个例子里，我们放弃了严格时序换来高频率，从而看见原本捕捉不到的变化。也许，砸足资源可以压下误差（比如在纽约证交所每秒 3 万笔交易里时序很重要），但在许多情形下，容错比防错更划算。

因此，我们可以为了规模而接受一些凌乱。正如技术咨询公司 Forrester 所说：“有时候2+2 可以等于 3.9，那也够用了。”当然，数据不能离谱，但我们愿意牺牲一点精度来换取趋势性认识。大数据把“精确数值”转变为更概率式而非确定式的东西。这个转变需要我们慢慢适应，它自身也带来问题（本书后文会讨论）；此处只需记住：当我们放大规模时，常常需要拥抱“凌乱”。

类似的转变也体现在**“更多数据”相对于“更强计算”的重要性上。大家都知道摩尔定律让计算能力与存储不断提升；但鲜有人意识到，驱动许多系统的算法性能也提高了，而很多提升并非来自更快的芯片或更聪明的算法，而是因为数据更多**。

拿象棋程序来说，过去几十年它们的算法变化不大（规则固定、空间很小）；电脑下得比过去好，部分原因只是残局数据库更大。如今六子以内的残局都被完全解析，所有可能局面都被存入巨表，压缩后也要**>1 TB**；这让程序在残局中几乎完美。没有人类能记住那张表，但电脑可以查表制胜。

“更多胜过更好”这个命题在自然语言处理领域得到了极有力的证明。大约在 2000 年，微软研究员 Michele Banko 与 Eric Brill 想改进 Word 的语法检查。他们不确定是应该改算法、发新技术，还是加新特征。于是他们首先试了另一条路：把更多数据喂给现有算法。多数机器学习算法靠百万词级的语料。Banko 与 Brill 选了四类常见算法，依次把语料扩到千万词、亿级词、直至十亿词。

结果令人瞠目：数据越多，四类算法全都显著提升。原先在半百万词上最差的那个简单算法，在十亿词上反而胜过其它算法，准确率从 75% 提到95% 以上；而原先在少量数据上表现最好的算法，在大数据上则相对落后（尽管也有提升）。他们写道：也许我们该重新审视“把钱与精力花在算法开发上，还是花在语料扩充上”的权衡。

所以，“多即是好”。有时，“多”甚至比“更聪明”更聪明。在 Banko 与 Brill 把海量数据铲给算法后的几年里，谷歌的研究者也在做类似的事——但规模更大。他们不是用十亿词，而是一万亿词。谷歌此举不是为了做语法检查，而是攻克更硬的核桃：机器翻译。

所谓机器翻译，自 20 世纪 40 年代计算机诞生以来就让先驱者们心驰神往。冷战时期，当美国截获大量俄语文本与录音、却人手不足时，这一需求尤为迫切。1954 年，IBM 用 250 对词汇与 6 条语法规则，让 701 计算机把 60 句俄语“顺利”译成英语；项目负责人预测，**五年（也许三年）**内机器翻译会成为“既成事实”。

但这开局的成功极具误导。到 1966 年，机器翻译权威委员会承认失败：问题比想像困难得多。教会计算机翻译不只是规则，还得教它例外；翻译不是死记硬背，而是要在多种备选里择其最当——“bonjour”究竟是“早安”“白天好”还是“你好”？答案往往是：看情境。

80 年代末，IBM 的研究者有了新想法：别把显式语言规则和词典塞进计算机，而让计算机自己统计估计——给定语境，哪一个词或短语最可能对应另一语言中的恰当表述。90 年代，IBM 的 Candide 项目用上了十年加拿大议会的英/法语对照记录……

以上为你给到图片中的全部页（19–37 页）的逐页全文直译。如果你需要我把这些译文整理成双语对照、做关键术语表、或提炼要点摘要/思维导图，告诉我你想要的格式即可。好的，继续按你给的图片顺序逐页翻译（第 38–49 页）。和上一次一样，我做尽量忠实的意译，保持段落结构与小标题；个别图片里极少数字或专名不清的地方，用“数以百万/上亿”等保守表述，不影响原意。

第38页

……在 20 世纪 90 年代，IBM 的研究者把这种思路推进成统计机器翻译：不是教计算机“规则”，而是让它自己根据大量双语材料去估计在给定语境下哪个词/短语最可能对应另一种语言中的表达。后来发展出的短语级模型效果更好，能把多词组成的片段作为单位来比对。到了 2000 年代中期，谷歌将其极大规模化：它从网络、新闻机构与公开语料里收集了海量句子对，把一种语言中的表达与另一种语言中实际出现的翻译进行匹配。2006 年面世的 Google Translate 就是建立在这套方法上的。虽然它并不理解语言的“本质”，但效果却非常不错。正如谷歌研究员所言，它依赖的不是完美的语言学理论，而是不可思议的多数据。

若要把任何两种语言都能互译，所需数据量会指数级增长；谷歌采取了一个折中：大量语言先译成英语，再从英语译向别的语言——把英语作为“中枢语”。这显然不是最优，但却灵活、可扩展、又实用。而且，随着数据越来越多，系统能自动纠错并改进。谷歌把这种路线总结为《数据的不合理有效性》：在语料足够庞大时，简单模型 + 海量数据往往胜过复杂模型 + 小数据。

小标题：More trumps better（“更多”胜过“更好”）

对受过传统训练的统计学家和分析师来说，“凌乱而大量的数据”曾是逆耳的——他们一向把全部心力放在减少噪声、提高精度上。可这些年里，无论在语音识别、机器翻译，还是垃圾邮件过滤、搜索排序等领域，人们屡屡发现：与其投入巨大精力追求更精妙的算法，不如先设法获得更大的样本和更全面的特征。不少团队采用多重报告/多源数据策略：允许各路数据有瑕疵，但靠数量和覆盖面来抵消它们带来的误差。

第40页

当我们说“更凌乱的数据可能更好”时，并不是在鼓吹草率。真正的意思是：在很多情境里，与其让昂贵的技术和严格的流程去榨取极少量但极精准的信息，不如以更低成本收集更大规模的数据，然后用合适的方法容纳其中的不完美。传统做法把注意力放在把误差压到最低；而大数据的做法更像是：在可接受的误差内，换取更大的覆盖和更快的时效。

以通货膨胀为例。按常规，政府统计部门会选取一个“固定篮子”的商品，追踪其价格变化来估算通胀。这种方法有两大难题：其一，篮子里的商品并不总能反映真实消费；其二，价格采集昂贵且滞后。于是，麻省理工学院的研究者创建了“十亿价格计划”（Billion Prices Project），每天从网络上自动抓取大量商品价格，构建更实时的通胀度量。这样做显然更凌乱：商品不统一、网站不同、价格含税/运费口径不一致……但规模与频率弥补了这些缺点。事实证明，它可以及时捕捉到经济变化的拐点，在不少时期对通胀趋势的把握先于官方统计。

另一方面，美国劳工统计局的消费者价格指数仍然是权威，它的严谨口径对投资者、雇主和政策制定者都至关重要。二者并行并不矛盾：官方指标提供制度化的可比性，而网络价格则提供更高的时效性。在大数据时代，我们不必非此即彼。

第41页

“从少到多”的迁移不仅意味着技术变了，也意味着一种观念上的转弯：我们不再把“样本”当成理所当然的唯一途径。当采集成本骤降、计算能力攀升时，“把能用的数据都用上”变得可行。的确，更大更杂的数据会带来新问题：如何校准误差、如何控制偏差、如何避免把噪声当成信号。但这些问题可被管理；相反，如果采集的只是少量而且高度控制的数据，很多真正重要的模式就会被永远遗漏。

第42页

小标题：Messiness in action（凌乱在实战中的力量）

在技术与社会的许多角落，我们正在主动选择“更多且较乱”的数据，而不再执念于“少而极准”。以图片为例。早年的做法，是工程师和审稿人对少量照片做严格标注。如今，我们有了数以亿计带有EXIF 信息的照片：时间、地点、设备型号，甚至地理坐标。虽然它们的口径并不统一，质量参差不齐，但当你把这些碎片合在一起，就能看见人群活动、旅游热点、城市节律等宏观图景——是过去想都不敢想的。

再看网络价格。研究者阿尔贝托·卡瓦罗与罗伯托·里戈邦把这种理念发展成一个商品价格数据库，覆盖许多国家与数千家网站，可每日更新。他们还把这类“非官方”的价格指标商品化为实时通胀服务，供金融机构参考。你可以说这些数据不够干净，但它们反映快速、覆盖更广，在识别转折上尤其有用。

第43页

更广泛地说，互联网上的几乎一切行为都在留下数据痕迹：搜索、购物、打车、上网课、运动、看剧、散步……当我们上传照片或视频时，平台会记录下海量的上下文信息。以前我们在分析时只能依赖小心设计的抽样调查；如今我们可以把搜索日志、社交互动、地理定位、交易记录等多源拼在一起，获得更深的洞察。当然，拼接意味着更多不一致与更多噪声，但价值常常远大于它带来的麻烦。

第44页

然而，要真正发挥“多且杂”的威力，我们在数据基础设施上也要做出改变。传统的、所谓关系型数据库（SQL）要求先定义好数据表结构，再把数据按结构写入。这种“先定模式，再写入”（schema on write）在过去很合理：它保证一致性与强约束。但在规模越来越大、来源越来越多、结构越来越各异的今天，这种方式会让我们步履沉重。如果每一种新数据都要先设计结构、写转换脚本、做校验再入库，我们就会在准备阶段耗掉大量时间与成本。

于是，出现了新一代数据库设计，它们打破了旧有的“记录必须干净整齐”原则：像键值存储、列式数据库、文档数据库乃至图数据库等，支持把原始数据先囫囵吞下，然后在读取或分析时再决定如何解释——所谓“读时定模式”（schema on read）。这并不意味着可以随便来；而是承认在“速度与灵活性”与“一致性与整洁”之间，存在可管理的权衡。这些系统常常牺牲部分强一致性，换取更高的可用性与分区容忍度（工程师会提到著名的CAP 定理）。

第45页

对很多企业而言，这种转向带来的收益是立竿见影的。以前，一条数据从采集到可分析，往往要经过繁琐的清洗与建模；而在更灵活的系统里，我们可以先收起来，哪怕它格式各异、字段缺失，待到真正需要时再按需解释。这使得我们能对未预见的问题也做出快速响应。当然，“快”的代价是：不再保证处处严丝合缝；而这正是“大数据思维”的要义之一。

第46页

“凌乱也有用”的另一个生动例子来自风控。传统信用评分高度依赖整齐划一的资料：收入、负债、还款记录等。可对某些未被传统系统覆盖的人——比如缺少信用历史的年轻人或新移民——这些指标并不齐全。一家名为 ZestFinance 的公司（由前谷歌高管创立）尝试使用大量非传统信号：填写表格所用的时间与节奏、是否反复修改信息、是否一次完成、在网站上点击的路径、设备与网络指纹、甚至拼写/大小写等细节。单看这些信号各自都很嘈杂，难以直接解释；但把它们成百上千个地组合起来，并用机器学习去捕捉复杂的模式，就能补足传统评分的盲区，预测违约概率。他们的口号是：数据越多，猜得越准。其含义并非“瞎猜”，而是承认许多小线索汇在一起能形成有力的判断。

第47页

当然，接受凌乱并不等于放弃质量。真正的要点是：在时效、覆盖与精度、可控之间做透明的折中。在一些对账务或医疗这样的领域，我们仍需强一致性与可追溯；而在市场预测、风控、推荐、运维监测等很多场景里，“足够好且更快”往往胜过“极准但太迟”。社会正在发生一种悄然的双重转变：第一，对速度的偏好在上升；第二，对信息完美程度的执念在降低。我们不会因此抛弃严谨，而是把它放在该放的地方。

第48页

回头看，我们之所以曾经把“精确”捧得那么高，部分原因是我们只能收集到很少的信息，只得把它打磨到极致。而在今天，当我们能收集到更大量、更多样的数据时，我们应该允许一定的不完美，并学会从“远处”去观察整体：靠更多样的例子与更广的覆盖来弥补单点的不准。的确，这要求我们在观念上作出让步：承认“圆钉有时需要敲进方孔”；承认对某些问题，唯一的好答案不是“完美的解释”，而是“足够可靠的预测”。

第49页

这种心态的转变越激进，它带来的后果越深远：不仅改变政策制定，也改变我们理解世界的方式。我们会更愿意根据数据显现的相关关系去行动，而不是等到我们完全弄清楚其背后的因果机制。这引出下一章的主题：在许多场景中，识别并利用相关，或许已经足够好。

需要我把第 19–49 页合在一起做一个双语对照 PDF、或抽出关键词/术语表与思维导图吗？

My Vault

Explorer

Chapter 2 - 3