好的,按页码为你做逐页全文翻译(保留段落与小标题;页眉“BIG DATA / MORE / MESSY”等不再重复)。以下对应你提供的图片顺序与页码:19–37 页。


第19页

2 MORE

大数据的核心,是看见并理解信息内部以及信息之间的关系——而这些关系,直到不久之前我们都还难以真正把握。IBM 的大数据专家 Jeff Jonas 说,你需要让数据“对你说话”。从某个层面听上去这似乎很琐碎。很久以来,人类一直借助数据来认识世界:要么是日常无数观察的非正式意义上,要么主要是在过去两三个世纪里,以可量化单位并可由强力算法操弄的正式意义上。

数字时代或许让处理数据更容易更迅速,能在一瞬间计算出数以百万计的数字。但当我们谈“会说话”的数据时,我们指的是更进一步、也很不一样的东西。正如第一章所说,大数据意味着三种相互关联、彼此强化的思维转变。第一,是能够就某个主题分析海量数据,而不是被迫满足于小样本。第二,是愿意拥抱数据的“脏乱”(真实世界的杂质与不精确),而不是把“精确无误”置于一切之上。第三,是对相关关系的重视日益增加,而非执着追寻难以捉摸的因果。本章将讨论第一种转变:用“全部可得的数据”而不是只取其中一小部分

准确处理成堆的大量数据的挑战,已经伴随我们很久。历史上大多数时候,我们只能使用很少的数据,因为我们在收集、组织、存储与分析数据方面的工具都很差……


第20页

……因此我们把用到的信息尽量缩到最小,这样更易检查。这其实是一种无意识的“自我节制”:我们把与数据打交道的困难,当成不幸的现实,而不是看清它的本质——那是当时技术所施加的人为约束。如今,技术环境已发生一百七十九度的转变。我们仍然、而且可能总会在某些方面受制于可管理的数据量上限,但这种限制相比过去要小得多,而且会随时间越来越小

从某种意义说,我们还没有完全体会到如今能收集与使用更大数据池的自由。我们设计机构的经验,大多是建立在“信息供应有限”的前提上。我们计算过自己只能收集到一点点信息,于是通常也就只收集一点点;这成了自我实现的预言。我们甚至发展出复杂的技巧尽量少用数据。毕竟,统计学的一个目标,就是用最小的数据量去确认最丰富的发现。结果,我们把这些做法法典化进了常规、流程与激励结构之中,从而扼杀了我们所使用的信息数量。若要理解“转向大数据”意味着什么,故事得从回望历史说起。

直到最近,私营企业——如今甚至个人——才有能力在大规模上收集并整理信息;在过去,这项任务属于强大的组织,比如教会国家(在许多社会里两者其实是一回事)。最早的计数记录可追溯到公元前约 5000 年:苏美尔商人用小黏土珠来表示交易货物。但大规模的计数,则一直是国家的职分。几千年来,各国政府都试图通过收集信息来掌握其人民的状况。

想想人口普查。传说古埃及与中国都曾进行过普查。《旧约》提过它;而《新约》告诉我们,奥古斯都下令普查天下(路加福音 2:1),约瑟与马利亚因此前往伯利恒,耶稣在那里诞生。英格兰 1086 年的《末日审判书》(Domesday Book),是英国最受尊崇的典籍之一……


第21页

……在当时,它对英格兰人口、土地与财产做出了前所未有的全面清点。皇家专员分赴乡间,把信息汇编进这本书里——后来这本书被称为“Domesday”(“末日审判”),因为这一过程让人联想到《圣经》中的最后审判:所有人的生命册被摊开。

人口普查既昂贵耗时。下令编纂《末日审判书》的威廉一世,甚至没有活到它完成的那一天。可若不承担这份负担,唯一的替代就是放弃收集信息。而即便投入了如此多的时间与金钱,所得信息也只是近似,因为普查员不可能把每个人都完美统计。事实上,“census(普查)”一词就来自拉丁语 censere,意为“估计”。

三百多年前,一位英国帽商约翰·格朗特(John Graunt)提出了一个新点子。他想知道伦敦在瘟疫时期的人口。他没有去数每一个人,而是设计了一种方法——今天我们称之为**“统计”——使他能够推断人口规模。他的方法很粗糙,但奠定了这样一个观念:可以从小样本外推出对总体的有用认识。关键在于如何外推**。格朗特的办法,是把样本放大

这种方法当时备受称赞,尽管我们后来发现,他的数字之所以看起来合理多半是运气。几代人以来,抽样缺陷严重。因此,对于普查以及类似“大数据型”的工程,蛮力式的“数到每一个人”长期占上风。

由于普查过于复杂、昂贵、耗时,它们很少进行。古罗马人口动辄数十万,每五年才普查一次。美国宪法规定每十年一次普查;随着国家人口激增,到 19 世纪晚期这也变得棘手,数据增长速度超过了统计局的处理能力。

1880 年的人口普查竟花了八年才完成。信息在出炉前就已经过时了。更糟的是……


第22页

……官员估计,1890 年的普查若仍按旧法,需要整整十年才能制表——荒唐之极,更别提它还关系到税赋分配与国会席位划分(都依据人口)。因此,要得到的必须不仅是准确的计数,还是及时的计数。

美国人口普查局遭遇的问题,与新千年之初许多科学家与商界人士面临的情形相似:收集到的信息淹没了既有的处理工具,新技术势在必行。19 世纪 80 年代,形势严峻到普查局与美国发明家赫尔曼·霍列里斯(Herman Hollerith)签约,使用他打孔卡理念制成的制表机来进行 1890 年普查

在他的巨大努力下,制表时间从八年缩短到不到一年。这可谓惊人的壮举,开启了数据处理自动化的时代(也为后来诞生的 IBM 奠定基础)。然而,作为获取与分析大数据的方法,它仍非常昂贵。普查意味着美国每个人都要填表,信息被转录到打孔卡,再用于制表。如此高成本的方法,使得在十年以内进行一次普查几乎不可想象,尽管对一个高速增长的国家而言,十年一次已经不够。

问题由此而来:要不要用全部数据?还是只用一点?在被测对象上拿到全部数据当然最敏感、最稳妥;只是规模一大,往往不切实际。那该如何选样?有人主张有意识地构造一个具有代表性的样本。但 1934 年,波兰统计学家 Jerzy Neyman 证明,这样做往往会造成巨大误差;关键在于随机性:要尽可能随机地选取样本对象。

统计学家发现,随机抽样显著提高抽样精度,并不需要同步地大幅增加样本量。事实上,听起来也许不可思议,一个随机选取的样本(每个个体被选中的概率大致相等)就能高度代表总体。在 20 次中有 19 次,它对总体的估计会在**±3%** 的误差范围内——不论总体规模是十万还是一亿。为何如此,数学上很复杂;简短答案是:一旦超过某个点,样本再变大,每个新观察带来的新信息反而递减**。


第23页

随机性胜过样本量的洞见令人震惊,它为一种新的信息收集方式铺平道路:以低成本收集随机样本,并以高精度外推出总体。政府因此可以每年用随机样本做小型普查,而不是十年才来一次。事实也如此:美国人口普查局除十年一次的全民普查外,每年还基于抽样进行两百多项经济与人口调查。抽样,成为早期信息过载时代的解决方案——那会儿收集与分析数据非常困难

这种方法的应用很快超出公共部门与普查本身。本质上,随机抽样把“大数据问题”变成**“较可管理的数据问题”。在商业中,它用于制造质量保证——让改进更容易**、更便宜。原先的全面质量控制要检查每一个下线产品;后来随机抽测一部分就够了。同样,新方法推动了零售中的消费者调查与政治中的民意测验。我们过去称为“人文学”的一大块内容,也因此转向了社会科学

然而,随机抽样虽然成功、并成为规模化测量的支柱,它毕竟只是权宜之计,是在无法获取全数据时的次优方案,而且它自带诸多弱点。它的精度依赖于收样的随机性,而做到真正随机非常难;而且系统性偏差(收集方式中的偏性)会令外推大错特错


第24页

选举民调里,使用固话抽样就会出现这种偏差:样本会系统性低估只用手机的人(他们往往更年轻更自由派),正如统计学家 Nate Silver 指出过的。这会导致错误预测。例如 2008 年奥巴马与麦凯恩的总统大选中,盖洛普、皮尤、ABC/华盛顿邮报等主要机构在“是否调整仅手机用户”这一点上,前后差出 1–3 个百分点——在胶着选战里,这个差距非常可观。

更麻烦的是,随机抽样很难随规模扩展亚类与子群体。因为一旦把总体切分得越小,错误预测的可能性就越大。原因不难理解:假设你随机调查 1000 人的下届选举投票意向。如果样本足够随机,那么总体民意大概率会落在样本观点的**±3%** 之内。可**±3%** 不够精细怎么办?如果你还想按照性别、地域、收入进一步细分呢?

如果你想把这些子群体组合起来,瞄准一个利基人群又怎么办?在 1000 人的样本里,诸如“东北地区的富裕女性选民”这样的子群,规模可能不到 100。用几十个观察来预测所有东北富裕女性的投票意向,误差必然很大,即便总体样本已接近完美随机。而总体样本中的微小偏差,在子群层级往往会被放大

因此,一旦你想向下钻探到更有意思的小类,抽样很快就失去效用。在宏观层面好用的办法,在微观层面就会崩塌。抽样像一张胶片照片:远看不错,一放大

抽样还需要细致的规划与执行。通常你不能临时追加问题去问样本对象——若没在一开始就把问题设计进去……


第25页

……那到头来,它终究只是捷径。因为它只是样本,而不是“全部”,所以数据集在可扩展性可塑性上都受限——同一批数据,后来就无法为了完全不同的目标再以全然不同的方式重算。

DNA 分析为例。到了 2012 年,对个人基因组进行测序的成本降到约一千美元,让它逼近可以规模化开展的大众技术。于是出现了个人基因测序产业。自 2007 年起,硅谷的 23andMe 只收几百美元就给人做 DNA 分析。其技术通过找出遗传密码中与某些疾病(如乳腺癌心脏病)相关的标记位点来提示风险。并且,借由汇聚客户的 DNA 与健康信息,23andMe 还能发现否则难以发现的新知。

但有个障碍:公司只测序极小部分基因——那些已知与特定弱点相关的标记;而数十亿个碱基对仍未被测序。因此,23andMe 只能回答与这些已选标记有关的问题。一旦有新标记被发现,还得重新测序(或至少测其中相关段落)。相对于测全基因组,这类子集工作意味着一种权衡:公司可以更快、更廉价地找到自己想找的东西,但它无法回答那些事先没想到的问题。

苹果传奇 CEO 史蒂夫·乔布斯在抗癌时采取了完全不同的办法——他成为全球最早一批把个人全基因组肿瘤基因组一起测完的人之一。为此他支付了六位数费用——远比 23andMe 贵数百倍。回报是:得到的不是样本,而是完整数据文件,包含全部遗传密码

医生为一般癌症患者选药时,通常希望患者 DNA 与临床试验中那批患者**“足够相似”**,药才能奏效。然而乔布斯的医生们……


第26页

……可以根据他具体的遗传构成,选择最合适的治疗。一种方案若因癌细胞突变失效,他们就能迅速切换到另一种——乔布斯戏称为“从一个跳板跳到另一个”。他说:“要么我成为第一批跑赢这种癌症的人,要么我就成为最后一批死于它的人。”虽然这句乐观话最终没有成真,但方法——即拥有全部数据,而不只是一点点——确实为他赢得了数年的生命

小标题:From some to all(从部分到整体)

抽样是一个时代的产物:当时人们测量世界,却缺少足以分析所收集信息的工具。所以抽样也成了那个时代的残留物。如今的计数与制表短板已不再存在到那种程度。传感器、手机 GPS、网页点击、推特信息……数据可以被动收集,计算机也能以越来越轻松的方式去处理这些数字。

在我们能够驾驭海量数据的时代,“抽样”这个概念就不那么合理了。处理与分析大数据的技术工具已大幅进化,但我们的方法与心态慢一些

不过,抽样长期以来的代价如今依然存在:它会丢失细节。有些情形别无选择必须抽样,但在很多领域,我们正从“收集一些数据”转向“尽可能把能拿到的数据都收进来”,如果可行,最好是n = all

正如我们所见,n = all 使我们得以深入钻取数据,而样本做不到这一点。回想之前的例子,±3% 的总体误差也许够用,但你会失去细节与颗粒度;而现实世界并不总是“正态分布”。真正有趣的事物,往往就藏在抽样抓不住的地方。

因此,Google Flu Trends 并不依赖一小份随机样本,而是利用美国数十亿搜索查询。用全部数据而非小样本,能把分析精细到预测特定城市的流感传播,而不仅是全国Oren Etzioni 的 Farecast 项目一开始用 1.2 万个数据点(可视为样本),表现不错;但他越加数据,预测质量就越好。最终,Farecast 用了一整年的国内航班全量记录。“这是时间序列数据——不断收集,你就越来越能看清模式。”Etzioni 说。

所以,我们常常可以放弃随机抽样这条捷径,转而追求更全面的数据。这要求充足的处理与存储能力,以及尖端的分析工具;还需要简单、低价数据采集方式。过去这些件件都昂贵难解,如今成本与复杂度已经大幅下降原本只有巨头能做的事,如今多数组织都能做

全部数据可以识别那些原本淹没在信息海洋中的联系与细节。比如信用卡欺诈检测:它靠找异常,而找到异常的最佳方式,是把所有数据咬碎嚼烂,而不是只看样本。离群点往往最有意思,而你只有在与大量正常交易作比较时才能识别它们。这是个大数据问题;并且因为交易瞬时发生,分析通常也必须是实时的。

Xoom 是一家做国际汇款的公司,背后有不少大数据名家作顾问。它分析所处理交易的全部数据2011 年,系统发现来自新泽西Discover 卡交易略高于平均,于是拉响警报……


第27页

……逐笔看来,这些交易都毫无异常似乎合法;但事实证明,它们来自一个犯罪团伙。唯一能发现这种异常的方法,就是查看所有数据——抽样很可能就会错过它。

使用全部数据,并不一定意味着绝对规模很大(尽管常常如此)。Google Flu Trends 的模型在幕后做了数以亿计的数学计算;人类全基因组30 亿碱基对。但仅凭数据点数量数据集规模并不能定义“大数据”。把这些案例划为“大数据”的关键在于:它们不走随机抽样的捷径;无论是 Flu Trends,还是乔布斯的用药,做的都是尽量使用接近“全集”的数据

日本的相扑假赛研究,是“为何要用 n = all”的一个好例子。长期以来,相扑比赛被指有“放水”,却总遭否认。芝加哥大学经济学家 Steven Levitt 查阅了十多年的比赛记录(全部),寻找异常。结果写成发表于《美国经济评论》的论文,后来收入《魔鬼经济学》,展示了检查海量数据的价值。

他们分析了 11 年6.4 万多场相扑对决,结果发现确有做假,但发生在多数人没想到的地方。不是冠军之战(那可能也会被操纵),而是系列赛的尾声。数据表明:在**“终盘战”发生了不对劲的事——这时很多力士已无夺冠机会,看似利害不大**。

相扑还有个特点:要保级,力士在 15 场赛会中至少要过半胜(≥8 胜),这常导致利益不对称。比如 7 胜 7 负的力士对阵 8 胜 6 负的对手,7–7 的人更需要胜利。数据表明:更需要胜利的一方显著更常取胜(约高 25%),难以仅用“肾上腺素更旺”来解释。进一步分析发现:若下一次这两人再交手,前一场的胜者反而更可能落败,而在其他更早或更后的对碰中并出现这种现象。于是,第一次的胜利看起来像是**“人情”,而之后回礼,正体现了相扑圈那种紧密**的人情网络。

这些信息一直摆在眼前,但随机抽样可能就露不出来。即便依据基础统计,不知道要找什么时,也无从确定抽哪种样本。相反,列维特等人用更大的数据集,力图覆盖全部比赛。用大数据调查,有点像撒网捕鱼:一开始不清楚能不能有所收获,更不清楚会捞到什么

当然,用的数据集未必达到TB 级。相扑的数据从比特数看甚至少于今天一张普通数码照片。但它作为大数据分析,看得远超典型的随机样本。我们说“大”,更多指的是相对意义:相对更接近“全体”的集合

长久以来,随机抽样是不错的捷径:它让许多“大数据问题”在前数字时代变得可做。但采样丢信息,就像把一张数码照片或一段音乐压缩到更小文件一样。拥有完整(或接近完整)的数据集,就能更自由换角度放大查看不同细节。

一个恰当的类比是 Lytro 光场相机:它不是像传统相机那样只捕捉一道光线,而是捕捉整个光场射线阵列,多达1100 万条……


第30页

……摄影师可以在拍完之后再决定对焦何处;因为全部光线都记录在数字文件里,先不必对焦。由于更接近**“全体数据”,信息也更易于重复利用**——不同于普通照片,摄影师必须在按下快门前就决定好聚焦对象。

同理,因为大数据尽可能利用全部信息,它允许我们细看局部或探索新假设,而不必担心“放大就糊”。这正是我们能据此识别相扑假赛按地区追踪流感传播、以及把癌症治疗精准瞄准到患者 DNA 的特定片段的原因——我们可以在惊人的清晰度下工作。

当然,用全量而非样本并非处处必要。我们仍然生活在资源受限的世界。但在越来越多的场景里,使用现成的全部数据说得通的,而且如今做到这点可行,而过去不可行

n = all 冲击最大的领域之一是社会科学。随着大数据分析取代传统的高技能抽样调查专家,社会科学失去了对“经验性社会数据”的垄断。过去该学科主要依赖抽样研究问卷;可当数据是在人们日常活动中被动采集时,抽样与问卷的既有偏差就消解了。我们可以收集到以前无法收集的信息——无论是电话记录揭示的人际关系,还是推文中显露的情绪。更重要的是,抽样的必要性消失了。

网络科学权威 Albert-László Barabási 想在整个人口的规模上研究互动。他与同事分析了某欧洲国家一家运营商的匿名手机通话日志,覆盖该国五分之一人口,时长四个月。这是第一次在社会层面对整个社会网络做如此大规模的研究,真正意义上的 n = all。在这样千万级人群、跨越时间的视野下,他们得到了一些其它方法难以揭示的新洞见。

耐人寻味的是,与小样本研究相反,他们发现:若从网络中移除“在社区内部有很多连接的人”,剩余的社会网络会退化但不崩溃;而若移除“把社区连接到外部的人”(即跨社区的桥接者),网络会瞬间瓦解,仿佛结构被抽走了支柱。这是重要而出人意料的结果:看来**“密友多”的人对网络稳定性的作用不如那些“连接远方他群”的人**。这提示我们,群体整个社会重视多样性与外向的连结

我们往往把统计抽样当作某种不变的基石,仿佛几何公理或万有引力。但这个概念其实不到一百年历史,诞生于特定技术约束下,为解决特定问题而设。如今那些约束已不再如昔。在大数据时代抓“随机样本”,就好像汽车时代还抓着马鞭不放。当然,在某些情境中我们仍会抽样,但它不必、也不会成为分析大规模数据集的主流方式。我们将越来越多直取“全集”


第33页(第32–33 页跨页标题页,以下为正文)

3 MESSY(凌乱)

越来越多的情境中,使用所有可得数据已变得可行。但它也有代价:数据量越大,不准确的门便越开。确实,错误数值损坏位一直会混入数据集;过去我们把它们当成问题、力求清除,部分是因为别无他法。我们过去从未把它们看作不可避免之物并学着与之共处——而这,正是从小数据转向大数据时的一项根本性转变

小数据的世界里,减少误差、确保高质量几乎是本能。因为我们只收集到很少的信息,所以就格外在意把记录的每一个数字都做到尽可能准确。几代科学家不断优化仪器,让测量更精确:不论是测天体位置,还是显微镜下物体的尺寸。抽样世界里,准确性更是关键:分析少量数据点时,误差会被放大,可能污染整体结果。

历史上,人类最伟大的成就很多都来自用测量征服世界的冲动。13 世纪中叶在欧洲兴起的度量标准化运动,开启了对时间与空间的精确量度——正如历史学家 Alfred Crosby 所言,这是对“现实的度量”。

如果能测量一种现象,我们便相信能够理解它。后来,测量与科学方法相连:能量化、能复现、能呈现可重复结果。“测量即认知”,开尔文勋爵断言。培根宣称“知识就是力量”。与此同时,数学家与后来出现的精算师、会计师,发展了准确收集、记录与管理数据的方法。

19 世纪,当时的科学强国法国建立了精确定义的度量体系来捕捉时间、空间等,并推动他国采纳相同标准,甚至把国际公认的原型单位铺进条约。这是“测量时代”的巅峰。然而仅仅半个世纪后,20 年代量子力学发现粉碎了“完全、完美测量”的梦想。即便如此,在物理学之外相对较小的圈子之外,人类追求无瑕测量的心态仍在工程师与科学家之间延续;在商业世界,这种心态甚至扩张,因为数学与统计等理性科学开始影响商业的方方面面。

不过,在今天新出现的很多场景里,允许不精确——允许凌乱或许是一种优势,不是缺陷。这是一种权衡放宽允许的误差标准,我们就能拿到更多数据。这并非简单的“量多胜过量少”,而是有时“量多胜过更精”。

“凌乱”有很多种含义。最简单的一种,是数据点越多错误出现的概率就越大。比如把桥梁的应力读数增加到一千倍,确实会更可能出现……


第34页

……错误。但也可以通过融合不同来源的不同类型信息(它们并不总能对齐)让“凌乱”增加。举例说,用语音识别把呼叫中心的投诉转成文本,再把这些数据与接通处理时长相比较,会让我们得到一张不完美但有用的快照。凌乱也可指格式不一致,需要先**“清洗”。称呼 IBM 的方式就有一箩筐,从 I.B.M.T. J. Watson LabInternational Business Machines。当我们抽取或处理数据时也会引入凌乱,因为我们在把它转化成别的东西**,比如在做情感分析来预测好莱坞票房收入。凌乱本身,就是凌乱

设想我们要测一个葡萄园的温度。如果只有一个传感器覆盖整块土地,就必须保证它始终准确工作正常——不允许凌乱。相反,如果为上百条葡萄藤各装一个传感器,我们可以使用更便宜、更简单的设备(只要它们没有系统性偏差)。某些时刻个别传感器可能会报错,造成一个不那么精确、更“凌乱”的数据集;但很多读数的聚合会给出更全面的图景。因为这个数据集包含更多数据点,它提供的价值远大于它所带来的凌乱。

再设想我们提高采样频率。若每分钟测一次,数据到来的时序基本完美。可若改为每秒十次或一百次,时序的准确性就不那么确定了:信息在网络中传输时,记录可能延迟乱序,甚至丢失。信息会更不精确,但它的巨大体量让我们有理由接受不那么严格的“精确”


第35页

在第一个例子里,我们牺牲单点精度换来广度,收获了原本看不到细节;第二个例子里,我们放弃严格时序换来高频率,从而看见原本捕捉不到变化。也许,砸足资源可以压下误差(比如在纽约证交所每秒 3 万笔交易里时序很重要),但在许多情形下,容错防错划算

因此,我们可以为了规模接受一些凌乱。正如技术咨询公司 Forrester 所说:“有时候2+2 可以等于 3.9,那也够用了。”当然,数据不能离谱,但我们愿意牺牲一点精度来换取趋势性认识。大数据把“精确数值”转变为更概率式而非确定式的东西。这个转变需要我们慢慢适应,它自身也带来问题(本书后文会讨论);此处只需记住:当我们放大规模时,常常需要拥抱“凌乱”

类似的转变也体现在**“更多数据”相对于“更强计算”的重要性上。大家都知道摩尔定律让计算能力与存储不断提升;但鲜有人意识到,驱动许多系统的算法性能也提高了,而很多提升并非来自更快的芯片或更聪明的算法,而是因为数据更多**。

象棋程序来说,过去几十年它们的算法变化不大(规则固定、空间很小);电脑下得比过去好,部分原因只是残局数据库更大。如今六子以内的残局都被完全解析,所有可能局面都被存入巨表,压缩后也要**>1 TB**;这让程序在残局中几乎完美。没有人类能记住那张表,但电脑可以查表制胜。

更多胜过更好”这个命题在自然语言处理领域得到了极有力的证明。大约在 2000 年,微软研究员 Michele BankoEric Brill 想改进 Word 的语法检查。他们不确定是应该改算法发新技术,还是加新特征。于是他们首先试了另一条路:把更多数据喂给现有算法。多数机器学习算法靠百万词级的语料。Banko 与 Brill 选了四类常见算法,依次把语料扩到千万词、亿级词、直至十亿词

结果令人瞠目:数据越多,四类算法全都显著提升。原先在半百万词最差的那个简单算法,在十亿词上反而胜过其它算法,准确率从 75% 提到95% 以上;而原先在少量数据上表现最好的算法,在大数据上则相对落后(尽管也有提升)。他们写道:也许我们该重新审视“把钱与精力花在算法开发上,还是花在语料扩充上”的权衡。

所以,“多即是好”。有时,“”甚至比“更聪明更聪明。在 Banko 与 Brill 把海量数据铲给算法后的几年里,谷歌的研究者也在做类似的事——但规模更大。他们不是用十亿词,而是一万亿词。谷歌此举不是为了做语法检查,而是攻克更硬的核桃:机器翻译

所谓机器翻译,自 20 世纪 40 年代计算机诞生以来就让先驱者们心驰神往。冷战时期,当美国截获大量俄语文本与录音、却人手不足时,这一需求尤为迫切。1954 年,IBM 用 250 对词汇与 6 条语法规则,让 701 计算机把 60 句俄语“顺利”译成英语;项目负责人预测,**五年(也许三年)**内机器翻译会成为“既成事实”。

但这开局的成功极具误导。到 1966 年,机器翻译权威委员会承认失败:问题比想像困难得多。教会计算机翻译不只是规则,还得教它例外;翻译不是死记硬背,而是要在多种备选择其最当——“bonjour”究竟是“早安”“白天好”还是“你好”?答案往往是:看情境

80 年代末IBM 的研究者有了新想法:别把显式语言规则词典塞进计算机,而让计算机自己统计估计——给定语境,哪一个词或短语最可能对应另一语言中的恰当表述90 年代,IBM 的 Candide 项目用上了十年加拿大议会的英/法语对照记录……


以上为你给到图片中的全部页(19–37 页)的逐页全文直译。如果你需要我把这些译文整理成双语对照、做关键术语表、或提炼要点摘要/思维导图,告诉我你想要的格式即可。好的,继续按你给的图片顺序逐页翻译(第 38–49 页)。和上一次一样,我做尽量忠实的意译,保持段落结构与小标题;个别图片里极少数字或专名不清的地方,用“数以百万/上亿”等保守表述,不影响原意。


第38页

……在 20 世纪 90 年代,IBM 的研究者把这种思路推进成统计机器翻译:不是教计算机“规则”,而是让它自己根据大量双语材料去估计在给定语境下哪个词/短语最可能对应另一种语言中的表达。后来发展出的短语级模型效果更好,能把多词组成的片段作为单位来比对。到了 2000 年代中期,谷歌将其极大规模化:它从网络、新闻机构与公开语料里收集了海量句子对,把一种语言中的表达与另一种语言中实际出现的翻译进行匹配。2006 年面世的 Google Translate 就是建立在这套方法上的。虽然它并不理解语言的“本质”,但效果却非常不错。正如谷歌研究员所言,它依赖的不是完美的语言学理论,而是不可思议的多数据

若要把任何两种语言都能互译,所需数据量会指数级增长;谷歌采取了一个折中:大量语言先译成英语,再从英语译向别的语言——把英语作为“中枢语”。这显然不是最优,但却灵活、可扩展、又实用。而且,随着数据越来越多,系统能自动纠错并改进。谷歌把这种路线总结为《数据的不合理有效性》:在语料足够庞大时,简单模型 + 海量数据往往胜过复杂模型 + 小数据。

小标题:More trumps better(“更多”胜过“更好”)

对受过传统训练的统计学家和分析师来说,“凌乱而大量的数据”曾是逆耳的——他们一向把全部心力放在减少噪声、提高精度上。可这些年里,无论在语音识别、机器翻译,还是垃圾邮件过滤、搜索排序等领域,人们屡屡发现:与其投入巨大精力追求更精妙的算法,不如先设法获得更大的样本更全面的特征。不少团队采用多重报告/多源数据策略:允许各路数据有瑕疵,但靠数量覆盖面来抵消它们带来的误差。


第40页

当我们说“更凌乱的数据可能更好”时,并不是在鼓吹草率。真正的意思是:在很多情境里,与其让昂贵的技术和严格的流程去榨取极少量但极精准的信息,不如以更低成本收集更大规模的数据,然后用合适的方法容纳其中的不完美。传统做法把注意力放在把误差压到最低;而大数据的做法更像是:在可接受的误差内,换取更大的覆盖更快的时效

通货膨胀为例。按常规,政府统计部门会选取一个“固定篮子”的商品,追踪其价格变化来估算通胀。这种方法有两大难题:其一,篮子里的商品并不总能反映真实消费;其二,价格采集昂贵滞后。于是,麻省理工学院的研究者创建了“十亿价格计划”(Billion Prices Project),每天从网络上自动抓取大量商品价格,构建更实时的通胀度量。这样做显然更凌乱:商品不统一、网站不同、价格含税/运费口径不一致……但规模与频率弥补了这些缺点。事实证明,它可以及时捕捉到经济变化的拐点,在不少时期对通胀趋势的把握先于官方统计。

另一方面,美国劳工统计局的消费者价格指数仍然是权威,它的严谨口径对投资者雇主政策制定者都至关重要。二者并行并不矛盾:官方指标提供制度化的可比性,而网络价格则提供更高的时效性。在大数据时代,我们不必非此即彼


第41页

“从少到多”的迁移不仅意味着技术变了,也意味着一种观念上的转弯:我们不再把“样本”当成理所当然的唯一途径。当采集成本骤降、计算能力攀升时,“把能用的数据都用上”变得可行。的确,更大更杂的数据会带来新问题:如何校准误差、如何控制偏差、如何避免把噪声当成信号。但这些问题可被管理;相反,如果采集的只是少量而且高度控制的数据,很多真正重要的模式就会被永远遗漏


第42页

小标题:Messiness in action(凌乱在实战中的力量)

在技术与社会的许多角落,我们正在主动选择“更多且较乱”的数据,而不再执念于“少而极准”。以图片为例。早年的做法,是工程师和审稿人对少量照片做严格标注。如今,我们有了数以亿计带有EXIF 信息的照片:时间、地点、设备型号,甚至地理坐标。虽然它们的口径并不统一,质量参差不齐,但当你把这些碎片合在一起,就能看见人群活动旅游热点城市节律等宏观图景——是过去想都不敢想的。

再看网络价格。研究者阿尔贝托·卡瓦罗与罗伯托·里戈邦把这种理念发展成一个商品价格数据库,覆盖许多国家数千家网站,可每日更新。他们还把这类“非官方”的价格指标商品化实时通胀服务,供金融机构参考。你可以说这些数据不够干净,但它们反映快速覆盖更广,在识别转折上尤其有用。


第43页

更广泛地说,互联网上的几乎一切行为都在留下数据痕迹:搜索、购物、打车、上网课、运动、看剧、散步……当我们上传照片或视频时,平台会记录下海量的上下文信息。以前我们在分析时只能依赖小心设计的抽样调查;如今我们可以把搜索日志社交互动地理定位交易记录多源拼在一起,获得更深的洞察。当然,拼接意味着更多不一致更多噪声,但价值常常远大于它带来的麻烦。


第44页

然而,要真正发挥“多且杂”的威力,我们在数据基础设施上也要做出改变。传统的、所谓关系型数据库(SQL)要求先定义好数据表结构,再把数据按结构写入。这种“先定模式,再写入”(schema on write)在过去很合理:它保证一致性强约束。但在规模越来越大、来源越来越多、结构越来越各异的今天,这种方式会让我们步履沉重。如果每一种新数据都要先设计结构、写转换脚本、做校验再入库,我们就会在准备阶段耗掉大量时间与成本。

于是,出现了新一代数据库设计,它们打破了旧有的“记录必须干净整齐”原则:像键值存储列式数据库文档数据库乃至图数据库等,支持把原始数据囫囵吞下,然后在读取分析时再决定如何解释——所谓“读时定模式”(schema on read)。这并不意味着可以随便来;而是承认在“速度与灵活性”与“一致性与整洁”之间,存在可管理的权衡。这些系统常常牺牲部分强一致性,换取更高的可用性分区容忍度(工程师会提到著名的CAP 定理)。


第45页

对很多企业而言,这种转向带来的收益是立竿见影的。以前,一条数据从采集可分析,往往要经过繁琐的清洗建模;而在更灵活的系统里,我们可以先收起来,哪怕它格式各异字段缺失,待到真正需要时再按需解释。这使得我们能对未预见的问题也做出快速响应。当然,“”的代价是:不再保证处处严丝合缝;而这正是“大数据思维”的要义之一。


第46页

“凌乱也有用”的另一个生动例子来自风控。传统信用评分高度依赖整齐划一的资料:收入、负债、还款记录等。可对某些未被传统系统覆盖的人——比如缺少信用历史的年轻人或新移民——这些指标并不齐全。一家名为 ZestFinance 的公司(由前谷歌高管创立)尝试使用大量非传统信号:填写表格所用的时间节奏、是否反复修改信息、是否一次完成、在网站上点击的路径、设备与网络指纹、甚至拼写/大小写等细节。单看这些信号各自都很嘈杂,难以直接解释;但把它们成百上千个地组合起来,并用机器学习去捕捉复杂的模式,就能补足传统评分的盲区,预测违约概率。他们的口号是:数据越多,猜得越准。其含义并非“瞎猜”,而是承认许多小线索汇在一起能形成有力的判断。


第47页

当然,接受凌乱并不等于放弃质量。真正的要点是:在时效、覆盖精度、可控之间做透明的折中。在一些对账务或医疗这样的领域,我们仍需强一致性可追溯;而在市场预测、风控、推荐、运维监测等很多场景里,“足够好且更快”往往胜过“极准但太迟”。社会正在发生一种悄然的双重转变:第一,对速度的偏好在上升;第二,对信息完美程度的执念在降低。我们不会因此抛弃严谨,而是把它放在该放的地方


第48页

回头看,我们之所以曾经把“精确”捧得那么高,部分原因是我们只能收集到很少的信息,只得把它打磨到极致。而在今天,当我们能收集到更大量更多样的数据时,我们应该允许一定的不完美,并学会从“远处”去观察整体:靠更多样的例子更广的覆盖来弥补单点的不准。的确,这要求我们在观念上作出让步:承认“圆钉有时需要敲进方孔”;承认对某些问题,唯一的好答案不是“完美的解释”,而是“足够可靠的预测”。


第49页

这种心态的转变越激进,它带来的后果深远:不仅改变政策制定,也改变我们理解世界的方式。我们会更愿意根据数据显现的相关关系去行动,而不是等到我们完全弄清楚其背后的因果机制。这引出下一章的主题:在许多场景中,识别并利用相关,或许已经足够好


需要我把第 19–49 页合在一起做一个双语对照 PDF、或抽出关键词/术语表思维导图吗?