关键技术

  • 运动跟踪 (motion tracking) 使得手机理解和追踪它相对于世界的位置。
  • 环境理解 (environmental understanding) 使得手机可以侦测各种表面的尺寸和位置:水平的,竖直的,成一定角度的,比如地面,咖啡桌或者墙面。
  • 光线评估 (light estimation) 使得手机可以估计环境当前的光照条件。

ARKit

ARKit 3

ARKit 3 带给人们不可思议的体验。通过 People Occlusion,ARKit 3 知道人们和 AR 对象在哪里,并适当地遮挡 scene。ARKit 3 使用 Motion Capture 跟踪人们的运动,将其输入到 AR scene 中。它还可以同时跟踪最多三张人脸,支持 collaborative sessions 等等。

People Occlusion

现在 AR 内容能呈现在人们的身后和前面,使 AR 体验更加沉浸化。同时,在大多数环境能实现绿幕风格的效果。

Motion Capture

用一台相机实时捕捉人们的运动。通过将人们身体的位置和运动,理解为一系列关节和骨骼,您可以使用运动和姿势作为 AR 体验的输入 —— 将人们放置在 AR 的中心。

Simultaneous Front and Back Camera

现在,你可以在前置和后置摄像头上同时使用人脸和世界跟踪。例如,用户可以只使用他们的脸部,与后置摄像头的 AR 内容交互。

Multiple Face Tracking

现在 ARKit 人脸跟踪可以一次跟踪最多三张人脸,使用 iPhone X, iPhone XS, iPhone XS Max, iPhone XR 和 iPad Pro 的 TrueDepth 摄像头。该摄像头为 Memoji 和 Snapchat 等前置摄像头的体验提供能力。

Collaborative Sessions

通过多人之间的实时协作会话,您可以构建一个协作的 world map,让您更快地开发 AR 体验,让用户像进入多人游戏一样,更快地进入共享的 AR 体验。

其他改进

一次检测多达 100 幅图像,并自动地估计图像的物理大小。3D 对象检测更加稳定,因为对象在复杂环境中可以更好地被识别。现在,机器学习被用来更快地检测环境中的平面。

Reality Composer

Reality Composer 是一款针对 iOS 和 Mac 的功能强大的新应用,可以轻松创建交互式 AR 体验,而无需 3D 经验。可以使用 live linking ,在您的 Mac、iPhone 和 iPad 之间无缝地移动。 RealityKit 是一个全新的高级框架,包含 photo-realistic 渲染、相机特效、动画、物理等功能,专为 AR 而构建。

现在,任何人都可以快速地原型化和制作 AR 体验的内容,这些内容可以使用 Xcode 集成到应用程序中或者导出到 AR Quick Look 。Reality Composer 让您在 iOS 和 Mac 上构建动画和交互,以丰富您的 3D 内容。

Built-in AR Library

导入您自己的 USDZ 文件,或者利用内置 AR 库中数百个现成的虚拟对象。该库为各种 assets 利用 procedural content generation ,您可以自定义虚拟对象的大小、样式等。

Animations and Audio

增加移动、缩放等动画,比如虚拟对象的 “摆动” 或 “旋转”。当用户点击对象、靠近对象或触发其他触发器,您可以选择要进行的操作。您还可以利用 spatial audio 为您的 AR 场景添加真实感。

Seamless Tools

Reality Composer 被包含在 Xcode ,也是一款 iOS APP 。因此您可以在 iPhone 或 iPad 上 build 、 test 、 tune 和模拟 AR 体验。利用 live linking ,您可以在 Mac 和 iOS 之间快速切换,创建吸引人的复杂的 AR 体验。

Record and Play

有了 iOS 版的 Reality Composer,您可以记录 AR 体验运行位置的传感器和摄像机数据,然后在构建 APP 时在 iOS 上播放这些数据。

RealityKit

这个全新的高级框架是从头开始创建的,专门用于 AR ,包括 photo-realistic 渲染、相机特效、动画、物理等等。它还有一个 Swift API 。使用集成的 ARKit 、基于物理的渲染、变换和骨骼动画、 spatial audio 和刚体物理, RealityKit 使 AR 开发比以往任何时候都更快、更容易。

World-class Rendering RealityKit

使用基于物理的真实材质、环境反射、 grounding shadows 、 camera noise 、 motion blur 等,将虚拟内容与现实世界无缝融合,使虚拟内容与现实世界几乎无法区分。

Scalable Performance

RealityKit 利用最新的 Metal 特性充分利用 GPU ,充分利用 CPU 缓存和多核,提供难以置信的流畅的视觉效果和物理模拟。因为它自动地伸展每个 iOS 设备的 AR 体验的性能,所以您只需要创建一个 AR 体验。

Swift API

容易使用但功能强大的 RealityKit 使用 Swift 丰富的语言特性并提供完整的功能。因此您可以更快地构建增强现实体验,而无需抄模板代码。

Shared AR Experiences

RealityKit 使网络开发工作变得简单,例如保持一致的状态、优化网络流量、处理数据包丢失或 performing ownership transfers 。


古典时期 (Classical Period)

最早寻求事物的自然或俗世解释而非神的解释的思想家,是古希腊学者泰勒斯 (Thales)、毕达哥拉斯 (Pythagoras) 和德谟克利特 (Democritus) 等人。但最先思考如何获得知识的 是两千三百多年前的柏拉图 (Plato) 和亚里士多德 (Aristotle) 。

对柏拉图来说,外部世界及其中的事物,只是它们理想形式的不完美投射或影子。这些理想形式往往被描绘成在墙上投下影子。

柏拉图是一个 哲学实在论者 (philosophical realist) 。他认为 现实 (reality) 即理想世界,是独立于人的思想之外存在的。对他来说,这些理想并非只是我们心中的抽象概念,它们真实存在,但独立于物质世界之外。

他认为既然我们看到的物质世界是真实的 不完美投射 (imperfect reflection) ,我们就不能从感官经历中认识到 现实的本质 (the true nature of reality) 。他坚信理想形式的知识只能通过推理论证获得。所以柏拉图被称为 理性主义者 (rationalist)

他的学生亚里士多德也是个实在论者。他认为现实独立存在于人类的思想之外。但对亚里士多德来说,现实就是物质世界,没有单独的抽象形象存在。在如何了解事物本质上,他也与柏拉图意见相左。亚里士多德是 经验主义者 (empiricist) 。他认为感官经验准确地代表了现实。所以我们可以用感官去理解现实。他认为,归根结底知识来源于观察。但这并不意味着他仅对观察感兴趣,他依然将推理论证视作了解和解释自然的最佳方式。事实上,他建立了 形式逻辑 (formal logic) ,更确切地说是 三段论 (syllogism)

这有一个三段论的例子。

“所有人都会死去,而所有希腊人都是人类,因此所有希腊人都会死。”

如果两个前提为真,那么结论必然为真。把此结论当作新三段论的前提,我们就能积累知识。但这只在前提确实为真的情况下成立。看看这个:

“所有哺乳动物都长毛,而猫都是哺乳动物,所以猫全都长毛。”

第一个前提是错的,这就意味着结论不一定对,不是积累知识的好基础。

那么如何确保前提是正确的呢?你可以用另一个三段论来证明它。但当然你需要不停地证明这些前提,有一套你认为毫无争议的初始前提。亚里士多德认为,这些 基础前提 (fundamental premises) ,可以通过观察世界的基本形式或规律来决定。不巧他并未意识到他的某些观察选择性太强,导致一些基础前提在我们现在看来错得彻彻底底。比如,以他的观察为依据,昆虫有四条腿,男人比女人的牙齿多。

亚里士多德可能看到蜉蝣用四条腿走路得出了这个结论,但实际上蜉蝣与其他昆虫一样都有六条腿。也有可能他检查了自己和那些男性朋友的牙齿,但只查看了女佣的牙齿,她们更有可能因为营养不良而牙齿变少。他并没有意识到这点,他的观察是不准确的。即便如此,他和柏拉图的观念仍在近两千年内占据了主流。直到 16 世纪末期,人们才意识到他们的观点是有缺陷的。

他们时代之后的科学方法是如何发展的呢?古希腊人有很多科技进步。比如,托勒密 (Ptolemy) 将行星运动描述为:地球位于宇宙的中心,静止不动;其他行星,包括太阳都沿着各自的小轨道绕地球运动。必须要加上这些大环套小环,才能解释行星有时逆行的奇怪现象。

托勒密的模型能进行准确的预测,但人们并不认为它描述了真实的行星运动,它只能解释现象。

希腊城邦消亡后,在罗马帝国的兴衰更替间,以及中世纪的最初几百年,几乎没有任何科学进展。柏拉图和之后亚里士多德的哲学观点一直是主流,直到 16 世纪末新的科学革命拉开了启蒙时代的序幕。

让我们来看看哪些进步最终引导了革命。

首先,阿拉伯和波斯学者比如伊本・哈桑 (Ibn al-Hasan) ,比鲁尼 (Al Biruni) 和伊本西纳 (Ibn Sina) 开始使用系统观察和实验。强调无偏见的观察,而不只是逻辑推理。之后,在前人的基础上,英国的格罗斯泰斯特 (Grosseteste) 和罗杰・培根 (Roger Bacon) 提倡使用归纳 (induction) 与演绎 (deduction) 。

归纳 (Induction) ,即通过特定观察得到一般解释。 演绎 (Deduction) ,即用一般解释预测特定结果。

第三个重大发展是印刷机的发明,这为科学革命创造了极好的条件。更多学者的成果得到了广泛的传播,其中就包括哥白尼 (Copernicus) 的《天体运行论》(De Revolutionibus Orbium Coelestium) ,这是引领科学革命的第四个重大发展。在哥白尼的新行星运动模型中,行星包括地球都围绕太阳运动。这与当时的宗教教义不符,教会接受亚里士多德和托勒密的模型,即地球位于宇宙中心。很多历史学家认为,哥白尼不敢发表他的成果,因为他害怕教会会因为违背教义惩罚他。但他最终还是发表了他的新模型,但加上了给教皇的特别献词,声称如果托勒密能炮制一个轨道怪异且只能解释现象的模型,那么他也应该享有同等的自由。他暗示他的模型仅仅是个实用的模型,而不是确切的表述。

他是否真心相信这一点也不得而知,不久他就与世长辞了。在这之后 60 年都没有引发骚动。很多人认为,科学革命和启蒙时代由哥白尼而始,但其他人认为荣誉应该归于第一个拒绝向天主教低头,坚持认为日心说模型才是现实的真实描述的人。

这个人就是伽利略・伽利雷 (Galileo Galilei) 。


启发 (Enlightenment)

伽利略 (Galileo) 被认为是现代科学之父,因为他开始将科学从哲学、伦理学和神学中分离,这些原来都在天主教的严格管控之下。

有人已经默默拥护基于 观察和实验 (observation and experimentation) 的科学方法,而不是使用 神学推理 (theological reasoning),但伽利略是第一个这样光明正大做的人
。他也反对亚里士多德的几个理论,这些理论被天主教视为教义。

例如,他驳斥了亚里士多德说重物落地比轻物更快的观点。伽利略用了思想实验来证明这个观点,表明除了观察,他也重视 逻辑推理 (logical reasoning) 。当然,他最出名的是质疑亚里士多德和托勒密有关地球是宇宙中心的观点。他支持哥白尼的日心,即太阳是宇宙中心。伽利略对金星进行了系统的观察,发现行星只有绕太阳转而不是绕地球转才说得通。

哥白尼认为,日心说模型恰恰解释了这个现象,说明该模型准确预测了我们对行星的观察,但他却说这模型并非反映物理现实。相反,伽利略却毫无顾忌地声称地球就是绕着太阳转的。

天主教不喜欢伽利略离经叛道的想法。他们对伽利略进行宗教审判,把他软禁起来直到去世。

发明笛卡尔坐标系的 勒内・笛卡尔 (René Descartes) 和伽利略是同一时代的。虽然笛卡尔也反对亚里士多德许多的观点,但他同意知识应当基于 第一原理 (First principle) 。因为他认为我们的感官和思想很容易被欺骗,他决定放弃所有哪怕只有一点点疑问的想法。一旦移除了所有的怀疑,就只剩下一点可以确定 —— 即他在思考,那么他一定存在。我思故我在。

他最终得出结论:我们只能用 推理 (reasoning) 来了解世界本质。

弗朗西斯・培根 (René Descartes) 和笛卡尔一样,认为科学知识应当基于第一原理。但和笛卡尔相反,培根坚持认为这只能通过 归纳法 (inductive methods) 。归纳法就是把对特定实例的观察,用于总结普遍规律或解释。假设我每次碰到的天鹅都是白色的,我就能归纳出普遍规律:所有天鹅都是白色的。培根相信,不仅仅是第一原理,所有的知识都只能用归纳法获取,也就是这种基于感官经验总结出解释的方法。这就是为什么他被视作 经验主义 (empiricism) 之父。经验主义就是关于经验或观察。

大卫・休谟 (René Descartes) 把经验主义发挥到了极致 —— 只接受感官数据为知识来源,且摈弃与直接观察结果不符的理论概念。他认为现实的本质只由物体的特征组成,而不是物体本身。经验主义的极端形式叫做 怀疑主义 (skepticism) 。我来给你举个例子,比如有个实物 —— 一只猫。什么使得这只猫能成为猫 是它的各种属性 它的尾巴、胡须、颜色、皮毛、体型。如果把组成猫的属性都移走,那剩下的是啥都没了,猫的本质埋藏在其特征中。

休谟也指出了归纳法的问题:即使持续反复观察一个现象,但也没法保证下一次观察到的和前一次相同。

至少在欧洲人的长期观念中,所有的天鹅目击记录都证明天鹅是白色的。直到在澳州发现黑天鹅后,才知道原来还有黑的。换句话说,即使再多的验证观察,也不能确实证明关于世界的科学命题是真的。所以如果你要求所有的知识都只能基于观察,那么你永远不能确定你知道些什么。

19 世纪初,部分是针对休谟的怀疑主义, 德国唯心主义 (German Idealism) 的哲学运动流行起来。唯心主义者相信我们的精神构筑了现实,我们对世界的体验是精神的重构,因此科学探索应当专注于通过自身推理能获得什么。唯心主义者主要关注的问题是非物质的东西,像自我、上帝、本质、存在和因果,他们也因使用模糊和过度复杂的语言而受到强烈批评。

在十九世纪第二次工业革命前夕,科学家开始对唯心主义者的形而上学失去耐心。在科学、医药和技术飞速发展的时代,他们对存在本质的思考变得越来越没用。在 20 世纪初,一种新的科学哲学登上舞台,提议彻底返回经验主义,这项运动叫做 逻辑实证主义 (logical positivism)


现代科学 (Modern Science)

第一次世界大战过后,由于不满于德国那群专注于知识的第一原理和世界的本质的唯心主义者的 形而上学 (metaphysics) ,一群数学家、科学家和哲学家组成了维也纳学派 (Vienna Circle)。

维也纳学派的成员,摩里茲・石里克 (Moritz Schlick)、奥托・诺伊拉特 (Otto Neurath) 和鲁道夫・卡纳普 (Rudolf Carnap) 认为唯心主义者关于自我存在的问题毫无意义,因为这些问题无法回答。他们提出了新的科学哲学思想 —— 逻辑实证主义 (Logical Positivism) 。它重新将科学定义成是研究对世界有意义的命题。那么,要使一个命题有意义,它必须可验证,也就是有验证标准。这意味着要能确定命题的真实性。

有意义的命题有两种: 分析命题 (analytic statements)综合命题 (synthetic statements)

分析命题会 同义反复 (tautological) ,一定是真的。比如说,单身汉未婚,所有正方形都有四条边。这些是 先验命题 (priori statements) ,如定义和纯逻辑命题。它们不取决于世界的状态,因此也不需要通过观察来验证。它们可以被运用在数学和逻辑中,分析命题的新组合可以用形式逻辑验证。

综合命题依存于世界的状态。比如说,所有单身汉都快乐和所有猫天生都有尾巴。这些命题是 后验的 (posteriori) —— 它们只能通过观察验证。逻辑实证主义者认为,这些命题应始终可公开研究。同时,命题不许提及无法观察的实体,如电子或重力,因为它们无法被直接观察到。如果命题提及了无法观察的实体 或不是同义反复的,或不合逻辑的,或经验上不可验证的,那么它就是无意义的。这样一来,形而上学、神学和伦理学之类的主题,就完美地从科学中被剔除了。

当然,源自观察的标准和验证无法处理归纳法问题。明确证明或验证一个命题的确切证据永远都不够。总有可能在未来发现矛盾的地方。所以就把验证标准的强度弱化了,只要求确认而不是验证就可以了。

另一个非常严格的规则也必须改变了 —— 不许提及无法观察的实体造成了大麻烦:像电子、重力和抑郁这种无法被直接观察,但它们在科学解释中是不可或缺的。

这些以及归纳法问题,使逻辑实证主义出现了一个更温和版本 —— 逻辑经验主义 (logical empiricism)

卡尔・波普尔 (Karl Popper) 也被戏称为维也纳学派的官方反对者,是他们的主要批判者之一。他认为要区分命题是否有意义,应建立在 可证伪性 (falsification) 的标准上,而不是能否 证实 (verification)

他认为,我们永远不能用观察来确切验证或证明一个命题,但我们可以用与之矛盾的证据有力驳斥。他认为一个命题必须有可证伪性才有意义。他提出科学家应该积极进行冒险的实验,它们能把找到与假说矛盾的证据的可能性最大化。如果我们找到了这样的反面证据,就能从中找到改进假说的线索。 只有反面证据缺失时 该假说才能暂时成立。

现在,威拉德・冯・奥曼・奎因 (Willard Van Orman Quine) 证明,这个标准也有问题。在杜恒 - 奎因论题 (Duhem-Quine thesis) 中,他认为没有假说能够被单独验证,总有 背景假设 (background assumptions)辅助假设 (supporting hypotheses) 来支持。如果找到了反面证据,根据波普尔的理论,我们的科学解释是错的,应该被驳回。但根据奎因的理论,我们总可以驳回某个背景假设或辅助假说,而不是科学解释本身。这样就挽救了原始假说。

托马斯・库恩 (Thomas Kuhn) 指出,科学并非脱胎于验证或证伪原则的严格应用。如果数据与假设不符,假设不会被立刻驳回或修改,科学是在一定的框架或 范式 (paradigm) 内进行。建立的假说要适用这个范式,意外结果使假说需要修正。但只要其适合范式即可。但当越来也多的反面证据累积起来,危机就出现了 这就导致了 范式转换 (paradigm shift) 。新的范式被采用,然后循而往复。

即使变成较弱形式的逻辑经验主义,逻辑实证主义也不能从波普尔、奎因等人的批判中幸存。所以,我们发展出一种更实用的科学哲学。如今的科学家采用 假说 - 演绎法 (hypothetico-deductive method),其结合了归纳和演绎的方法;要求可证伪性;仅在假说有临时支持时接受重复确认。

哲学层面上,很多科学家可能会喜欢巴斯・范・弗拉森的 建构经验主义 (constructive empiricism) ,其主张科学是为了产生基于大量经验的理论。知识需要观察,但不可观察的实体也是允许的。接受一个科学理论并不意味永远认同 —— 这是对世界的真实表述。建构经验主义者认为,只要在观察范围内,即可接受科学主张为真实。该命题是否真实代表了不可观察的实体,我们无需判断,这只是目前对观察结果的最佳解释,仅此而已。


非科学的方法 (Non-scientific Methods)

为了知道为什么我们需要科学方法,让我们来看看在日常生活中人们的认知基于什么。

人们可能会基于 直觉 (intuition)信念 (belief) 而认为某事是正确的。

让我们来看下我对我的猫 Misha 所拥有的坚定信念:我相信 Misha 在所有人中最爱我 —— 我就是知道他爱我胜过其他所有人,我能在内心深处感受到。那么这种信念算不算是知识的坚实基础?并不是,简单地相信某件事并不会让它成真。我们坚信不疑的事情可能最后被证明是假的。还有,如果有人持相反的观点会怎样?如果我的未婚夫认为 Misha 爱他多一些呢?

仅仅通过较量我们的观点,是无法得出谁对谁错的。

我们可以数每个观点的支持人数,然后得到一个大部分或是 一致同意的观点 (consensus) ,但是这也不能作为知识的坚实基础。仅因为大部分人认同某事是并不意味着它就是真的。几世纪以来,几乎人人都认为地球是平的,但结果证明他们错了 —— 地球是圆的。

另一个知识的来源就是 权威 (authority) 的观点。这也不是一个很好的来源。一些诸如政治领袖、专家、科学家等权威的观点,也只是一种观点。权威或许能接触到更多或更好的知识,但他们出于个人利益也会推动自己的观点被大众接受,他们的职业和名誉都依赖于此。假设我的未婚夫找到了一个懂猫语的人,那人声称 Misha 更爱我的未婚夫。当然我会对这一专业观点表示怀疑,尤其当他是受我未婚夫雇佣的时候。我可以找到我自己的猫咪专家来和未婚夫的猫语者打擂台。但这时我们又有两个相反的观点了 —— 我们需要的是 证据 (evidence)

那么我们该如何用证据来解决 Misha 更爱谁的争论呢?

假设我总是 观察 (observe) 到每次下班回家后 Misha 总会过来坐在我的腿上而不是我未婚夫的腿上。我就运用了对客观世界,也就是对下班后 Misha 坐谁的腿上的 观察 (ovservation) 来证明我说的 Misha 更爱我这个 命题 (statement)

随机观察 (casual observation) 取证得到的认识,比前面其他方法了解到的认识更有根据一些,但这仍然不够好。 因为人们并不十分擅长观察 。我们倾向于 选择性观察 ,并且记住与我们观念相符的事情。比如我可能恰好忘记了, Misha 在早饭的时候总是坐在我未婚夫的腿上。

除了选择性知觉外还存在许多 偏见 (bias) ,会让随机观察成为一个棘手的认识来源。我们运用 逻辑 (logic) 的能力也是如此。 逻辑推理 (logical reasoning) 得出的认识看上去是有坚实基础的,但 非形式逻辑推理 (informal logical reasoning) 并不总是具有一致性。人们在日常生活中进行推理时,总会不停地出现 谬误 (fallacy)逻辑矛盾 (logical inconsistency)

如果想获得更准确的认识,确定我们对世界的解释是正确的,那就还需要点别的东西。我们不能依赖于主观的、无法证实的来源 —— 诸如信念、观点、舆论。我们也不能相信随机观察和非形式逻辑,因为它们可能被我们的信念严重扭曲。

我们需要 系统观察 ,摒弃任何偏见,辅以一致的逻辑。换言之 我们需要 科学方法


科学方法 (Scientific Method)

当我们试图解释世上事物运行原理时,为了确保知识有效,我们需要科学方法,而不是依靠观点、信念、随意观察和非形式逻辑。它们都太主观且容易出错。

科学方法基于 系统观察 (systematic observation)逻辑一致性 (consistent logic) 。使用科学方法,增加了我们得出正确解释的机率。同时,我们也可以通过科学方法鉴定 科学主张 (scientific claim)假说 (hypothesis) ,以及鉴定在我们实证研究中用来支撑假说的那些 经验证据 (empirical evidence) 的说服力。

科学方法有六大原则科学方法有六大原则。如果我们的研究符合这些原则,就能归为科学研究。

这个假说亦可以与其他科学论断一较高下,为我们的世界提供尽可能最好的解释。

第一条原则是:假说应该可以 在实证中检验 (empirically testable) ,即支持或反驳假说的经验证据、物证或观测结果都是可以收集的。

比如我假设家里的猫爱我多于我未婚夫。要实证检验这个假说,我们需要收集观察结果或数据。但如何观察这只猫对我们的喜爱程度呢?我们不能询问猫的看法。假设我们都认为猫是无法像人类那样表达爱意的,那就没什么好观察的了。所以这条假说不符合实证可检验的原则。

第二原则是:可重复性 (replicability) 。一项研究及其发现结果都应该具有可重复性。这意味着重复原研究是可以得到一致结果的。

如果预期结果只出现了一次,或出现次数极少,那这个结果可能只是巧合。如果一个假说能被重复确认,它会更为可靠。所以一项研究需要经受住重复和复制的考验。比如我说服未婚夫认同 “猫在谁腿上呆得久就更喜欢谁” 这个评判标准。现在我观察到这周猫趴在我腿上的时间,是它呆在未婚夫腿上时间的两倍。那意味着我的假说是正确的吗?猫咪就爱我多一点吗?如果接下来几周这个观察结果保持不变,那么我的假说就是靠谱的。但如果观察了一周这只猫就死了怎么办?如此一来我们就无法验证这个假说了,这个研究再也无法重复。

要验证结果是否可重复,我们必须按原研究的条件和过程进行重复。假如我们处理过程不同,于是得到了别的结果,这表明原研究不可重复吗?答案当然是否定的。重复失败可能是由于我们改变了程序。

第三原则是 客观性 (objectivity) ,指他人能自行重复该实验而无需求助原研究者。“客观” 的字面意思是谁来进行研究不重要。基于假说跟其程序的描述,每个人都应该得到相同的结论。因此研究者提出的假说、概念、程序应尽量客观。这要求清楚明确地定义所有研究元素,不给主观解释留任何余地。

假设我认为猫咪拿脸蹭我是示爱的表现,但我没有明确告诉我未婚夫这一条,那么我衡量爱意的程序就是主观的。即使我们同时对猫进行系统性观察,结果仍然会因观察者而异。较之我未婚夫,我会认为猫示爱次数更多。这个例子中的结论是主观的,因此不具有可比性,而我们经常对此毫无自觉。如果我们没有明确讨论并就示爱标志达成共识,那么我们的猫咪爱意衡量程序则不够客观。

第四原则是 透明性 (transparency) 。保持透明度与客观性原则密切相关。在科学界,不论是你的支持者还是批评者,任何人都应该可以重复得出你的结论。这要求研究者共享他们建立的假设 —— 如何定义概念、使用了什么研究程序,还有一切和进行精确复制相关的所有信息。

第五原则指出一个假说应该具有 可证伪性 。可证伪性是一个非常重要的原则。如果你能想象出一种情形会使观察与假说出现矛盾,那么它就是可证伪的。如果我们想不出有什么样的反例存在,那这个假说就不可能被推翻。

比如你问一个有坚定宗教信仰的人,有什么证据可以证明他们的信仰是虚假的?不管你提出什么样的反例,他们可能都要争辩。这些事实并不违背自己的忠诚信仰。这种仅源于纯信念的观点,比如宗教,是不属于科学范畴的。如果对任何形式的证据,该假说都不接受其为反例,那这个假说根本没有讨论意义,也不用再寻求证实,因为结论已经在那里了。

我们要讲的第六点也是最后的原则是 逻辑一致性 (logical consistency) 。一个假说应该保持逻辑上的一致或连贯。这是指假说不会有任何自相矛盾的地方。比如 ,一个支撑假说的子假设是否与假说冲突。

我们观察得出的结论也应该保持逻辑一致性。这就是说,在整个过程中,研究者对正面或反面证据的标准应该一致。

让我继续用猫的例子进行说明。我的假说是猫更爱我,所以预测他会在我腿上呆更久。但要是它趴在我未婚夫腿上更久呢?我会说猫能察觉到趴在我腿上让我不舒服,因为他爱我多一些所以照顾我情绪便趴得少了。显然,这就是逻辑不一致。为了让观察结果符合我的假说,我对观察结果进行了 “再解读”。顺便一提,这也会让我的假说无法证伪。不管猫是否常趴我腿上,我都会得出它爱我的结论。

总结一下,科学方法要求我们构造的假说为实证可检验的,这就是说观察结果可以支撑或反驳假说;可重复性,也就是假说是可以被重复测试的;客观性,指他人可以独立检验这个假说;透明性,指假说与结果都公之于人,以便他人检验;可证伪性,指找到反例的可能性是存在的。最后,逻辑一致性是指假说本身保持内在的一致性,支持或反驳假说的观察结论也应逻辑一致。

最后一点,科学方法只在态度端正的情况下才有效。为了提出更好的假说,研究者们应该对自己和他人的研究持批判态度,所以他们应该做到公开透明、乐于接受批判。如果别人有更好的解释,就放弃他们心爱的假说。如此,科学界才能像进化系统一样 —— 只有最合适、最可靠的假说存留下来。


科学主张 (Scientific Claims)

我已经讲过了有关我们周围世界的命题、假说以及解释,我没有准确解释就用了这些通用术语。是时候阐明清楚了。

关于周遭世界的科学主张,可分为不同类别。一些科学主张会比别的主张描述或解释更多现象。同样,某些科学主张对于我们周围的世界,命题、假说以及解释提供了更可信的描述或解释。我们发现某些主张会更准确一些,比起别的来有更多证据支持。

在科学中,最基本的主张是 观察 (observation) 。观察可以是对世界准确或不准确的 表达((representation)

假设我观察我的猫:姜黄色毛,重 6.5 公斤。大多数科学家会接受这个观察结果,作为我们周围世界某一方面较为准确的投射 —— 假设体重秤有效且可靠的。但就解释力度而言,他们会发现这个观察非常无趣 —— 观察本身没有很大信息量,它不能描述属性间的一般联系,无法解释任何事。

但这不表示观察不重要。观察是经验科学的基础,但是观察本身不是很有用,观察本身是最无趣的科学主张,因为它没什么解释能力。观察在确定或反驳假说时会变得有用。

假说 (hypothesis) 是一种 命题 (hypothesis) ,它描述了 属性 (hypothesis) 间的 模式 (pattern) 或一般关系。假说也可以对它描述的模式进行解释。我们建立这样一个假说:姜黄色猫一般都会超重,概率比其他颜色的猫要高得多。我可以用解释来延伸这个假说,就是毛色和肥胖间的相关性。比如,通过证明控制姜黄毛色和发出饱腹信号的基因是连锁的。

假说的 可信度范围 (plausibility) 可以从非常不确定到非常确定。一个假说若是没有支持,那么它就是不确定的。比如这是个新且未经检验的假说。假说也能被很多实证研究强烈支持,从而变得更确定。

假设的一种特殊类型就是 定律 (law) ,定律是对 关系 (relation) 或模式非常精确的描述 —— 精确到总是能用 数学公式 (mathematical equations) 表达。它们通常被证明得很完整,所以它们如此精确。比如,我把猫食盆从 56 米高的地方扔下去,且我知道万有引力常数,然后用牛顿的万有引力定律就能很准确地预测这个碗掉到地上要花多长时间。

定律能做出很精确的预测 但它们通常不会解释其描述的关系。在这里,是距离、时间和重力之间的关系。当然,社会科学方面的定律很少能表达成公式。我们对个人和人群的了解还太少,还不能得到如此精度的固定行为模式,并用来推测出科学定律。

好,接下来我们来讲讲 “理论 (theory)” 的概念。在日常生活中,理论意味着 未被证明的 (unsubstantiated) 命题,有根据的猜想。但是在科学中,理论指的是许多相关现象的总体解释。在自然和行为科学中,理论由被经验证据强烈支持的各种假说构成。在社会科学中,更多的是定性研究和历史比较的方法。当理论经受住了逻辑上、历史上或定性分析的驳斥时,可以认为该理论高度可信。

在科学范畴里,理论的解释最为完善,是我们拥有的最接近准确的东西,因为它们由经科学方法审视并留存的假说构成。当然,这不意味着科学理论是确定或真实的。世上有许多证明完备的理论最终也被取代了,比如牛顿力学就为相对论让路了。 科学的世界里没有确定性,只有暂时的最佳解释 (provisional best explanation)。


第一类错误和第二类错误

回忆一下此前提到过的庭审的例子。被告方的辩护律师的观点是被告是无辜的,公诉方则试图说服陪审团和法官被告是有罪的。举证有罪的责任在于原告。被告只有在原告提供有力证据驳斥被告假定无罪的情况下才能被认定为有罪。

在审判时,有四种可能的结果。一,被告确实有罪且被判有罪,这是个正确的决定。二,被告确实无辜且被判无罪,这也是正确的决定。三,被告实际上是无辜的,但被判有罪,这是错误的决定。四,被告实际上有罪的,但是被判无罪,这也是错误的决定。

这也是我们在实施显著性检验时会发生的情况。辩方观点类似零假设为真,而被告有罪则等效于零假设为假。判被告有罪类似拒绝零假设,而无罪释放则等同于不拒绝零假设。这会导致四种可能的情形。其中的两种,你做了正确的决定,包括零假设的确为真并且你没有拒绝它以及零假设的确为假并且你拒绝了它。但也有两种你做了错误的决定,包括零假设为真而你拒绝了它以及零假设的确为假而你没有拒绝它。第一个错误我们称为 第一类错误 (type I error) ,或者说 伪阳性 (false positive) 。第个错误我们称为 第二类错误 (type II error) ,或者说 伪阴性 (false negative)

让我给你举个例子。想象你的零假设是:美国的持证水肺潜水者总体, 50% 有超过 35 小时的潜水经验。换言之, $ \pi = 0.5 $ 。备选假设是它是另外一个百分比,换言之, $ \pi \neq 0.5 $ 。你问了一组简单随机抽样的 500 个美国潜水者,你发现有 0.56 的比例有超过 35 小时的潜水经验。现在,假定你的零假设实际上是真的,当你决定基于你的样本数据拒绝零假设时,一个第一类错误就出现了。

阅读全文 »

分步计划

比较以下两种期望。一,你期望超过半数的持证美国潜水者有超过 35 小时的潜水经验。二,所有持证美国潜水者的平均潜水时长超过 35 小时。第一眼,两个期望看起来很相似。但是,在第一个例子中,你面对的是比例,你感兴趣的是潜水经验超过 35 小时的潜水者的比例。而第二个例子中,你关心的是均值。你想知道潜水时长的均值。因此,当实施显著性检验时,你需要特别注意你的方法。

这一节中,我将以分布计划的方式来引导你。想象你问了一个容量是 500 个持证潜水者的简单随机样本,他们的潜水时长是多少个小时。假设你发现 0.57 的比例有超过 35 小时的潜水经验,时长均值是 35.5 小时,均值是 8 小时。在我们的样本中,
潜水经验的变量分布近似正态。下面是分布计划全图:

第一步,评估你面对的是比例还是均值,这个我们已经讨论过。第一个例子是比例,第二个例子是均值。

第二步,形式化你的假设。在比例的例子中,零假设是:$ \pi = \pi_0 $ ,在均值的例子中,零假设是 $ \mu = \mu_0 $ 。我们可以有三种类型的备选假设:如果你做双尾检验,是 $ \pi\neq\pi_0 $ 或者 $ \mu\neq\mu_0 $ ;如果你做单尾的右尾检验,是 $ \pi\geq\pi_0 $ 或者 $ \mu\geq\mu_0 $ ;如果你做单尾的左尾检验,是 $ \pi\leq\pi_0 $ ,$ \mu\leq\mu_0 $ 。我们零假设是: $ \pi=0.5,\mu=35 $ ,备选假设是 $ \pi\geq0.5,\mu\geq35 $ 。因此我们需要实施右尾检验。

第三步,检查你的假定是否满足。在两个例子中,随机化都是必要的。你的样本必须通过随机抽样的方法收集,或者说,随机化的实验。在比例的例子中,根据零假设的比例,样本容量乘以比例以及 1 减去样本容量再乘以比例,必须等于或者大于 15 。均值的例子则要求总体分布近似正态。但实践中,这一点只有样本容量很小,且做的是单尾检验时才重要。对于我们的例子,所有的假定都满足。

第四步,确定显著性水平 $ \alpha $ 。常用的显著性水平是 0.05 。我们的检验将基于 $ \alpha=0.05 $ 。

第五步,计算检验统计量。在比例的例子中,公式是 $ z = \frac {p-\pi_0}{se_0} , se_0 = \sqrt {\frac {\pi_0 (1-\pi_0)}{n}} $ ,在均值的例子中,公式是 $ t = \frac {\bar x-\mu_0}{se_0} , se_0 = \frac {s}{n} $ 。注意,在比例的案例中,我们使用 z 分布,而在均值的案例中,我们使用 t 分布。

第六步,抽取相关的抽样分布,展示零假设和检验统计量,补上拒绝域和对应的临界值。在比例的案例中,

第七步,评估你的检验统计量是否落在拒绝域内。

第八步,决定是否拒绝零假设。

第九步,解释你的发现。

在下结论之前,值得提醒的是,不拒绝零值假设并不暗含你就可以接受零值假设。在第二个例子中,我们不拒绝零值假设,即潜水时长等于 35 小时的假设,但并不能得出潜水时长就等于 35 小时的结论。


显著性检验和置信区间

假设你问样本容量为 500 的水肺潜水者他们潜水了多少个小时,均值是 36 小时,标准差是 8 小时,变量的样本分布近似于正态。基于样本信息,你希望推断总体的参数 $ \mu $ ,这是我们所知的推断统计学 —— 基于样本信息得出样本所在总体的结论。

推断统计学有两种方法。其一,通过均值的置信区间来推断区间估计。其二,用显著性检验来推断点估计。在这一节中,我将向你展示这两种方法其实关联密切。

假定你预期潜水时长的均值不是 35 小时,你将做一个显著性检验。我们对均值感兴趣,检验统计量如下:

零假设是: $ \mu = 35 $ ,备选假设是: $ \mu \neq 35 $ 。我们的假定满足,分析基于简单随机样本并且样本足够大,并且样本近似正态分布。检验统计量等于 36 减去 35 ,除以 8 除以 500 的平方根,等于 2.80 。抽样分布看起来是这样的。

我们可以通过查询 t 表找到对应双尾检验显著性水平 0.05 的临界点是 $ \pm1.984 $ 。因此我们的检验统计量落在拒绝域内。我们将拒绝零假设,得出潜水时长不等于 35 小时的结论。

现在,如果我们构造 95% 的置信区间,会发生什么呢?公式如下:样本均值,加减 95% 置信水平对应的 t 分数,乘以标准误差,这个标准误差等于标准差除以样本容量的平方根。相关的 t 分数是 1.984 ,代入公式,得到置信区间是 35.29 到 36.71 。由此我们有信心说,通过无限重复的抽样, 95% 的情况下区间会包含实际的总体均值。这个区间给了我们关于总体均值的一个有说服力的范围。和显著性测试一样,这个置信区间也告诉我们,总体的样本均值不是 35 。通常,双尾显著性检验的结果与置信区间的结果是一致的。

更准确的说,如果双尾显著性检验的 P 值等于或者小于 0.05 ,那么 95% 置信区间也不包含零假设的值。类似的,如果双尾检验的 P 值大于 0.05 ,那么 95% 置信区间将包含零假设的值。

这听起来很合理,对吧?它以下图表示。你会看到,观察值 36 落在拒绝域内,而对应的置信区间也不包含零假设的总体均值。

现在假设观察到的均值是 35.5 ,而不是 36 ,这样的话,我们的检验统计量将变成 1.40 ,它不落在拒绝域内。我们因此不拒绝零假设,相似的,置信区间的两个端点编程 34.79 和 36.21 ,则包含了零假设的均值 35 。

我们可以有信息说,通过无限重复抽样, 95% 的情况区间会包含实际的总体均值。这意味着零假设有说服力,我们不该拒绝零假设。也说明了,构建置信区间的方法和双尾假设检验的方法虽然看起来不同,但是数学上是相关的,彼此一致。