【翻译】复杂的系统是如何失败的

复杂系统本质上就是风险系统

所有有趣的系统（比如交通、医疗、发电），它们天生就带着风险，这是改不了的。我们或许能调整风险出现的频率，但系统中的某些流程，本身就充满了固有的、去不掉的风险。正是这些风险的存在，才催生了这些系统特有的防护机制。

复杂系统配备强大且有效的故障防护机制

因为一旦系统失效，后果不堪设想，所以随着时间的推移，人们会构筑层层机制来防范这种失效。这些防护措施不仅包括显而易见的技术手段（比如备份系统、设备的“安全”功能），还有人员方面的准备（比如培训、知识积累），更有组织、制度和监管层面的层层保障（比如政策和流程、认证、工作规章、团队培训）。这些措施就像是一层层的保护罩，通常能够使操作远离事故。

灾难不是由单一故障引起，它是多个故障的叠加

这套防御机制确实管用。我们的系统大体上是成功的。但是，当一些微不足道的小错误累积起来，它们就可能引发一场系统性的大灾难。每一个小错误都是灾难发生的必需条件，但只有它们叠加在一起，才足以导致真正的故障。换句话说，潜在的故障风险远比我们实际遇到的系统事故要多得多。大多数初始的故障迹象都被我们精心设计的系统安全措施所拦截。那些能够影响到操作层面的问题，也大多被我们的操作人员及时制止了。

复杂系统内部潜藏着各种不断变化的故障

这些系统的复杂性决定了它们不可能在完全没有缺陷地情况下运行。这些缺陷单个来看，都不足以引发大问题，因此在实际操作中往往被忽视。想要彻底消除所有这些潜在的故障，不仅成本高昂，而且难度极大，因为我们很难提前预料到这些小问题最终会导致什么样的大麻烦。而且，随着技术的进步、工作方式的变化以及我们对故障的不断应对，这些故障也在不断地演变。

复杂系统总是在降级模式下运行

基于上述观点可以得出，复杂系统往往是在故障状态下运行。尽管系统中存在诸多缺陷，但系统依然能够运转，这得益于它拥有大量的冗余设计，以及人们总有办法让它继续工作。当我们事后回顾时，我们几乎总能发现，在大事故爆发之前，系统已经有过一系列“准事故”，差点引发灾难。那些认为这些隐患本应在事故明显发生前就被察觉的观点，往往是基于对系统性能过于理想化的理解。实际上，系统的运作是动态的，它的各个部分——无论是组织、人员还是技术——都在不断地发生故障和更替。

灾难随时可能发生

复杂系统就像一个不定时炸弹，随时可能触发灾难性故障。系统操作者在物理空间和时间上都与这些潜在故障紧密相连——灾难可能在任何时间、任何地点发生。这种灾难性后果的潜在可能性，是复杂系统的一个显著特征。我们无法完全消除这种灾难性故障的可能性；这种故障的潜在风险始终存在，这是系统本质的一部分。

事故后将原因归结于某个”根本原因”从根本上来说是错误的

因为重大的失败往往不是单一原因造成的，事故的发生往往是多因素叠加的结果。每个因素单独看，都不足以引发事故。只有当这些因素相互作用，才可能导致事故。换句话说，正是这些因素的交织，才创造了事故发生的条件。所以，我们不可能简单地找出一个所谓的“根本原因”。那些基于“根本原因”的分析，并没有真正理解失败的本质，而是反映了我们社会文化中的一种倾向——总要找个具体的对象来承担责任。

人类学的田野研究为我们提供了最直观的证据，证明了“原因”这个概念其实是社会构建出来的。（可以参考 Goldman L (1993)的《巧合文化：Huli 地区的事故与绝对责任》，纽约：克拉伦登出版社；以及 Tasca L (1990)的《人为错误的社会建构》，这是他在纽约州立大学石溪分校社会学系的未发表博士论文。）

事后偏见扭曲了我们对事故后人类表现的评价

**事后诸葛亮，总觉得事情发展到这一步，那些导致结果的征兆应该在当时就很明显才对。但实际情况往往并非如此，这种错觉让我们在事后分析事故时，对人为因素的判断失准。我们事后知道了结果，就容易觉得事故前的从业者应该也能预见到这些因素，认为他们“理应知道”这些因素“迟早”会引发事故。这种事后聪明的想法，其实是事故调查中的一大障碍，特别是在涉及到专家级别的人为表现时，这种偏见的影响尤为突出。

这不仅仅是医疗判断或技术判断的问题，而是所有人类对过去事件及其原因认知的通病。

人类操作者扮演着双重角色：既是生产者，也是防止故障的守护者

系统操作者的日常工作，就是让系统运转起来，生产出我们想要的产品，同时还要时刻警惕，防止事故发生。这种在生产需求和潜在故障之间不断寻求平衡的动态过程，是他们工作的一部分，而且是无法避免的。但外界往往只看到一面。在平安无事的时候，大家关注的是生产；一旦出了事故，防范故障就成了焦点。不管在哪种情况下，外界都忽略了一个事实：操作者其实一直在同时扮演这两个角色，从未停歇。

所有操作者的行为都是一场赌博

事故发生后，系统的明显故障往往会被认为是不可避免的，而操作者的行为则被视为重大失误或故意无视即将发生的错误。但实际上，所有操作者的行为本质上都是一场赌博，即在面对不确定结果时所做出的选择。这种不确定性的程度会随时发生变化。事故发生后，操作者的行为很容易被视为赌博；通常来说，事后分析往往会认为这些都是糟糕的赌博。但与此相反的是：成功的结果其实也是赌博，这一点却很少被人认识到。

一线行动能化解所有模糊性

组织对于生产目标、资源的利用率、运营的经济性和成本，以及可接受的风险水平（无论是小事故还是大事故）往往是模棱两可的，这种含糊有时是刻意为之。所有这些模糊性最终都要靠系统一线操作者的具体行动来消除。事故发生后，操作者的行为可能会被视为”错误”或”违规”，但这些评判往往带有事后诸葛亮的偏见，而忽略了其他推动因素，尤其是生产压力。

人类操作者，是复杂系统中的“变形金刚”

实践者和一线管理者，他们就像是系统的“调音师”，不断地调整和优化，以追求最大产出和最小风险。这种调整是实时发生的，几乎每时每刻都在进行。他们的做法包括：(1)重新布局系统，减少脆弱环节的故障风险。(2)把关键资源用在刀刃上，即预期需求最旺盛的地方。(3)为可预见和不可预见的问题，提前规划好退路或修复路径。(4)建立预警机制，一旦发现系统性能有变，就能及时调整生产，或者采取其他措施增强系统的抗打击能力。

复杂系统里的专业技能，一直在变

复杂系统的运行和管理需要大量的人类专业知识作为支撑。这些专业知识会随着技术的发展而改变，同时也会因为需要替换离职的专家而发生变化。在任何情况下，技能和专业知识的培训与提升都是系统本身功能的一部分。因此，在任何时候，一个特定的复杂系统中都会包含具有不同专业水平的从业者和学徒。与专业知识相关的关键问题主要来自两个方面：(1)需要将稀缺的专业知识作为资源用于最困难或最迫切的生产需求，以及(2)需要为未来发展培养专业知识。

变革带来新的风险

在那些运转可靠的系统中，事故率的降低可能会激励我们去尝试变革，尤其是引入新技术，以此来减少那些影响不大但频繁发生的故障。但这样的变革可能会无意中为那些罕见却影响巨大的故障埋下伏笔。新技术在消除了我们熟知的系统故障，或者提高了系统精度的同时，往往也会开辟出通向大规模灾难性故障的新途径。这些罕见的大灾难，其破坏力往往比新技术所解决的问题还要大。这些新型的故障在事前很难被预见，因为大家的注意力都集中在变革可能带来的预期收益上。由于这些高风险的事故发生率低，可能在一次真正的事故发生前，系统已经经历了多次变革，这使得我们很难识别技术在其中所起的作用。

对“原因”的理解，限制了对未来事件的防范能力

每当事故发生后，我们通常会针对所谓的“人为错误”采取补救措施，试图阻止那些可能“引发”事故的行为。但这些措施往往只是治标不治本，对于预防未来的事故效果有限。实际上，完全相同的事故再次发生的可能性本来就很低，因为那些潜在的失误模式总是在不断变化。这些补救措施不仅没有提高安全性，反而增加了系统的复杂性和耦合度。这样一来，潜在的失误数量不仅会增加，而且发现和阻断事故的路径也会变得更加困难。

安全是系统的特征，而不是其组成部分的特征

安全是系统的一种涌现属性，它不依附于任何个体、设备或者组织中的某个部门。安全不是买来的，也不是制造出来的；它不是系统其他部分之外的一个独立特征。这就意味着，我们不能像对待原材料那样去对待安全。任何系统中的安全状态都是不断变化的；系统的持续变化保证了风险及其管理也在不断地演变。

人们一直在创造安全

无故障的运作，其实是我们努力把系统控制在可接受表现范围内的结果。这些活动，大多数时候都是日常工作的一部分，看起来似乎很简单明了。但因为系统的运行从来不会一帆风顺，实际上是我们这些从业者不断地适应变化，从而在每时每刻创造出安全。这些适应，往往只是从我们已有的应对策略中选择一个经过反复练习的常规方案；但有时候，这些适应则表现为新颖的组合，甚至是全新方法的创造。

想要系统不出故障，就得先学会怎么应对故障

想要在危险面前游刃有余，并且让系统保持在可接受的性能范围内，就必须对失败有深刻的体验。那些能够感知到“性能极限”的系统，往往能展现出更强大的稳定性。这个“性能极限”就是系统开始走下坡路、变得难以捉摸，或者难以恢复的关键时刻。在那些本身就充满风险的系统中，操作人员需要能够识别并理解这些风险，并且用这些知识来提升整体的性能。安全的提升，不仅依赖于为操作人员提供精确的风险视角，还依赖于告诉他们，他们的行为是如何影响系统性能，使其靠近或远离这个危险的“性能极限”。