阅读 Time, Clocks, and the Ordering of Events in a Distributed System

12 Mar 2022 •

分布式

Introduction

现实世界中，我们习惯有时间的概念，而且事件发生有先后顺序，before或者after。分布式系统由多个时空分隔的进程组成，以交换信息的方式通信。一台计算机也可以被看做是分布式系统，因为计算单元，存储单元，IO单元等由不同进程组成。如果消息传递延迟和单个进程中事件间隔时间比不可忽略时，系统就是分布式的。

本文主要关注时空分隔的不同计算机组成的分布式系统。分布式系统中有时不可能知道两件事件哪一个先发生。”happened before”关系在系统中只是一种偏序(partial ordering)关系。本文将讨论由happened before原则定义的偏序关系，然后给出分布式算法将其拓展为所有事件的一致性全序(consistent total ordering)

注：什么是偏序和全序？

偏序和全序并不是论文中的内容，这里只是简单作为前置知识补充说明

如果集合中的某种关系满足以下3个性质，那么这个关系是偏序(Partial Order)

Reflexivity: 集合中所有元素a，都有aRa
Antisymmetry: 如果aRb且bRa，那么a=b(或者说a不是b的话，如果aRb，那么bRa不成立)
Transitivity: 如果aRb且bRc，那么aRc

全序是偏序的一种特殊情况，全序可以对集合中任意两个元素进行比较，但偏序不能，偏序只能在部分元素间进行比较

The Partial Ordering

如果a在比b之前的某个时刻先发生，大多数人会说事件a比事件b先发生(happened before)，但这种断言可能只有在物理学时间理论中成立。实际上，如果系统正确满足某种规范(specification)，那么这种规范必须给出系统中可观测事件的依据。如果规范以物理学中的时间理论为依据，那么系统就必须有物理时钟。但即使有了时钟，时钟本身也不是完全准确而导致会出现问题。因此我们不使用物理时钟而定义了”happened before”关系

我们首先更准确地描述我们的系统。我们假设系统由一系列进程组成，每个进程包含一系列顺序事件。取决于应用程序自身，可以将一台计算机上运行的一段子程序看作一个事件，也可以将一条机器指令的执行看作一个事件。我们假设一个进程有事件序列，如果事件a比事件b先发生，那么事件a在序列中的位置比b靠前。换句话说，单个进程由一系列具有priori total ordering性质的事件组成

我们假设在一个进程中发送或接收消息是一个事件。我们可以定义happened before关系，用→表示

定义: 一个系统中的事件集合上的关系→满足以下3个条件

如果a和b是同一个进程中的事件，且a比b先发生，那么a→b
如果a是一个进程发消息，而b是在另一个进程接收这一条消息，那么a→b
如果a→b且b→c，那么a→c。如果a→b和b→a都不成立，那么两个不同的事件a和b是并发的(注: 这一条就说明→只能是偏序关系了，因为两个并发事件不能比较先后顺序)

我们设定a→a不成立，因此在系统中→是irreflexive partial ordering(注: 这里就和普通的偏序略有差别了，普通偏序是有自反性的)

接下来看下space-time diagram中关于上述定义的解释。

水平方向代表空间，竖直方向代表时间，且时间向上增长，点代表事件，竖直线代表进程，波浪线代表消息。很容易发现a→b意味着可以从点a沿着进程线或消息线向上移动到b点。比如在图一中p1→r4

另一种解读视角是a→b代表事件a可能影响到事件b。如果两个事件不能相互影响，那么它们是并发的。比如图一中事件p3和q3，虽然从图中能看出q3在物理世界中先发生，但进程P并不知道进程Q在q3的结果，直到p4接收了进程Q的消息。(在p4之前，P最多知道进程Q打算在q3做什么)

Logical Clocks

现在为系统引入时钟，一开始的抽象时钟只是为事件分配一个编号。更准确的说，为每个进程\(P_i\) 定义一个时钟\(C_i\)，时钟将为进程中的每个事件\(a\)分配编号\(C_i\langle a\rangle\) 。目前认为这是一个逻辑时钟，可以通过计数器实现而不借助任何真正的计时工具。

然后考虑这样的时钟系统正确性意味着什么，我们不能基于物理时间的定义，我们只能基于事件发生的先后顺序。最严格的条件是如果事件a发生在事件b之前，那么事件a应该在事件b发生前的某个时间发生，更正式的，有:

Clock Condition: for any events a, b: if a → b，那么\(C\langle a\rangle\) < \(C\langle b\rangle\)

注意我们不能从\(a\nrightarrow b\)推导出两者时钟上的关系。但可以从\(\rightarrow\) 关系中推导出其满足以下两个条件

C1. if a and b are events in process \(P_i\), and a comes before b, then \(C_i\langle a\rangle < C_i\langle b\rangle\)
C2. if a is the sending of a message by process \(P_i\) and b is the receipt of that message by process \(P_j\), then \(C_i\langle a\rangle < C_j\langle b\rangle\)

重新考虑space-time图中的时钟，我们假设进程时钟会经过每一个数字，比如在某个进程中，事件a发生在数字4，事件b发生在数字7，那么二者间隔中，时钟经历了5、6、7。我们在图一的基础上绘制点状的tick line得到图二。条件C1意味着一个进程中任意两个事件间都有一条tick line，条件C2意味着每条消息线都必须穿过一条tick line。

我们可以把tick line看作是某个笛卡尔坐标系的时间坐标轴，然后在图二的基础上拉直这些tick line。在没有引入物理时间概念(需要引入物理时钟)时，不能区分图二和图三哪种表达方式更好。

让我们假设这些进程是算法，事件代表进程执行过程中的某个动作。接下来将展示如何引入时钟(仍然是逻辑时钟)到进程且满足时钟条件(Clock Condition)。进程\(P_i\)的时钟由一个寄存器\(C_i\)表示，\(C_i\)的值会在事件间改变，因此其值的改变并不代表有新的事件产生。

为了保证系统满足Clock Condition，我们需要保证满足C1和C2。条件C1很简单，只用遵守以下实现规则:

IR1. Each process \(P_i\) increments \(C_i\) between any two successive events

为了满足条件C2，我们需要每条消息m包含一个时间戳\(T_m\)，\(T_m\)的值就是该消息发送出去的时间。当进程收到一个时间戳为\(T_m\)的消息时，其必须快进时钟到大于\(T_m\)的时刻，准确地说，有以下规则

IR2. (a) If event a is the sending of a message m by process \(P_i\), then the message m contains a timestamp \(T_m = C_i\langle a\rangle\)

(b) Upon receiving a message m, process \(P_j\) sets \(C_j\) greater than or equal to its present value and greater than \(T_m\)

在IR2(b)中，我们认为接收消息m的事件发生在设置\(C_j\)后。很明显，IR1和IR2保证满足了Clock Condition

Ordering the Events Totally

我们可以使用满足Clock Condition的时钟系统来为所有的事件排序。我们可以简单根据事件发生的时间进行排序。为了打破平局的情况(注: 指事件时钟相同)，我们使用进程的任意全排序(total ordering)\(\prec\) (注: 可以先简单理解为给每个进程分配了互不相同的优先级)。更准确地，定义以下一种关系\(\Rightarrow\) :

如果a是进程\(P_i\)的事件，b是进程\(P_j\)的事件，那么\(a\Rightarrow b\)有且只有当(1)\(C_i\langle a\rangle < C_j\langle b\rangle\) 或者(2) \(C_i\langle a\rangle = C_j\langle b\rangle\)且\(P_i \prec P_j\)

很容易看出这定义了全序关系，且Clock Condition暗示了如果\(a \rightarrow b\) 则有\(a \Rightarrow b\)。也就是说，关系\(\Rightarrow\)是补充了happened before的偏序关系为全序关系

关系\(\Rightarrow\)取决于系统的时钟\(C_i\) ，并且不唯一。满足Clock Condition的不同时钟选择会产生不同的关系\(\Rightarrow\).给定任何从关系\(\rightarrow\)扩展来的关系\(\Rightarrow\)，总有一种时钟系统能满足Clock Condition且生成关系\(\Rightarrow\)。只有关系\(\rightarrow\)是由系统的事件唯一确定的

能对所有事件全排序对实现分布式系统是非常有帮助的。实际上，正确实现逻辑时钟的原因就是为了获得这样的全序关系。使用这种全序关系，可以解决以下问题。

考虑有一个系统由几个固定进程组成，进程共享一个资源。资源一次只能被一个进程使用。我们希望找到一种算法，使以下三个条件成立

(1). 一个进程被授权使用资源后，在资源下一次被授权给另一个进程前，必须先释放资源

(2). 不同的资源请求必须按它们产生(发起请求的时间)的顺序依次满足(注: 和常见的FCFS不太一样，这里是生成请求的时间，不是请求到达某个coordinator的时间)

(3). 如果每个进程最终都释放了申请到的资源，那么每个请求最终都能被满足

我们假设资源最开始被赋予了某一个进程。这些条件是非常自然的，条件(2)说明了处理两个并发请求的顺序。

需要认识到这不是一个小问题，使用中心化调度程序，按接收请求的顺序授权资源是错误的，除非有更多的场景假设。比如假设P0是中心调度程序，P1发送了资源请求消息给P0，然后P1又发消息给P2。可能P2先收到P1的消息，然后也发资源请求给P0，有可能P2的请求比P1请求先到达。如果P0按接收顺序给P2授权，就违反了上面的条件(2)。

为了解决这个问题，实现一套满足IR1和IR2的时钟系统，并且使用它们定义所有事件的全序关系\(\Rightarrow\) .这样就为所有请求操作和释放操作确定了顺序，有了这种顺序，再去寻找正确的算法就很容易，只需要让每个进程知道其他进程的操作。

为了简化这个问题，做一些假设，这些假设不是必须的，但可以让我们避免陷入太多细节。首先假设对所有的任意两个进程\(P_i\)和\(P_j\)，消息从\(P_i\)到\(P_j\)的接收顺序和发送顺序一样。而且我们假设每条消息最终都能到达(这种假设可以避免引入消息编号和消息确认协议)，另外假设每两个进程间可以直接通信。

每个进程维护一个别人看不见的request queue。我们假设request queue最初包含单条消息\(T_0:P_0\) request resource，\(P_0\)是最开始被授权资源的进程，\(T_0\)小于任何时钟的初始值。

算法按以下5条规则定义(rule)。为了方便，认为每条规则的动作都是单个事件

为了请求资源，进程\(P_i\) 发送消息\(T_m:P_i\) request resource给其他所有进程，并且把这条消息放入自己的request queue。\(T_m\)是消息的时间戳
当进程\(P_j\)接收到消息\(T_m:P_i\) request resource ，将这条消息放进自己的request queue并且发送一条带时间戳的确认消息给\(P_i\)
为了释放资源，进程\(P_i\)从request queue中移除所有\(T_m:P_i\) request resource消息并且发送一条带时间戳的\(P_i\) release resource消息给其他所有进程
当进程\(P_j\)收到\(P_i\)的release消息，就移除其request queue中所有的\(T_m:P_i\) request消息
进程\(P_i\)被授权资源时需要满足两个条件

(a) 有一条\(T_m:P_i\) request消息在其request queue中且比队列中其他所有请求按关系\(\Rightarrow\)(消息按发送时间排序)都更早

(b) \(P_i\)在\(T_m\)时间后有收到其他所有进程的消息(注: 没有规定一定是ACK)

需要注意条件5是完全由\(P_i\)自己在本地检测的。

容易证明上述算法满足上文的条件(1)~(3)。首先，观察rule5的条件(b)，同时有消息按顺序接收的假设，保证了\(P_i\)已经知道了在自己请求前的所有请求。由于只有rule3和4可以删除request queue中的消息，可以证明条件(1)成立。

(注: 证明: 如果条件(1)不成立，即资源在被下次授权前没有释放的话，那么request queue中就还有本次已获得授权的请求，破坏了rule5中条件(a) )

条件(2)成立的原因是定义了全序关系，而且rule2保证了在\(P_i\)发起请求后，rule5 (b)最终会成立。

(注: 这里不是很懂为什么这样证明了条件2成立？一种粗浅的理解: 我猜这个request queue存消息应该是按全序关系排序的？那么这样的话两个几乎同时发起的请求之间有确定的先后顺序。假设现在两个进程一前一后非常近时间地发起了请求，进程A的请求先于进程B的请求，在A和B收到对方的请求之前(消息延迟)，各自请求在自己的request queue中都是排名第一的，这时如果没有rule5 (b)，A和B会同时获取资源。而造成这个问题的原因是A和B各自发起的请求都还没有完全通知到其他进程，因此rule5 (b)实际确保了进程发起的请求已经通知到其他所有进程。这里还有一点比较tricky的是，这个问题首先就假设好了消息从进程\(P_i\)到进程\(P_j\)的接收顺序和发送顺序一样，即消息是FIFO的，那么进程A在收到自己的确认前一定收到了B的请求，进程B在收到自己的确认前也一定收到了A的请求。再进一步，进程A在收到某个确认X时，一定收到了进程X发出确认前的所有请求(我们并不关心发出确认后的请求，因为之后的请求一定比A当前的请求晚)。所以进程A收到所有确认时，实际是和所有其他进程沟通好了当前请求和其他请求的相对位置)

Rule3和4意味着如果每个被授权资源的进程最终都能释放资源，那么rule5 (a)最终会成立，这证明了条件3.

这是分布式算法，每个进程独立遵守运行规则，不依赖中心调度或中心存储。可以把这种同步机制特定为状态机(State Machine)，状态机的command是request resource或release resource，state是a queue of waiting request commands，队列头是当前被授权的请求，有新的请求发来时，添加到队列尾。

每个进程可以独立模拟状态机的执行过程。因为所有commands可以按全序关系排序，因此每个进程会看见相同的命令顺序。一个进程可以执行时间戳为T的命令，当且仅当已经了解到其他所有时间戳小于等于T的命令。这种方法可以在分布式系统中实现任意需要的多进程同步，但却需要所有进程都是active的，如果某一个进程挂了，则整个系统崩溃(注: 不满足rule 5(b)了)。

Anomalous Behavior

这套调度算法利用全序关系为请求排序，这允许了以下一种anomalous behavior: 假设有一套国家范围内计算机组成的系统，一个人在计算机A上发起了请求，然后他打电话给在另一个城市的朋友，让朋友在另一台计算机B发出请求B。那么很有可能请求B携带更小的时间戳，并且排序在请求A之前。这种情况发生的原因是系统没有办法知道A实际比B更先，因为关于顺序的信息是存在于系统之外的。

有两种办法解决这个问题，一是把需要的信息也纳入系统中，比如上文中的请求A从系统中获取时间戳A，请求B从系统中获取时间戳B，那么系统会保证时间戳B一定晚于时间戳A。另一种办法是构造更强的时钟条件:

Strong Clock Condition: 如果系统事件a比b先发生(包含外界信息的情况) \(a \mapsto b\)，则C(a) < C(b)

可以通过引入物理时钟构造Strong Clock Condition。

注: 这里\(a \mapsto b\) 的含义是，事件a 和 b 之间有某种系统感知外的前后关系，但无论是哪种具体的前后关系，在现实世界，总是需要某种消息从a发出，经过一段实际的时间间隔(物理时间，因此需要引入物理时钟)才到达b，这时需要保证b分配的时间要大于a

Physical Clocks

引入物理时钟到系统中，设在物理时间\(t\) 读时钟 \(C_i\) 的值为 \(C_i(t)\)，为了方便，我们设定时钟是连续的而不是离散的。更正式的，假设\(C_i(t)\) 是连续，可微的函数，只有在时钟被重置时发生跳跃。考虑到物理时钟的实际情况，需要保证 \(dC_i(t) / dt \approx 1\) for all t. 更正式的，需要保证下面的条件

PC1 There exists a constant \(\kappa \ll 1\) such that for all \(i: \left\vert dC_i(t) / dt - 1 \right\vert < \kappa\)

此外，还要保证各个进程的时钟误差不大

PC2 For all \(i, j\) : \(\left\vert C_i(t) - C_j(t) \right\vert < \epsilon\)

由于不同时钟一定不会按相同速率运行，误差会越来越大，因此需要某种机制进行时钟同步，来保证PC2永远成立。

但是首先，需要确定\(\kappa\) 和 \(\epsilon\) 要多小才能避免anomalous behavior. 假设我们的时钟满足普通的Clock Condition，则只需要考虑不同进程事件\(a \nrightarrow b\)的情况

引入一个变量 \(\mu\)，设事件 \(a\) 发生在物理时间 \(t\) , 另一个进程的事件 \(b\) 满足 \(a \mapsto b\) ，则 \(b\) 发生在\(t + \mu\) 之后。显然，\(\mu\) 需要比所有进程间通讯延迟更短，可以让 \(\mu\) 等于距离除以光速，但实际上可以更大。

为了避免anomalous behavior，需要保证对任意的 \(i, j, t\) 有 \(C_i(t + \mu) - Cj(t) > 0\) ，从PC1可以推导出\(C_i(t + \mu) - C_i(t) > (1 - \kappa)\mu\) ，再结合PC2，可以证明当 \(\epsilon /(1 - \kappa) \le \mu\) 时， \(C_i(t + \mu) - Cj(t) > 0\) 成立，即此时不会有anomalous behavior。另外，在调节时钟时，只能往后调，否则可能违反C1。

接下来描述让PC2成立的一种实现。让\(m\) 是在物理时钟 \(t\) 时刻发送，\(t'\) 接收的消息。定义\(v_m = t' - t\) 为总延时(total delay). 这个延时对接收进程来说是不可知的，但我们可以引入一个 minimum delay \(\mu_m \ge 0\) 且 \(\mu_m \le v_m\)，我们称\(\xi_m = v_m - \mu_m\) 为unpredictable delay. 然后给出实现的两个要求

IR1’ for each \(i\), if \(P_i\) does not receive a message at physical time \(t\), then \(C_i\) is differentiable at \(t\) and \(dC_i(t) / dt > 0\) (注: 就是时钟必须严格递增)
IR2’ (a) If \(P_i\) sends a message \(m\) at physical time \(t\), then \(m\) contains a timestamp \(T_m = C_i(t)\) (b) Upon receiving a message \(m\) at time \(t'\) , process \(P_j\) sets \(C_j(t') = max(C_j(t' - 0), T_m + \mu_m)\) (注意不是\(v_m\))

为了简便，只考虑事件发生在某个准确的物理时刻，且同一进程的不同事件发生的时刻不同。不需要考虑实际上事件会持续一小段时间，而要关心离散时钟频率是否够快，如果慢了就不能保证C1。

个人总结：文章首先指出分布式系统中的事件关系为偏序关系，基于此我们可以再得到某种全序关系对所有事件排序，然后可以得到一种同步互斥的算法。另外由于系统看到的只有它本身，只能通过有限信息和外界交流，但它们又都实际存在于同一个现实世界，且我们人类是在现实世界进行观察，因此需要引入物理时钟作为同一个参考系。本文证明了只要时钟足够精确，就可以避免出现异常行为。