區(qū)塊鏈系統共識:去中心化的共識
本質上,區(qū)塊鏈系統是一個分布式系統,但是與普遍的分布式系統不同。普遍的分布式系統,其意義在于:面對增長的業(yè)務量,用多臺機器承載垂直拆分或水平拆分后的業(yè)務場景,增大系統容量;根據業(yè)務的關鍵程度,消除單點故障,加強系統可用性。當一個區(qū)塊鏈系統承擔的業(yè)務場景復雜如普遍的分布式系統時,當然也需要做如上的考慮。但是區(qū)塊鏈系統之所以應當被人重視,是因為它能夠解決存在作惡節(jié)點情況下的數據一致性的問題,也就是拜占庭將軍問題。
區(qū)塊鏈世界中,不存在所謂的中心化服務器,其是由所有愛好者、受益者或其他相關人共同構成的P2P網絡,網絡中的任何一個節(jié)點都是不可直接信任的,它們中的任何一個都有作惡可能,這是普遍的分布式系統并不會考慮的問題。這一點,與拜占庭將軍問題的假設一致:沒有中心化的領導機構,這些將軍需要對某個城市發(fā)起攻擊時,所有將軍需要對任何將軍提出的攻擊時間達成共識。那么問題來了,如果將軍們自己決定的攻擊時間不一致,甚至于有將軍已經成為叛徒,那么將軍們如何達成共識呢?
同理,在區(qū)塊鏈系統這個P2P網絡中,所有的節(jié)點如何針對某一筆交易達成共識呢(也就是基于這一筆交易對節(jié)點各自的數據庫做出修改)?
在1982年的論文The Byzantine Generals Problem中,Leslie Lamport證明,當將軍們中的叛徒不超過1/3時,存在有效的算法,無論叛徒們如何折騰,忠誠的將軍們總能達成一致的結果。而如果叛徒過多,就無法保證一定能達到一致。
那么我們直接假設區(qū)塊鏈P2P網絡中,作惡節(jié)點數量不超過1/3,否則認為區(qū)塊鏈系統構建失敗。如此,接下來最難解決的問題就是,在一個作惡節(jié)點不超過1/3的區(qū)塊鏈系統中,要選擇誰的數據作為達成最終共識的數據?
換一個角度:如果一個節(jié)點希望自己提供的數據能夠在區(qū)塊鏈系統中達成共識,他需要做什么?他需要提供一個Proof。一個證明。去說服區(qū)塊鏈系統接受他所提供的數據。
據此,我們開始討論如何在區(qū)塊鏈系統中設計一個標準共識接口。
標準共識接口設計
區(qū)塊鏈達成共識的流程:
1.節(jié)點A準備了一個區(qū)塊,廣播給P2P網絡;
2.P2P網絡的其他節(jié)點收到區(qū)塊以后,經過一系列驗證,決定是否將該區(qū)塊放在本地的最長鏈上;
3.當區(qū)塊鏈系統中的大多數節(jié)點(如超過2/3)本地某個區(qū)塊高度對應的區(qū)塊哈希值都一致的話,我們就可以認為區(qū)塊鏈針對這個高度的區(qū)塊達成了一致。
如果需要一個服務來幫助節(jié)點A及區(qū)塊鏈其他節(jié)點完成整個共識過程,那么所提供的服務應該大體上有兩種:
1.面對一無所知的A,需要在A詢問的時候,告知其(在區(qū)塊鏈世界中,A使用一個公鑰唯一確定身份)當前能不能嘗試產生區(qū)塊,以及如何設法使其產生的區(qū)塊讓其他節(jié)點接受;
2.除了A以外的其他節(jié)點,面對從網絡上收到的一個A廣播出來的區(qū)塊,通過一個開源的所有節(jié)點實現代碼都一致的服務來驗證該區(qū)塊是否合法。
如果某節(jié)點通過對這個區(qū)塊的驗證,得知該區(qū)塊合法,則稱該節(jié)點對A產生的這個區(qū)塊達成了共識。因為所有節(jié)點的驗證服務都是同樣的邏輯,區(qū)塊鏈網絡中所有節(jié)點對該區(qū)塊的合法性都會具有一樣的態(tài)度,終究,這一個區(qū)塊鏈P2P網絡中(在沒有更長的鏈出現的情況下)對這個區(qū)塊被添加到最長鏈這個事件達成最終一致性也是可以預見的。
aelf共識通用接口標準
現在開始,我們基于“標準共識接口設計”中統計出來的兩類服務,進行aelf共識通用接口的設計。
首先需要明確,這兩類和共識相關的服務(請求區(qū)塊生產相關的指示、驗證新區(qū)塊)都是只讀的接口,其調用本身無需修改區(qū)塊鏈網絡的賬本信息。
其次,這些接口實際上會被aelf主鏈代碼調用,因此其設計需要遵循aelf主鏈代碼中關于生產區(qū)塊和驗證區(qū)塊的邏輯(當然,即便在主鏈代碼中,這些接口也幾乎一一對應地出現在共識的服務Consensus Service中)。
我們分別討論兩種接口:
請求共識命令
繼續(xù)前面的例子,還是節(jié)點A,這是一個已經同步到當前aelf最長鏈的節(jié)點。當前時間是2020年1月1日下午13:59:56。A,作為一個誠實的節(jié)點(沒有修改本地主鏈代碼),剛剛同步了一個區(qū)塊(也就是接受到網絡上其他節(jié)點的區(qū)塊,驗證成功,修改了本地的區(qū)塊鏈賬本信息),本地的Best Chain(維護本地區(qū)塊鏈的一個數據結構)得到更新后,Event Bus上裝載了一個事件。這個事件的作用之一,就是提醒節(jié)點A去問一下共識服務(通過相關事件訂閱和處理機制),接下來他能做點什么。在進行詢問時,A把自己的公鑰傳給了共識服務。
共識服務的核心邏輯作為一個智能合約而存在,因為只有如此才能保證其代碼對于區(qū)塊鏈世界中每一個節(jié)點都是一致的(不一致意味著這個節(jié)點試圖作惡或者硬分叉)。經過長達幾毫秒的復雜計算(也許是簡單計算),共識的智能合約反饋給節(jié)點A一個信息。這個信息的生成就因共識機制的選取而異,但是無論什么共識,都應該具備以下結構:
· A什么時間可以產生區(qū)塊?
· 如果A可以產生區(qū)塊,那么A應該用什么方式進行下一步的請求:即在當前共識下,A能產生什么區(qū)塊。在此稱這一信息為額外提示。
如果A不能產生區(qū)塊怎么辦?區(qū)塊鏈世界中理論上每個人其實都有可能產生區(qū)塊,但是由于共識機制的設計不同(比如PoS共識),有些區(qū)塊鏈并不希望大多數節(jié)點有生產區(qū)塊的權利。這種情況下,只需要將返回給A的時間設置到一百年后就可以(可能有些夸張,但是幾個月后總沒問題)。只要節(jié)點A能夠堅持掛機,并且區(qū)塊鏈沒有產生任何一個新的區(qū)塊(任何有效的新的區(qū)塊的同步都會使節(jié)點A重新獲得一個出塊時間)。
不難想象基于這個接口實現PoW有多么容易。只要時間設置為“立刻”,額外提示為空即可。
在aelf主鏈中,共識服務得知共識反饋的時間信息后,會立刻更新共識調度器(如果此前共識調度器非空,則干掉之前未竟的調度信息,用新的時間點來填充,也就是說共識調度器里面只能有一個未執(zhí)行的共識任務,且共識調度器是單例的對象)。
接下來就是漫長的倒計時。
我們回到節(jié)點A這個例子。假設A在請求共識命令后,得到了一個時間:2020年1月1日下午14:00:00,也就是4秒鐘以后。額外提示:NextRound(這是AEDPoS共識的一個提示,意味著A將終結本輪的出塊流程,并更新下一輪的所有代理出塊節(jié)點的出塊順序)。這就意味著調度器會立刻更新為4秒后執(zhí)行一個生產區(qū)塊的事件。這4秒中做什么?如果可以同步到其他節(jié)點發(fā)過來的區(qū)塊,而這些區(qū)塊可以通過驗證,那就使用Best Chain更新這一事件的處理器,不斷地問共識服務請求共識命令(這一個操作在代碼中稱為TriggerConsensus),相應的,共識調度器就會不斷地重置:3.5秒,3秒,2.5秒,2秒,……
終于,時間來到了14:00:00。節(jié)點A在共識調度器的支配下開始準備生產區(qū)塊。此時,按照我們之前的設計,除了已經發(fā)揮了作用的出塊時間,關于如何生產區(qū)塊,它唯一知道的信息只有之前共識服務給他的額外提示。
這時,在aelf中,節(jié)點A把額外提示信息傳遞給共識服務。在打包交易之余,還會調用另外兩個服務:
· 獲得共識區(qū)塊頭信息
· 獲得共識系統交易
請求共識命令的接口有一個作用是設法讓生產出來的區(qū)塊通過驗證。在aelf中,在區(qū)塊的一系列驗證步驟中,有兩個和共識相關的驗證:執(zhí)行前,驗證區(qū)塊頭;執(zhí)行后,對共識合約狀態(tài)的修改信息是否和區(qū)塊頭中的信息的一致性進行驗證。
簡單做個類比,一個.NET程序員去參加DNT線下沙龍,他拿出參加沙龍的邀請短信給沙龍主辦方進行查驗,這個短信類似于區(qū)塊頭,也就是說如果他拿不出邀請短信,那主辦方不會讓他參加。接下來,主辦方還會要求.NET程序員報出手機號,然后在參會人員的花名冊中尋找該手機號,這就類似于在區(qū)塊鏈節(jié)點執(zhí)行完共識交易后的驗證。只有這一步也驗證通過,.NET程序員才能順利參加此次沙龍。
綜上所述,針對“請求共識命令”這一類服務,我們需要三個接口。用Protobuf直接描述如下:
service ConsensusContract {
rpc GetConsensusCommand (google.protobuf.BytesValue)
returns (ConsensusCommand) {
opTIon (aelf.is_view) = true;
}
rpc GetConsensusExtraData (google.protobuf.BytesValue)
returns (google.protobuf.BytesValue) {
opTIon (aelf.is_view) = true;
}
rpc GenerateConsensusTransacTIons (google.protobuf.BytesValue)
returns (TransacTIonList) {
option (aelf.is_view) = true;
}
}
message ConsensusCommand {
int32 limit_milliseconds_of_mining_block = 2;
// Time limit of mining next block.
bytes hint = 3;
// Context of Hint is diverse according to the consensus protocol we choose, so we use bytes.
google.protobuf.Timestamp arranged_mining_time = 4;
google.protobuf.Timestamp mining_due_time = 5;
}
message TransactionList {
repeated aelf.Transaction transactions = 1;
}
出于對鏈的安全和穩(wěn)定性考慮,在ConsensusCommand中,除了下次出塊時間(arranged_mining_time)和額外提示(hint),還包括了出塊時間限制(limit_milliseconds_of_mining_block)和最晚廣播時間(mining_due_time)。后面兩個信息都是給區(qū)塊生產服務作為參考的,用來實現如果超過了某個時間限制,生產出來的區(qū)塊就無需廣播(或者即便廣播別的節(jié)點也不能通過驗證,當然這個驗證是在下面要討論的接口類型的具體實現中保證的);多生產出一個塊也比擾亂區(qū)塊生產秩序要好。
區(qū)塊驗證
如果說請求共識命令還值得細致討論的話,區(qū)塊驗證相關的接口就泛善可陳了。因為區(qū)塊驗證邏輯本質上是完全因共識而異的。
接口本身并無新意,一個是在共識交易執(zhí)行前驗證區(qū)塊頭,一個是共識交易執(zhí)行后驗證共識修改的狀態(tài)是否和區(qū)塊頭中承諾的信息一致。而兩個驗證接口的入參都是二進制數組,意味著該接口接受任何數據,只需要共識的實現者在驗證的具體實現中自行反序列化即可。





