kafka是一個分布式的流式平臺,它到底是什么意思?
流式平臺有以下三個主要的功能:
☆發(fā)布和訂閱流記錄,類似消息隊列或企業(yè)級的消息系統(tǒng)。
☆你以一種容錯的方式存儲流記錄。
☆當流記錄產生時及時處理。
kafka被用于兩大類別的應用程序:
☆建立實時的流式數據通道,這個通道能可靠的獲取到在系統(tǒng)或應用間的數據
☆建立實時流媒體應用來轉換流數據或對流數據做出反應。
為了明白kafka能怎么做這些事情,讓我們從下面開始深入探索kafka的功能:
首先看這幾個概念:
☆kafka作為集群運行在一個或多個服務器,跨越多個數據中心。
☆kafka集群存儲的流記錄以主題進行分類。
☆每條記錄包含一個鍵,一個值和一個時間戳。
kafka有四種核心的API:
☆生產者API允許一個應用去發(fā)布一個流記錄到一個或多個kafka主題上。
☆消費者API允許一個應用去訂閱一個或多個主題,并處理流記錄。
☆Streams API允許應用作為一個流處理器,消費一個來至于一個或多個主題的輸入流;生產一個輸出流到一個或多個輸出主題,有效地將輸入流轉換為輸出流。
☆Connector?API允許構建并運行可重用的生產者或消費者,它們連接kafka主題到已存在的應用或數據系統(tǒng)。例如,關系數據庫的連接器(Connector)可以捕獲表的每一個變化。
kafka客戶端和kafka服務器之間的通信是通過一種簡單的,高性能的,語言無關的TCP協(xié)議完成的。該協(xié)議是版本控制的,并保持與舊版本的向后兼容性。我們?yōu)閗afka提供一個java版本的客戶端,其實客戶端可以用其他多種語來實現。
主題和日志
? ? 首先深入kafka為流記錄提供的核心概念—主題。
? ? 主題就是給發(fā)布的記錄歸類或命名。kafka中的主題總是有多個訂閱者。也就是說,一個主題可以有零個、一個或多個消費者去訂閱這個主題里面的數據。
? ? 針對每一個主題,kafka集群維護一個像下面這樣的分區(qū)日志:
? ? 每個分區(qū)是一個有序,不變的記錄序列,被不斷追加到結構化的日志中。分區(qū)的記錄都分配了一個連續(xù)的id號,稱為偏移量,偏移量用于唯一標識分區(qū)內的每一條記錄。
kafka集群使用一個可配置的保存期來持久保留所有已發(fā)布的記錄,不論它們是否已經被消費掉。例如,如果保存策略設置為兩天,然后記錄發(fā)布后的兩天內,這個記錄可以消費,之后,它將被丟棄來釋放空間。不管數據量的大小,kafka都能保持穩(wěn)定的性能,所以長時間存儲數據不是問題。
? ? 事實上,保留在每個消費者基礎上的唯一元數據是消費者在日志中的偏移量和位置。偏移量由消費者控制:通常當消費者讀取一個記錄后會線性的增加偏移量。但實際上,由于位置由消費者控制,消費者可以按任何順序消費記錄。例如,消費者可以重置偏移量以重新處理之前的數據,或者跳至最近的記錄并從"now"開始消費。
? ? 這些特性味著kafka消費者們是很靈活的—它們能夠加入或者離開而不會影響集群或者其他消費者。例如,你可以使用我們的命令行工具去追蹤任何主題的內容,而不影響現有消費者的消費。
? ? 日志中的分區(qū)有多種用途。首先,分區(qū)允許日志的大小可以超過服務器單機的限制。每個單獨的分區(qū)必須適合承載它的服務器,但是一個主題可能有很多分區(qū),因此它可以處理任意數量的數據。其次,各個分區(qū)是并行單元—更多是為了實現這一點。
分布式
? ? 日志的分區(qū)分布在Kafka集群中的服務器上,每個服務器處理數據并請求共享分區(qū)。每個分區(qū)都通過可配置數量的服務器進行復制以實現容錯。
? ? 每個分區(qū)都有一個服務器充當“領導者(leader)”,零個或多個服務器充當“追隨者(follower)”。leader處理分區(qū)所有讀寫請求,時followers被動的復制這個leader。如果leader出現故障,其中一個follower自動成為新的leader。每個服務器都充當其中一些分區(qū)的leader和其分區(qū)的follower,因此集群內的負載均衡很好。
地理復制
? ? Kafka MirrorMaker為您的群集提供地理復制支持。借助MirrorMaker,消息可以跨多個數據中心或云區(qū)域進行復制。 您可以在主動/被動場景中將其用于備份和恢復;或者在主動/主動方案中將數據放置得更靠近用戶,或者支持數據本地化要求。
生產者
? ? 生產者將數據發(fā)布到他們選擇的主題。生產者負責選擇將哪個記錄分配給主題中的哪個分區(qū)。這可以以循環(huán)方式完成,只是為了均衡負載,或者可以根據某種語義分區(qū)功能(例如基于記錄中的某個鍵)完成。
消費者
? ? 消費者用消費組(consumer group)名稱標記自己,并且發(fā)布到主題的每條記錄都被傳送到每個訂閱消費組中的一個消費者實例。消費者實例可以在單獨的進程中或在單獨的機器上。
? ? 如果所有消費者實例具有相同的消費組,則記錄將有效地在消費者實例上進行負載均衡。
? ? 如果所有消費者實例具有不同的消費組,則每條記錄都將廣播給所有消費者進程。
? ? 兩個服務器Kafka集群托管四個分區(qū)(P0-P3)和兩個消費組。消費組A有兩個消費者實例,而消費組組B有四個消費者實例。
? ? 然而,更常見的是,我們發(fā)現主題的消費組很少,每個“邏輯訂閱者”都有一個。每個消費組組由許多消費者實例組成,具有可擴展性和容錯性。這只不過是發(fā)布—訂閱語義,其中訂閱者是一群消費者而不是一個進程。
? ? 在Kafka中實現消費的方式是將日志中的分區(qū)分配給消費者實例,以便每個實例在任何時間點都是“公平分享”分區(qū)的獨占消費者。維護組中成員的過程是由Kafka協(xié)議動態(tài)處理的。如果新實例加入該組,則它們將接管來自該組的其他成員的一些分區(qū);如果一個實例死亡,其分區(qū)將分配給其余實例。
? ? Kafka只提供一個分區(qū)內記錄的總順序,而不是主題中不同分區(qū)之間的順序。按分區(qū)排序與按鍵分區(qū)數據的能力相結合,足以滿足大多數應用程序的需求。但是,如果您需要全部記錄的總順序,則可以通過僅有一個分區(qū)的主題來實現,但這意味著每個消費組只有一個消費者進程。
多租戶
? ? 您可以將Kafka部署為多租戶解決方案。通過配置哪些主題可以產生或消費數據來啟用多租戶。還有配額操作支持。 管理員可以根據請求定義和執(zhí)行配額以控制客戶端使用的代理資源。
保證
kafka的高級API提供以下保證:
☆消息被生產者發(fā)送到一個特定的主題分區(qū),消息將以發(fā)送的順序追加到這個分區(qū)。比如,如果M1和M2消息都被同一個生產者發(fā)送,M1先發(fā)送,M1的偏移量將比M2的小且更早出現在日志里。
☆消費者實例按照它們存儲在日志中的順序查看記錄。
☆如果一個主題的副本數是N,我們可以容忍N-1個服務器發(fā)生故障而不會丟失任何提交到日志中的記錄。
關于保證的更多的細節(jié)將在文檔的設計章節(jié)被給出來。
Kafka作為消息系統(tǒng)
? ? Kafka的流概念如何與傳統(tǒng)的企業(yè)消息系統(tǒng)相比較?
? ? 消息處理歷來有兩種模式:隊列和發(fā)布-訂閱。在隊列中,消費者池(pool)可以從服務器讀取,并且每條記錄都會轉到其中的一個消費者;在發(fā)布-訂閱中,記錄被廣播給所有消費者。這兩種模式都有優(yōu)勢和劣勢。隊列的優(yōu)勢在于它允許您將數據分配到多個消費者處理,從而擴展您的處理。不幸的是,隊列不支持多個訂閱者—一旦一個進程讀取數據,其他進程就不能訪問了。發(fā)布-訂閱允許您將數據廣播到多個進程,但無法進行擴展處理,因為每條消息都發(fā)送給每個訂閱者。
? ? Kafka的消費組歸納了這兩個概念。與隊列一樣,消費組允許您將處理流程分配到多個進程(消費者組成員)。與發(fā)布-訂閱一樣,Kafka允許您向多個消費組廣播消息。
? ? Kafka模式的優(yōu)點是每個主題都有這些屬性—它可以擴展處理,也可以支持多個訂閱者—沒有必要再二選一了。
? ? Kafka也比傳統(tǒng)的消息系統(tǒng)有更強大的順序保證能力。
? ? 傳統(tǒng)的隊列在服務器上按順序保存記錄,如果多個消費者從隊列中消費,則服務器按它們存儲的順序派發(fā)記錄。但是,盡管服務器按順序派發(fā)記錄,但是記錄是異步傳遞給消費者的,它們到達不同的消費者時可能已經亂序了。這實際上意味著在并行消費的情況下記錄的順序會丟失。消息系統(tǒng)通常具有“排他消費者”的概念,只允許一個進程從隊列中消耗,但這當然意味沒有并行處理能力。
? ? Kafka做得更好。通過主題內的分區(qū)來實現并行,Kafka能夠在消費者進程池中提供順序保證和負載均衡。這是通過將主題中的分區(qū)分配給消費組中的消費者來實現的,以便每個分區(qū)僅由組中的一個消費者使用。通過這樣做,我們確保消費者是該分區(qū)的唯一讀者,并按順序使用數據。由于有很多分區(qū),這仍然可以平衡許多消費者實例的負載。但請注意,消費者組中的消費者實例不能多于分區(qū)。
Kafka作為存儲系統(tǒng)
? ? 任何消息隊列都能夠解耦消息的生產和消費,還能夠有效的存儲正在傳送的消息。Kafka的不同之處在于它是一個非常好的存儲系統(tǒng)。
? ? Kafka將數據寫入磁盤并進行復制以實現容錯。Kafka允許生產者等待確認,直到副本復制和持久化全部完成才認為寫入成功。
? ? Kafka使用的磁盤結構很好擴展—無論您在服務器上有50KB還是50TB的持久化數據,Kafka都會執(zhí)行相同的操作策略。
? ? 由于存儲的重要性,并允許客戶控制自己的讀取位置,您可以將Kafka視為一種專用的分布式文件系統(tǒng),致力于高性能,低延遲,有保障的日志存儲,能夠備份和自我復制。
? ? 有關Kafk日志存儲和復制設計的詳細信息,請閱讀本頁。
Kafka流處理
? ? 僅讀取,寫入和存儲數據流是不夠的,目的是實時處理數據流。
? ? 在Kafka中,流處理器是指從輸入主題獲取連續(xù)數據流,對該輸入執(zhí)行一些處理并生成連續(xù)數據流到輸出主題。
? ? 例如,零售應用程序可能會接受銷售和裝運的輸入流,并輸出一系列重新排序和根據此數據計算出的價格調整。
? ? 可以直接使用生產者API和消費者API進行簡單的處理。然而,對于更復雜的轉換,Kafka提供了完全集成的Streams API。這允許構建應用程序進行非凡的處理,將計算從流中剝離或加入流一起。
? ? 這個工具有助于解決這類應用程序面臨的難題:處理亂序數據,重新處理代碼更改的輸入,執(zhí)行有狀態(tài)的計算等。
? ? Streams API基于Kafka提供的核心原語構建:它使用生產者API和消費者API輸入,使用Kafka進行有狀態(tài)存儲,并在流處理器實例之間使用相同的組機制來實現容錯。
把功能結合起來
? ??消息傳遞,存儲和流處理的這種組合可能看起來很不尋常,但對于Kafka作為流式傳輸平臺的角色來說,這是非常重要的。
? ? 像HDFS這樣的分布式文件系統(tǒng)允許存儲用于批處理的靜態(tài)文件。這樣的系統(tǒng)允許存儲和處理過去的歷史數據。
? ? 傳統(tǒng)的企業(yè)消息系統(tǒng)允許處理訂閱后才抵達的消息。以這種方式構建的應用程序處理將來的數據。
? ? Kafka結合了這兩種功能,而且這兩種組合對于Kafka用作流式傳輸應用平臺和流式數據管道都非常重要。
? ? 通過將存儲和低延遲訂閱相結合,流式應用可以以相同的方式處理過去和未來的數據。也就是一個單一的應用程序可以處理歷史的,存儲的數據,而不是在它達到最后一個記錄時結束,它可以在將來的數據到達時繼續(xù)處理。這是流處理的一般概念,包括批處理以及消息驅動的應用程序。
? ? 同樣,對于流式數據管道,結合訂閱實時事件,使得可以將Kafka用于非常低延遲的管道;可靠地存儲數據的能力可以將其用于必須保證數據交付的關鍵數據,或者與只能定期加載數據的離線系統(tǒng)集成,或者可能在較長時間內停機進行維護。流處理設施可以在數據到達時進行轉換。





