到目前為止,我們討論了 Kafka 的核心概念。 讓我們現(xiàn)在來(lái)看一下 Kafka 的工作流程。
Kafka 只是分為一個(gè)或多個(gè)分區(qū)的主題的集合。Kafka 分區(qū)是消息的線性有序序列,其中每個(gè)消息由它們的索引(稱為偏移)來(lái)標(biāo)識(shí)。Kafka 集群中的所有數(shù)據(jù)都是不相連的分區(qū)聯(lián)合。 傳入消息寫在分區(qū)的末尾,消息由消費(fèi)者順序讀取。 通過(guò)將消息復(fù)制到不同的代理提供持久性。
Kafka 以快速,可靠,持久,容錯(cuò)和零停機(jī)的方式提供基于pub-sub 和隊(duì)列的消息系統(tǒng)。 在這兩種情況下,生產(chǎn)者只需將消息發(fā)送到主題,消費(fèi)者可以根據(jù)自己的需要選擇任何一種類型的消息傳遞系統(tǒng)。 讓我們按照下一節(jié)中的步驟來(lái)了解消費(fèi)者如何選擇他們選擇的消息系統(tǒng)。
發(fā)布 - 訂閱消息的工作流程
以下是 Pub-Sub 消息的逐步工作流程 -
- 生產(chǎn)者定期向主題發(fā)送消息。
- Kafka 代理存儲(chǔ)為該特定主題配置的分區(qū)中的所有消息。 它確保消息在分區(qū)之間平等共享。 如果生產(chǎn)者發(fā)送兩個(gè)消息并且有兩個(gè)分區(qū),Kafka 將在第一分區(qū)中存儲(chǔ)一個(gè)消息,在第二分區(qū)中存儲(chǔ)第二消息。
- 消費(fèi)者訂閱特定主題。
- 一旦消費(fèi)者訂閱主題,Kafka 將向消費(fèi)者提供主題的當(dāng)前偏移,并且還將偏移保存在 Zookeeper 系統(tǒng)中。
- 消費(fèi)者將定期請(qǐng)求 Kafka (如100 Ms)新消息。
- 一旦 Kafka 收到來(lái)自生產(chǎn)者的消息,它將這些消息轉(zhuǎn)發(fā)給消費(fèi)者。
- 消費(fèi)者將收到消息并進(jìn)行處理。
- 一旦消息被處理,消費(fèi)者將向 Kafka 代理發(fā)送確認(rèn)。
- 一旦 Kafka 收到確認(rèn),它將偏移更改為新值,并在 Zookeeper 中更新它。 由于偏移在 Zookeeper 中維護(hù),消費(fèi)者可以正確地讀取下一封郵件,即使在服務(wù)器暴力期間。
- 以上流程將重復(fù),直到消費(fèi)者停止請(qǐng)求。
- 消費(fèi)者可以隨時(shí)回退/跳到所需的主題偏移量,并閱讀所有后續(xù)消息。
隊(duì)列消息/用戶組的工作流
在隊(duì)列消息傳遞系統(tǒng)而不是單個(gè)消費(fèi)者中,具有相同組 ID 的一組消費(fèi)者將訂閱主題。 簡(jiǎn)單來(lái)說(shuō),訂閱具有相同 Group ID 的主題的消費(fèi)者被認(rèn)為是單個(gè)組,并且消息在它們之間共享。 讓我們檢查這個(gè)系統(tǒng)的實(shí)際工作流程。
- 生產(chǎn)者以固定間隔向某個(gè)主題發(fā)送消息。
- Kafka存儲(chǔ)在為該特定主題配置的分區(qū)中的所有消息,類似于前面的方案。
- 單個(gè)消費(fèi)者訂閱特定主題,假設(shè) Topic-01 為 Group ID 為 Group-1 。
- Kafka 以與發(fā)布 - 訂閱消息相同的方式與消費(fèi)者交互,直到新消費(fèi)者以相同的組 ID 訂閱相同主題Topic-01 1 。
- 一旦新消費(fèi)者到達(dá),Kafka 將其操作切換到共享模式,并在兩個(gè)消費(fèi)者之間共享數(shù)據(jù)。 此共享將繼續(xù),直到用戶數(shù)達(dá)到為該特定主題配置的分區(qū)數(shù)。
- 一旦消費(fèi)者的數(shù)量超過(guò)分區(qū)的數(shù)量,新消費(fèi)者將不會(huì)接收任何進(jìn)一步的消息,直到現(xiàn)有消費(fèi)者取消訂閱任何一個(gè)消費(fèi)者。 出現(xiàn)這種情況是因?yàn)?Kafka 中的每個(gè)消費(fèi)者將被分配至少一個(gè)分區(qū),并且一旦所有分區(qū)被分配給現(xiàn)有消費(fèi)者,新消費(fèi)者將必須等待。
- 此功能也稱為使用者組。 同樣,Kafka 將以非常簡(jiǎn)單和高效的方式提供兩個(gè)系統(tǒng)中最好的。
ZooKeeper 的作用
Apache Kafka 的一個(gè)關(guān)鍵依賴是 Apache Zookeeper,它是一個(gè)分布式配置和同步服務(wù)。Zookeeper 是 Kafka 代理和消費(fèi)者之間的協(xié)調(diào)接口。Kafka 服務(wù)器通過(guò) Zookeeper 集群共享信息。Kafka 在 Zookeeper 中存儲(chǔ)基本元數(shù)據(jù),例如關(guān)于主題,代理,消費(fèi)者偏移(隊(duì)列讀取器)等的信息。
由于所有關(guān)鍵信息存儲(chǔ)在 Zookeeper 中,并且它通常在其整體上復(fù)制此數(shù)據(jù),因此Kafka代理/ Zookeeper 的故障不會(huì)影響 Kafka 集群的狀態(tài)。Kafka 將恢復(fù)狀態(tài),一旦 Zookeeper 重新啟動(dòng)。 這為Kafka帶來(lái)了零停機(jī)時(shí)間。Kafka 代理之間的領(lǐng)導(dǎo)者選舉也通過(guò)使用 Zookeeper 在領(lǐng)導(dǎo)者失敗的情況下完成。
更多建議: