實戰 Kafka 4.0 編程：Python 生產者 & 消費者最佳實踐與排錯

2026-04-26 Python 編程

文章圖片

實戰 Kafka 4.0 編程：Python 生產者 & 消費者最佳實踐與排錯
理論學再多，不如上手敲代碼！前面我們又是搭集群，又是講概念，今天終于到了激動人心的編程實戰環節！

我們將使用 Python 這個“萬金油”語言，連接到我們親手搭建的 Kafka 4.0 KRaft 集群，編寫生產者（Producer）發送消息，再編寫消費者（Consumer）接收消息。
更重要的是，我們會穿插一個 “開發運維扯皮角” 環節，專門聊聊那些在實際工作中，開發和運維因為 Kafka 問題經常battle的場景，以及如何從根源上解決它們。

準備工作：安裝 Python Kafka 庫我們需要一個強大的 Python 庫來和 Kafka 交互。 kafka-python 是一個非常流行的選擇。
pip install kafka-python生產者（Producer）：把消息送上車生產者負責將業務消息發送到指定的 Topic 。下面是一個簡單但包含了最佳實踐的生產者代碼。

# producer.pyfrom kafka import KafkaProducerimport jsonimport time# --- 最佳實踐：配置要清晰 ---# 1. 集群地址列表 ， 即使只有一個也要寫成列表 ， 方便擴展bootstrap_servers = ['192.168.1.11:9092' '192.168.1.12:9092' '192.168.1.13:9092'
# 2. Topic 名稱topic_name = 'hello-kraft'# 3. 序列化器：將 Python 字典轉為 JSON 字符串再編碼為字節流def json_serializer(data):return json.dumps(data).encode('utf-8')# --- 創建生產者實例 ---producer = KafkaProducer(bootstrap_servers=bootstrap_serversvalue_serializer=json_serializer# acks='all' 保證數據不丟失 ， 是生產環境推薦的配置acks='all'# 重試次數 ， 應對網絡抖動retries=3)print(\"生產者已啟動 ， 開始發送消息...\")# --- 發送消息 ---for i in range(10):message = {'event_id': i'message': f'Hello Kafka from Python! Message #{i''timestamp': time.time()try:# 發送！.get() 會阻塞直到消息發送成功或失敗future = producer.send(topic_name value=https://mparticle.uc.cn/api/message)record_metadata = future.get(timeout=10)print(f/"消息發送成功 -> Topic: {record_metadata.topic Partition: {record_metadata.partition Offset: {record_metadata.offset\")except Exception as e:print(f\"消息發送失敗: {e\")# 這里可以加入更復雜的錯誤處理邏輯 ， 比如記錄日志、告警time.sleep(1)# --- 關閉生產者 ---producer.flush()producer.close()print(\"生產者已關閉 。 \")

? 開發運維扯皮角 (Producer篇)

開發：“我程序報 KafkaTimeoutError！是不是 Kafka 集群掛了？”
運維：“我看了監控，集群好好的！是不是你代碼有問題？”

排查思路：

網絡先行：運維首先要確認，開發的應用服務器能否 telnet 192.168.1.11 9092 通。 90% 的連接問題都是網絡不通或防火墻。
檢查 advertised.listeners：運維要再次確認 Kafka Broker 的 advertised.listeners 配置的是不是開發能訪問的 IP 。這是新手運維最常犯的錯！
代碼配置 acks：開發要檢查 acks 配置。如果 acks='all' ，意味著需要所有副本都確認收到才算成功，這對網絡的穩定性和延遲要求更高。如果業務允許，可以降級為 acks=1（僅 Leader 確認）來提高發送速度，但會犧牲一點點可靠性。
消息大?。嚎⒁啡戲⑺偷南⑹欠癯?Kafka 的 message.max.bytes 限制（默認 1MB）。

消費者（Consumer）：從車上取包裹消費者負責從 Topic 訂閱并處理消息。

# consumer.pyfrom kafka import KafkaConsumerimport json# --- 配置 ---bootstrap_servers = ['192.168.1.11:9092' '192.168.1.12:9092' '192.168.1.13:9092'
topic_name = 'hello-kraft'# 【關鍵】消費者組 ID ， 同一組的消費者會分攤 Partitiongroup_id = 'my-first-consumer-group'# --- 創建消費者實例 ---consumer = KafkaConsumer(topic_namebootstrap_servers=bootstrap_serversgroup_id=group_id# auto_offset_reset='earliest' 表示從最早的消息開始消費# 如果設置為 'latest' ， 則只消費啟動后到達的新消息auto_offset_reset='earliest'# 自動提交 offset ， 生產環境可能需要手動提交以保證精確一次處理enable_auto_commit=Trueauto_commit_interval_ms=5000 # 5秒提交一次# 反序列化器value_deserializer=lambda v: json.loads(v.decode('utf-8')))print(f\"消費者已啟動 ， 正在監聽 Topic '{topic_name'...\")# --- 循環消費消息 ---try:for message in consumer:print(f\"收到消息 -> Partition: {message.partition Offset: {message.offset\")print(f\"Key: {message.key Value: {message.value\")# 在這里編寫你的業務處理邏輯# ...except KeyboardInterrupt:print(\"停止消費...\")finally:consumer.close()print(\"消費者已關閉 。 \")

? 開發運維扯皮角 (Consumer篇)

開發：“我的服務好像重復消費了好多消息?。 afka 的 bug？”
運維：“集群沒問題。你看看你的 group.id 是不是沒設對？或者處理邏輯太慢了？”

【實戰 Kafka 4.0 編程：Python 生產者 & 消費者最佳實踐與排錯】排查思路：

group.id 是靈魂：開發必須保證，所有處理同一業務邏輯的消費者實例，都使用相同的 group.id 。如果每個實例都隨機生成一個 group.id ，那 Kafka 會認為它們都是獨立的消費者，于是把所有消息都發給它們一遍，造成“偽重復消費” 。
消費 rebalance：運維可以觀察日志，看消費者組是否頻繁發生 rebalance（重平衡）。當一個消費者加入或離開組時，會觸發 rebalance ，分區會重新分配。如果消費者的處理邏輯時間超過了 Kafka 的 session.timeout.ms（默認 45 秒）， Broker 會認為它“假死”了，將它踢出組，從而引發 rebalance 。這是導致重復消費的常見原因。
消息積壓 (Lag)：運維的核心職責是監控 Consumer Lag 。如果 Lag 持續增大，說明消費速度跟不上生產速度。此時需要：分析瓶頸：是消費者的處理邏輯太慢（比如調用外部 API、復雜計算）？還是資源不足（CPU、內存）？擴容：如果邏輯無法優化，最直接的辦法就是增加消費者實例。但前提是，你的 Topic 分區數必須大于等于消費者實例數，否則多出來的消費者實例會閑置，無法提高并行度。這就是為什么我們在上一篇強調“合理規劃分區數”如此重要！

推薦閱讀

上一篇：7月國補后，價格“雪崩”的驍龍8至尊版手機，一步到位用6年

下一篇：2025 Bilibili World展會采風：技嘉AORUS詮釋“雕宅萬象”