從清算風暴到雲端當機:加密基礎設施的危機時刻
20日,亞馬遜的AWS問題導致Coinbase以及包括Robinhood、Infura、Base和Solana在內的數十個其他主要加密平台癱瘓。
原文标题:Crypto Infrastructure is Far From Perfect
原文作者:YQ,加密 KOL
原文编译:AididiaoJP,Foresight News
Amazon Web Services 再次遭遇重大中斷,嚴重影響了加密基礎設施。美國東一區(北維吉尼亞數據中心)的 AWS 問題導致 Coinbase 以及包括 Robinhood、Infura、Base 和 Solana 在內的數十個其他主要加密平台癱瘓。
AWS 已承認影響 Amazon DynamoDB 和 EC2 的「錯誤率增加」,這是數千家公司所依賴的核心數據庫和計算服務。這次中斷為本文的中心論點提供了即時、鮮明的驗證:加密基礎設施對中心化雲服務供應商的依賴造成了系統性漏洞,這些漏洞在壓力下反覆顯現。
這個時機具有嚴峻的啟發性。就在 19.3 billions 美元的清算連鎖事件暴露了交易平台層面的基礎設施故障十天後,今天的 AWS 中斷表明問題已超出單一平台,延伸至基礎性的雲基礎設施層。當 AWS 出現故障時,級聯影響會同時波及中心化交易平台、具有中心化依賴的「去中心化」平台以及無數其他服務。
這不是孤立事件,而是一種模式。以下分析記錄了 2025 年 4 月、2021 年 12 月和 2017 年 3 月發生的類似 AWS 中斷事件,每次都導致主要加密服務癱瘓。問題不在於下一次基礎設施故障是否會發生,而在於何時發生以及觸發因素是什麼。
2025 年 10 月 10-11 日清算連鎖事件:案例研究
2025 年 10 月 10-11 日的清算連鎖事件為基礎設施故障模式提供了一個具有啟發性的案例研究。在 UTC 時間 20:00,一項重大的地緣政治公告引發了市場範圍的拋售。一小時內,發生了 6 billions 美元的清算。到亞洲市場開盤時,160 萬交易者帳戶中已有 19.3 billions 美元的槓桿頭寸蒸發。
圖 1:2025 年 10 月清算連鎖事件時間線
這個互動式時間線圖顯示了每小時清算量的戲劇性進展。僅第一小時就有 6 billions 美元蒸發,隨後在連鎖加速的第二小時更為劇烈。可視化顯示:
· 20:00-21:00:初始衝擊 - 6 billions 美元被清算(紅色區域)
· 21:00-22:00:連鎖高峰期 - 4.2 billions 美元,此時 API 開始限流
· 22:00-04:00:持續惡化期 - 在流動性稀薄的市場中 9.1 billions 美元被清算
· 關鍵轉折點:API 速率限制、做市商撤退、訂單簿變薄
其規模至少比以往任何加密市場事件大一個數量級,歷史比較顯示了此事件的階躍函數性質:
圖 2:歷史清算事件比較
條形圖比較戲劇性地說明了 2025 年 10 月事件的突出程度:
· 2020 年 3 月(COVID):1.2 billions 美元
· 2021 年 5 月(暴跌):1.6 billions 美元
· 2022 年 11 月(FTX):1.6 billions 美元
· 2025 年 10 月:19.3 billions 美元比先前記錄大 16 倍
但清算數字只講述了故事的一部分。更有趣的問題關乎機制:外部市場事件是如何觸發這種特定故障模式的?答案揭示了中心化交易平台基礎設施和區塊鏈協議設計中的系統性弱點。
鏈下故障:中心化交易平台架構
基礎設施過載與速率限制
交易平台 API 實施速率限制以防止濫用和管理伺服器負載。在正常操作期間,這些限制允許合法交易同時阻止潛在攻擊。在極端波動期間,當成千上萬的交易者同時嘗試調整頭寸時,這些相同的速率限制就成了瓶頸。
CEX 將清算通知限制為每秒一個訂單,即使在每秒處理數千個訂單時也是如此。在 10 月的連鎖事件期間,這造成了不透明。用戶無法確定即時的連鎖嚴重程度。第三方監控工具顯示每分鐘有數百次清算,而官方數據源顯示的要少得多。
API 速率限制阻止了交易者在關鍵的第一小時內修改頭寸,連線請求逾時,訂單提交失敗。止損單未能執行,頭寸查詢返回過時數據,這種基礎設施瓶頸將市場事件轉變成了營運危機。
傳統交易平台為正常負載加上安全餘量來配置基礎設施。但正常負載與壓力負載截然不同,日均交易量無法很好地預測峰值壓力需求。在連鎖事件期間,交易量激增 100 倍或更多,對頭寸數據的查詢增加 1000 倍,因為每個用戶同時檢查其帳戶。
圖 4.5:影響加密服務的 AWS 中斷
自動擴展的雲基礎設施有所幫助,但無法即時回應,啟動額外的數據庫讀取副本需要數分鐘。建立新的 API 閘道實例需要數分鐘。在那幾分鐘內,保證金系統繼續基於來自過載訂單簿的損壞價格數據來標記頭寸價值。
預言機操縱與定價漏洞
在 10 月的連鎖事件期間,保證金系統中的一個關鍵設計選擇變得明顯:一些交易平台基於內部現貨市場價格而非外部預言機數據流來計算抵押品價值。在正常的市場條件下,套利者維持不同場所間的價格一致性。但當基礎設施承受壓力時,這種耦合就會崩潰。
圖 3:預言機操縱流程圖
這個互動式流程圖可視化了五個階段的攻擊向量:
· 初始拋售:對 USDe 施加 6000 萬美元的拋售壓力
· 價格操縱:USDe 在單一交易所從 1.00 美元暴跌至 0.65 美元
· 預言機故障:保證金系統使用損壞的內部價格數據流
· 連鎖觸發:抵押品被調低估值,強制清算開始
· 放大:總計 19.3 billions 美元的清算(放大 322 倍)
該攻擊利用了 Binance 對包裝合成抵押品使用現貨市場價格的設定。當攻擊者將 6000 萬美元的 USDe 拋入相對稀薄的訂單簿時,現貨價格從 1.00 美元暴跌至 0.65 美元。配置為按現貨價格標記抵押品的保證金系統,將所有 USDe 抵押的頭寸向下重估了 35%。這觸發了數千個帳戶的追加保證金通知和強制清算。
這些清算迫使更多賣單進入同一非流動性市場,進一步壓低價格。保證金系統觀察到這些更低的價格,並標記了更多頭寸的價值,反饋回路將 6000 萬美元的拋售壓力放大成了 19.3 billions 美元的強制清算。
圖 4:清算連鎖反饋回路
這個循環反饋圖說明了連鎖的自我強化性質:
價格下跌 → 觸發清算 → 強制賣出 → 價格進一步下跌 → [循環重複]
如果採用設計得當的預言機系統,這種機制就不會起作用。如果 Binance 使用了跨多個交易平台的時間加權平均價格(TWAP),瞬時的價格操縱就不會影響抵押品估值。如果他們使用了來自 Chainlink 或其他多源預言機的聚合價格數據流,攻擊就會失敗。
四天前的 wBETH 事件展示了類似的漏洞。wBETH 應保持與 ETH 的 1:1 兌換比率。在連鎖事件期間,流動性枯竭,wBETH/ETH 現貨市場顯示出 20% 的折價。保證金系統相應地調低了 wBETH 抵押品的估值,觸發了實際上由底層 ETH 完全抵押的頭寸的清算。
自動減倉(ADL)機制
當清算無法以當前市場價格執行時,交易平台會實施自動減倉(ADL),將損失分攤給盈利的交易者。ADL 以當前價格強制平倉盈利頭寸,以彌補被清算頭寸的缺口。
在 10 月的連鎖事件期間,Binance 在多個交易對上執行了 ADL。持有盈利多頭頭寸的交易者發現他們的交易被強制平倉,並非由於他們自身的風險管理失敗,而是因為其他交易者的頭寸變得資不抵債。
ADL 反映了中心化衍生品交易中的一個基本架構選擇。交易平台保證自己不會虧錢。這意味著損失必須由以下一方或多方承擔:
· 保險基金(交易平台預留用於彌補清算缺口的資金)
· ADL(強制盈利交易者平倉)
· 社會化損失(將損失分攤給所有用戶)
保險基金規模相對於未平倉合約的規模決定了 ADL 的頻率。Binance 的保險基金在 2025 年 10 月總計約 2 billions 美元。相對於 BTC、ETH 和 BNB 永續合約的 4 billions 美元未平倉合約,這提供了 50% 的覆蓋率。但在 10 月的連鎖事件期間,所有交易對的未平倉合約總額超過了 20 billions 美元。保險基金無法覆蓋缺口。
10 月連鎖事件後,Binance 宣布,當總未平倉合約保持在 4 billions 美元以下時,他們保證 BTC、ETH 和 BNB USDⓈ-M 合約不會發生 ADL。這創造了一種激勵結構:交易平台可以維持更大的保險基金以避免 ADL,但這會佔用本可以盈利部署的資金。
鏈上故障:區塊鏈協議的侷限性
條形圖比較了不同事件中的停機時間:
· Solana(2024 年 2 月):5 小時 - 投票吞吐量瓶頸
· Polygon(2024 年 3 月):11 小時 - 驗證器版本不匹配
· Optimism(2024 年 6 月):2.5 小時 - 定序器過載(空投)
· Solana(2024 年 9 月):4.5 小時 - 交易垃圾郵件攻擊
· Arbitrum(2024 年 12 月):1.5 小時 - RPC 供應商故障
圖 5:主要網路中斷 - 持續時間分析
Solana:共識瓶頸
Solana 在 2024-2025 年期間經歷了多次中斷。2024 年 2 月的中斷持續了約 5 小時,2024 年 9 月的中斷持續了 4-5 小時。這些中斷源於相似的根本原因:網路在垃圾郵件攻擊或極端活動期間無法處理交易量。
圖 5 詳情:Solana 的中斷(2 月 5 小時,9 月 4.5 小時)凸顯了壓力下網路彈性的反覆出現的問題。
Solana 的架構為吞吐量進行了優化。在理想條件下,網路處理每秒 3,000-5,000 筆交易,並具有亞秒級最終性。這種性能比以太坊高出幾個數量級。但在壓力事件期間,這種優化創造了漏洞。
2024 年 9 月的中斷源於一波垃圾交易洪流,壓垮了驗證器的投票機制。Solana 驗證器必須對區塊進行投票以達成共識。在正常操作期間,驗證器優先處理投票交易以確保共識進展。但該協議此前在費用市場方面將投票交易視同常規交易。
當交易記憶體池充滿數百萬的垃圾交易時,驗證器難以傳播投票交易。沒有足夠的投票,區塊就無法最終確定。沒有最終確定的區塊,鏈就停止了。有待處理交易的用戶看到它們卡在記憶體池中。新交易無法提交。
StatusGator 記錄了 2024-2025 年多次 Solana 服務中斷,而 Solana 從未正式承認。這造成了資訊不對稱。用戶無法區分本地連線問題與全網範圍的問題。第三方監控服務提供了問責制,但平台應維護全面的狀態頁面。
以太坊:Gas 費爆炸
以太坊在 2021 年 DeFi 繁榮期間經歷了極端的 Gas 費飆升,簡單轉帳的交易費超過 100 美元。複雜的智能合約互動花費 500-1000 美元。這些費用使得網路對於較小額的交易無法使用,同時啟用了一種不同的攻擊向量:MEV 提取。
圖 7:網路壓力期間的交易成本
這張折線圖戲劇性地顯示了壓力事件期間各網路的 Gas 費升級:
· 以太坊:5 美元(正常)→ 450 美元(峰值擁堵)- 增加 90 倍
· Arbitrum:0.50 美元 → 15 美元 - 增加 30 倍
· Optimism:0.30 美元 → 12 美元 - 增加 40 倍
可視化表明,即使 Layer 2 解決方案也經歷了顯著的 Gas 費升級,儘管起點要低得多。
最大可提取價值(MEV)描述了驗證器通過重新排序、包含或排除交易可以提取的利潤。在高 Gas 費環境中,MEV 變得特別有利可圖。套利者競相搶跑大型 DEX 交易,清算機器人競相首先清算抵押不足的頭寸。這種競爭表現為 Gas 費競價戰。
想要在擁堵期間確保交易被包含的用戶必須出價高於 MEV 機器人。這造成了交易費超過交易價值的情景。想領取你的 100 美元空投?支付 150 美元的 Gas 費。需要添加抵押品以避免清算?與支付 500 美元優先費的機器人競爭。
以太坊的 Gas 限制限制了每個區塊的總計算量。在擁堵期間,用戶競標稀缺的區塊空間。費用市場按設計工作:出價更高者獲得優先權。但這種設計使得網路在高使用量期間越來越昂貴,而這恰恰發生在用戶最需要訪問的時候。
Layer 2 解決方案試圖通過將計算移至鏈下來解決這個問題,同時通過定期結算繼承以太坊的安全性。Optimism、Arbitrum 和其他 Rollup 在鏈下處理數千筆交易,然後將壓縮證明提交給以太坊。這種架構在正常操作期間成功降低了每筆交易的成本。
Layer 2:定序器瓶頸
但 Layer 2 解決方案引入了新的瓶頸。Optimism 在 2024 年 6 月當 25 萬個地址同時申領空投時經歷了一次中斷。定序器在將交易提交給以太坊之前對交易進行排序的組件不堪重負,用戶有幾個小時無法提交交易。
這次中斷表明,將計算移至鏈下並不能消除基礎設施需求。定序器必須處理傳入交易,對它們進行排序,執行它們,並為以太坊結算生成欺詐證明或 ZK 證明。在極端流量下,定序器面臨著與獨立區塊鏈相同的擴展挑戰。
必須保持多個 RPC 供應商的可用性。如果主供應商故障,用戶應無縫故障轉移到備選方案。在 Optimism 中斷期間,一些 RPC 供應商保持功能,而其他則故障。錢包預設連線到故障供應商的用戶無法與鏈互動,即使鏈本身仍然在線。
AWS 中斷已反覆證明加密生態系統中存在集中的基礎設施風險:
· 2025 年 10 月 20 日(今日):美國東一區中斷影響 Coinbase,以及 Venmo、Robinhood 和 Chime。AWS 承認 DynamoDB 和 EC2 服務錯誤率增加。
· 2025 年 4 月:區域性中斷同時影響 Binance、KuCoin 和 MEXC。當其 AWS 託管的組件故障時,多個主要交易所變得不可用。
· 2021 年 12 月:美國東一區中斷導致 Coinbase、Binance.US 以及「去中心化」交易平台 dYdX 癱瘓 8-9 小時,同時影響亞馬遜自己的倉庫和主要串流媒體服務。
· 2017 年 3 月:S3 中斷阻止用戶登入 Coinbase 和 GDAX 達五小時,同時伴有廣泛的網路中斷。
模式很清楚:這些交易平台在 AWS 基礎設施上託管關鍵組件。當 AWS 經歷區域性中斷時,多個主要交易平台和服務同時變得不可用。用戶在中斷期間無法訪問資金、執行交易或修改頭寸,而這恰恰是市場波動可能要求立即採取行動的時候。
Polygon:共識版本不匹配
Polygon(前身為 Matic)在 2024 年 3 月經歷了 11 小時的中斷。根本原因涉及驗證器版本不匹配,一些驗證器運行舊軟體版本,而其他驗證器運行升級後的版本。這些版本以不同方式計算狀態轉換。
圖 5 詳情:Polygon 中斷(11 小時)是所分析的主要事件中最長的,凸顯了共識故障的嚴重性。
當驗證器對正確狀態得出不同結論時,共識失敗,鏈無法產生新區塊,因為驗證器無法就區塊有效性達成一致。這造成了僵局:運行舊軟體的驗證器拒絕運行新軟體的驗證器產生的區塊,而運行新軟體的驗證器拒絕運行舊軟體的驗證器產生的區塊。
解決需要協調驗證器升級,但在中斷期間協調驗證器升級需要時間。每個驗證器操作員必須被聯繫,必須部署正確的軟體版本,並且必須重新啟動其驗證器。在一個擁有數百個獨立驗證器的去中心化網路中,這種協調需要數小時或數天。
硬分叉通常使用區塊高度觸發器。所有驗證器在特定區塊高度前升級,確保同時啟動,但這需要事先協調。增量升級,即驗證器逐步採用新版本,存在造成導致 Polygon 中斷的確切版本不匹配的風險。
架構權衡
圖 6:區塊鏈三難困境 - 去中心化 vs 性能
這個散點圖可視化將不同系統映射到兩個關鍵維度:
· bitcoin:高去中心化,低性能
· 以太坊:高去中心化,中等性能
· Solana:中等去中心化,高性能
· Binance(CEX):最小去中心化,最大性能
· Arbitrum/Optimism:中高去中心化,中等性能
關鍵洞察:沒有系統能同時實現最大去中心化和最大性能,每種設計都為不同的用例做出了深思熟慮的權衡。
中心化交易平台通過架構簡單性實現低延遲,撮合引擎在微秒內處理訂單,狀態存在於中心化數據庫中。沒有共識協議引入開銷,但這種簡單性創造了單點故障,當基礎設施承受壓力時,級聯故障通過緊密耦合的系統傳播。
去中心化協議將狀態分布在驗證器之間,消除了單點故障。高吞吐量鏈在中斷期間保持此屬性(資金無損失,僅活性暫時受損)。但在分布式驗證器之間達成共識引入了計算開銷,驗證器必須在狀態轉換最終確定之前達成一致。當驗證器運行不相容的版本或面臨壓倒性的流量時,共識過程可能會暫時停止。
添加副本提高了容錯能力,但增加了協調成本。在拜占庭容錯系統中,每個額外的驗證器都會增加通訊開銷。高吞吐量架構通過優化的驗證器通訊來最小化這種開銷,從而實現卓越性能,但容易受到某些攻擊模式的影響。注重安全性的架構優先考慮驗證器多樣性和共識穩健性,限制基礎層吞吐量,同時最大化彈性。
Layer 2 解決方案試圖通過分層設計來提供這兩種屬性。它們通過 L1 結算繼承以太坊的安全屬性,同時通過鏈下計算提供高吞吐量。然而它們在定序器和 RPC 層引入了新的瓶頸,表明架構複雜性在解決一些問題的同時創造了新的故障模式。
擴展仍然是根本問題
這些事件揭示了一個一致的模式:系統為正常負載配置資源,然後在壓力下災難性地失敗。Solana 有效處理了常規流量,但在交易量增加 10,000% 時崩潰。以太坊 Gas 費保持合理,直到 DeFi 採用引發擁堵。Optimism 的基礎設施運行良好,直到 25 萬個地址同時申領空投。Binance 的 API 在正常交易期間功能正常,但在清算連鎖期間受到限制。
2025 年 10 月的事件在交易所層面展示了這種動態。在正常操作期間,Binance 的 API 速率限制和數據庫連線足夠,但在清算連鎖期間,當每個交易者同時嘗試調整頭寸時,這些限制就成了瓶頸。旨在通過強制清算保護交易所的保證金系統,通過在最糟糕的時刻創造強制賣方,放大了危機。
自動擴展對階躍函數式的負載增加提供的保護不足。啟動額外的伺服器需要數分鐘,在那幾分鐘內,保證金系統基於來自稀薄訂單簿的損壞價格數據來標記頭寸價值,等到新容量上線時,連鎖反應已經傳播。
為罕見的壓力事件過度配置資源在正常操作期間耗費資金。交易所營運商為典型負載進行優化,接受偶爾的故障作為經濟上合理的選擇。停機的成本外部化給用戶,他們在關鍵市場變動期間經歷清算、交易卡住或無法訪問資金。
基礎設施改進
圖 8:基礎設施故障模式分布(2024-2025)
根本原因的餅圖分解顯示:
· 基礎設施過載:35%(最常見)
· 網路擁堵:20%
· 共識失敗:18%
· 預言機操縱:12%
· 驗證器問題:10%
· 智能合約漏洞:5%
幾種架構變更可以減少故障頻率和嚴重性,儘管每種都涉及權衡:
定價系統與清算系統的分離
10 月的問題部分源於將保證金計算與現貨市場價格耦合。對包裝資產使用兌換比率而非現貨價格本可以避免 wBETH 的錯誤定價。更普遍地說關鍵的風險管理系統不應依賴於可能被操縱的市場數據。具有多源聚合和 TWAP 計算的獨立預言機系統提供更穩健的價格數據流。
過度配置和冗餘基礎設施
2025 年 4 月影響 Binance、KuCoin 和 MEXC 的 AWS 中斷證明了集中基礎設施依賴的風險。跨多個雲供應商運行關鍵組件增加了營運複雜性和成本,但消除了關聯故障。Layer 2 網路可以維護多個具有自動故障轉移的 RPC 供應商。額外的費用在正常操作期間看似浪費,但在峰值需求期間防止了多小時的停機。
增強的壓力測試和容量規劃
系統在正常時運行良好直至失敗的模式表明在壓力下的測試不足。模擬 100 倍正常負載應是標準實踐,在開發中識別瓶頸的成本低於在實際中斷期間發現它們。然而現實的負載測試仍然具有挑戰性。生產流量表現出合成測試無法完全捕捉的模式,用戶在實際崩潰期間的行為與測試期間不同。
前進之路
過度配置提供了最可靠的解決方案,但與經濟激勵相衝突。為罕見事件維持 10 倍的過剩容量每天都需要花錢,以防止每年發生一次的問題。在災難性故障施加足夠成本以證明過度配置合理之前,系統將在壓力下繼續失敗。
監管壓力可能迫使改變。如果法規強制要求 99.9% 的正常運行時間或限制可接受的停機時間,交易平台將需要過度配置。但法規通常跟隨災難而來,而不是預防它們。Mt. Gox 在 2014 年的崩潰導致日本制定了正式的加密貨幣交易平台法規。2025 年 10 月的連鎖事件很可能引發類似的監管回應。這些回應是指定結果(最大可接受停機時間、清算期間最大滑點)還是實施方式(特定的預言機供應商、熔斷閾值)尚不確定。
根本的挑戰在於,這些系統在全球市場中持續運行,但依賴於為傳統商業時間設計的基礎設施。當壓力在 02:00 發生時,團隊爭相部署修復,而用戶面臨不斷增加的損失。傳統市場在壓力期間停止交易;加密市場只是崩潰。這代表的是特性還是缺陷,取決於視角和立場。
區塊鏈系統在短時間內實現了顯著的技術複雜性。在數千個節點之間維持分布式共識代表了真正的工程成就。但要在壓力下實現可靠性,需要超越原型架構,轉向生產級的基礎設施。這種轉變需要資金,並需要將穩健性置於功能開發速度之上。
挑戰在於,在牛市期間,當每個人都在賺錢且停機似乎是別人的問題時,如何將穩健性置於成長之上。等到下一個週期壓力測試系統時,新的弱點將會出現。行業是從 2025 年 10 月吸取教訓,還是重複類似的模式,仍然是一個懸而未決的問題。歷史表明,我們將通過另一次壓力下的數十億美元失敗來發現下一個關鍵漏洞。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
比特幣價格將於2026年上漲6倍?M2供應激增引發新冠疫情時期的比較
「最聰明的錢包勝出」:業界領袖表示,AI與用戶體驗將推動下一波主流加密貨幣採用潮
根據來自Base、Rhinestone、Zerion和Askgina.ai的業界領袖表示,直觀的設計和AI驅動的功能將定義錢包創新的下一階段。他們指出,更智能的入門流程和代理協助型錢包有助於縮短crypto原生用戶與主流用戶之間的差距。

印度、美國持續引領全球加密貨幣採用,穩定幣動能增強:TRM Labs
TRM Labs在一份最新報告中表示,印度和美國於2025年1月至7月期間繼續領先加密貨幣的採用。報告指出,美國市場出現顯著增長,加密貨幣交易量在2025年前七個月增長約50%,超過1 trillion美元。

Aave DAO提議啟動每年5,000萬美元的代幣回購計劃,資金來源為協議收入
快速摘要:由Marc Zeller創立的Aave Chan Initiative(ACI)提出了一項每年5,000萬美元的AAVE回購計劃,資金來自協議收入。該方案將使Aave的回購成為永久性機制,強化“Aavenomics”,並為該代幣帶來持續的買入壓力。

加密貨幣價格
更多








