
原文:YQ
編譯:Yuliya,PANews
10月20日,亞馬遜雲服務(AWS)再次經歷了一次重大中斷,嚴重影響了加密貨幣基礎設施。北京時間下午16點左右開始,AWS位於US-EAST-1區域(北弗吉尼亞數據中心)的問題導致了Coinbase以及包括Robinhood、Infura、Base和Solana在内的數十個主要加密平台的宕機。
AWS已經承認其核心數據庫和計算服務——Amazon DynamoDB和EC2——出現了“錯誤率增加”的情況,而這正是成千上萬家公司所依賴的服務。這次實時發生的中斷,為本文的核心論點提供了直接而鮮明的印證:加密基礎設施對中心化雲服務提供商的依賴,創造了係統性的脆弱點,這些脆弱點在壓力下會反復暴露出來。
這個時機極具警示意義。在價值193億美元的清算瀑佈暴露了交易所層面的基礎設施失靈僅十天後,AWS中斷表明,問題已經從單個平台延伸到了基礎的雲基礎設施層面。當AWS出現故障時,其連鎖反應會同時沖擊中心化交易所、去中心化”但仍依賴中心化組件的平台,以及無數依附其上的服務。
這並非孤立事件,而是長期模式的延續。2025年4月、2021年12月以及2017年3月均發生過類似的AWS宕機事件,每次都導致主流加密服務中斷。問題已不在於“是否”會再次發生,而在於“何時”以及“由何觸發”。
這場發生於2025年10月10日至11日的清算連鎖事件,成為基礎設施失效機制的典型案例。UTC時間10月10日20:00(北京時間10月11日4:00),一項重大地緣政治公告引發市場普遍抛售。在短短一小時内,清算規模高達60億美元。當亞洲市場開盤時,槓桿頭寸的總體蒸發額已達193億美元,波及160萬名交易者賬戶。

圖1:2025年10月清算瀑佈時間綫(UTC時間)
關鍵轉折點包括API限速、做市商退出、訂單簿流動性急劇下降。

圖2:歷史清算事件比較
此次事件的規模超越以往任何加密市場事件至少一個數量級。縱向比較可見這一事件的跳躍式特徵:
然而,清算數據只是表象。更關鍵的問題在於機制層面:外部市場事件為何能觸發如此特定的失效模式?答案揭示了中心化交易所架構與區塊鏈協議設計中存在的係統性弱點。
交易所的API通常設有限速機制,用於防止濫用並維持服務器負載穩定。在常規環境下,這種限制可阻止攻擊並確保交易順暢。然而在極端波動期間,當成千上萬交易者同時嘗試調整倉位時,這一機制反而成為瓶頸。
在此次清算期間,CEX(中心化交易所)將清算通知限速為每秒一單,而係統實際需處理數千單。結果,信息透明度驟降,用戶無法實時了解連鎖清算的嚴重程度。第三方監控工具顯示每分鐘數百筆清算,而官方數據卻少得多。
API限速導致交易者在最關鍵的首小時内無法調整倉位。連接請求超時、下單失敗、止損指令未能執行、倉位數據延遲更新——所有這些都將市場事件轉化為操作性危機。
傳統交易所通常為“常規負載+安全冗餘”進行資源配置,但常規負載與極端負載之間差距極大。日均交易量不足以預測極端壓力下的需求峰值。在連鎖清算期間,交易量可激增100倍,倉位查詢次數甚至飙升1000倍。每個用戶同時檢查賬戶,令係統幾近癱瘓。

圖4.5:影響加密服務的AWS中斷事件
雲基礎設施的自動擴容雖有幫助,但無法即時響應。創建額外數據庫副本需要幾分鐘,生成新的API網關實例同樣需數分鐘。而在這段時間内,保證金係統仍基於因訂單簿擁堵而失真的價格數據對倉位進行結算標記。
在10月清算事件中,保證金係統的一個關鍵設計缺陷被暴露:部分交易所依據内部現貨價格而非外部預言機價格來計算抵押品價值。在常規市場環境下,套利者能維持不同交易所間的價格一致性,但當基礎設施承壓時,這一聯動機制失效。

圖3:預言機操縱流程圖
攻擊路徑可分為五個階段:
這次攻擊利用了幣安使用現貨市場價格來為封裝的合成抵押品定價的機制。當一名攻擊者將價值6000萬美元的USDe抛售到流動性相對稀薄的訂單簿中時,現貨價格從1.00美元暴跌至0.65美元。被配置為按現貨價格標記抵押品的保證金係統,將所有以USDe為抵押品的頭寸價值下調了35%。這引發了追加保證金通知和數千個賬戶的強制清算。
這些清算迫使更多賣單進入同一個缺乏流動性的市場,進一步壓低了價格。保證金係統觀察到這些更低的價格,並減記了更多的頭寸。這個反饋循環將6000萬美元的賣壓放大了322倍,最終導致了193億美元的強制清算。

圖4:清算瀑佈反饋循環
這個循環反饋圖說明了瀑佈的自我強化性質:
價格下跌 → 觸發清算 → 強制賣出 → 價格進一步下跌 → [循環重復]
如果有一個設計合理的預言機係統,這種機制是行不通的。如果幣安使用了跨多個交易所的時間加權平均價格(TWAP),那麼瞬間的價格操縱就不會影響抵押品的估值。如果他們使用了來自Chainlink或其他多源預言機的聚合價格信息,這次攻擊也會失敗。
幾天前的wBETH事件亦暴露類似問題Wrapped Binance ETH(wBETH)本應與ETH保持1:1的兌換率。但在瀑佈期間,流動性枯竭,wBETH/ETH的現貨市場出現了20%的折價。保證金係統因此相應地減記了wBETH抵押品,觸發了對那些實際上由底層ETH完全抵押的頭寸的清算。
當清算無法以當前市價執行時,交易所會實施自動減倉(ADL)機制,將損失在盈利的交易員中進行社會化分攤。ADL會以當前價格強制平掉盈利的頭寸,以彌補被清算頭寸的虧空。
在10月的瀑佈期間,幣安在多個交易對上執行了ADL。持有盈利多頭頭寸的交易員發現他們的交易被強制平倉,不是因為他們自身的風險管理失敗,而是因為其他交易員的頭寸變得資不抵債。
ADL反映出中心化衍生品交易的底層架構選擇:交易所保證自身不虧損,因而損失必然由以下幾種方式承擔:
保險基金規模相對於未平倉合約的比例決定了ADL的發生頻率。2025年10月,幣安的保險基金總額約為20億美元。相對於BTC、ETH和BNB永續合約40億美元的未平倉合約,這提供了50%的覆蓋。但在10月的瀑佈期間,所有交易對的未平倉合約總額超過了200億美元,保險基金無法覆蓋虧空。
10月瀑佈事件後,幣安宣佈,當BTC、ETH和BNB的U本位永續合約總未平倉量低於40億美元時,他們將保證不發生ADL。這一政策雖提升信任,但也暴露了結構性矛盾:若交易所要完全避免ADL,必須持有更大規模保險基金,而這會佔用本可盈利運用的資金。

圖5:主要網絡中斷 - 持續時間分析
Solana在2024-2025年間經歷了多次中斷。2024年2月的中斷持續了約5小時,9月的中斷持續了4-5小時。這些中斷源於相似的根本原因:網絡在遭受垃圾交易攻擊或極端活動時無法處理交易量。
Solana的架構為高吞吐量進行了優化。在理想條件下,網絡每秒可處理3000-5000筆交易,並實現亞秒級最終確定性。這一性能比以太坊高出幾個數量級。但在壓力事件中,這種優化反而制造了漏洞。
2024年9月的中斷是由大量的垃圾交易淹沒了驗證者的投票機制所致。Solana的驗證者必須對區塊進行投票以達成共識。在正常操作中,驗證者會優先處理投票交易以確保共識進程。但此前的協議在費用市場上將投票交易與常規交易同等對待。
當交易内存池(mempool)被數百萬筆垃圾交易填滿時,驗證者難以廣播投票交易。沒有足夠的投票,區塊就無法最終確定。沒有最終確定的區塊,鏈就停止出塊。用戶的待處理交易卡在内存池中,新的交易也無法提交。
第三方監控工具StatusGator記錄Solana在2024-2025年多起服務中斷,而Solana官方並未發佈正式說明。這造成信息不對稱,用戶無法區分自身連接問題與網絡整體問題。盡管第三方服務提供了監督,但平台自身應具備完善狀態頁面以建立透明度。
以太坊在2021年DeFi熱潮期間經歷了極端Gas費飙升。簡單轉賬的交易費超過100美元,復雜智能合約交互甚至高達500-1000美元。這使網絡對小額交易幾近不可用,同時催生了另一種攻擊媒介:MEV(最大可提取價值)提取。

圖7:網絡壓力下的交易成本
在高Gas費環境下,成為驗證者的重要利潤來源。MEV指的是驗證者通過重新排序、包含或排除交易來獲取的額外收益。在這種情況下,套利者競相搶跑大型DEX的交易,清算機器人則爭相率先清算抵押不足的頭寸。這種競爭導致Gas費競價戰加劇,即使是較低成本的Layer 2解決方案也會因高需求而出現顯著的費用增長。高Gas費環境進一步放大了MEV的盈利機會,相關活動的頻率和規模均有所提升。
在擁堵期間希望確保交易被打包的用戶必須出價比MEV機器人更高。這就造成了交易費超過交易價值本身的情景。想領取你100美元的空投?請支付150美元的Gas費。需要添加抵押品以避免清算?請與支付500美元以獲得優先權的機器人競爭。
以太坊的Gas限制代表每個區塊可執行的計算總量。在擁堵期間,用戶為稀缺的區塊空間競價。費用市場按設計運行:出價更高者優先。然而,這一設計使網絡在使用高峰時期變得越發昂貴,而正是在用戶最需要接入時。
Layer 2解決方案試圖通過將計算移至鏈下,同時通過定期結算繼承以太坊的安全性來解決這個問題。Optimism、Arbitrum和其他Rollups在鏈下處理數千筆交易,然後將壓縮後的證明提交給以太坊。這種架構在正常操作中成功降低了單筆交易的成本。
但Layer 2解決方案引入了新的瓶頸。2024年6月,當25萬個地址同時申領空投時,Optimism經歷了一次中斷。負責在提交到以太坊之前對交易進行排序的組件——排序器——不堪重負。用戶在幾個小時内無法提交交易。
這次中斷揭示了將計算移至鏈下並不能消除對基礎設施的需求。排序器必須處理傳入的交易,對其進行排序、執行,並為以太坊結算生成欺詐證明或零知識證明。在極端流量下,排序器面臨著與獨立區塊鏈相同的擴展挑戰。
必須有多個RPC提供商保持可用。如果主提供商失敗,用戶應能無縫切換到備用方案。在Optimism中斷期間,一些RPC提供商仍在運行,而另一些則失敗了。那些錢包默認設置為失敗提供商的用戶,即使鏈本身仍然存活,也無法與鏈進行交互。
AWS宕機反復揭示加密生態中的集中基礎設施風險:
這些交易所將關鍵組件託管在AWS基礎設施上。當AWS經歷區域性中斷時,多個主要交易所和服務會同時變得不可用。在中斷期間——恰恰是市場波動可能需要立即採取行動的時候——用戶無法訪問資金、執行交易或修改頭寸。
Polygon在2024年3月因驗證器版本不一致問題發生了長達11小時的停機事故。這是主要區塊鏈網絡中分析的事故中最長的一次,凸顯了共識失敗的嚴重性。問題的根源在於部分驗證器運行舊版本軟件,而其他驗證器已升級至新版本。由於兩種版本對狀態轉換的計算方式不同,導致驗證器對正確狀態的結論不一致,從而引發共識失敗。
鏈無法産生新區塊,因為驗證者無法就區塊的有效性達成一致。這造成了一個僵局:運行舊軟件的驗證者拒絕來自新軟件驗證者的區塊,而運行新軟件的驗證者也拒絕來自舊軟件的區塊。
解決方案需要協調驗證者進行升級。但在中斷期間協調升級需要時間。每個驗證者運營商都必須被聯係上,必須部署正確的軟件版本,並重啓他們的驗證者。在一個擁有數百個獨立驗證者的去中心化網絡中,這種協調需要數小時甚至數天。
硬分叉通常使用區塊高度作為觸發器。所有驗證者在特定的區塊高度前完成升級,確保同時激活。但這需要提前協調。而增量升級,即驗證者逐步採用新版本,則存在造成像Polygon中斷那樣的版本不匹配風險。

圖6:區塊鏈三難困境 - 去中心化 vs. 性能
“區塊鏈三難困境”映照如下係統:
核心洞見: 沒有係統能同時實現最大程度的去中心化和最高性能。每種設計都為不同的用例做出了刻意的權衡。
中心化交易所通過架構的簡單性實現低延遲。撮合引擎以微秒級處理訂單,狀態存在於中央數據庫中,沒有共識協議引入開銷。但這種簡單性也造成了單點故障。當基礎設施承受壓力時,級聯故障會通過緊密耦合的係統傳播。
去中心化協議將狀態分佈在驗證者之間,消除了單點故障。高吞吐量鏈在中斷期間也能保持這一特性(資金不會丟失,只是活性暫時受損)。但在分佈式驗證者之間達成共識會引入計算開銷。在狀態轉換最終確定之前,驗證者必須達成一致。當驗證者運行不兼容的版本或面臨壓倒性的流量時,共識過程可能會暫時停止。
增加副本可以提高容錯性,但會增加協調成本。在拜佔庭容錯係統中,每增加一個驗證者都會增加通信開銷。高吞吐量架構通過優化的驗證者通信來最小化這種開銷,從而實現卓越性能,但也使其對某些攻擊模式變得脆弱。而注重安全的架構則優先考慮驗證者的多樣性和共識的穩健性,限制了基礎層的吞吐量,同時最大化了彈性。
Layer 2解決方案試圖通過分層設計來同時提供這兩種特性。它們通過L1結算繼承以太坊的安全屬性,同時通過鏈下計算提供高吞吐量。然而,它們在排序器和RPC層引入了新的瓶頸,表明架構的復雜性在解決一些問題的同時,也創造了新的故障模式。
這些事件揭示出一個反復出現的模式:區塊鏈及交易係統在常規負載下運行良好,但在極端壓力下往往出現崩潰。
自動擴容在面對突發性負載激增時顯得不足,因為新增服務器需要數分鐘時間上綫。在這期間,保證金係統可能基於流動性不足的訂單簿生成錯誤的價格數據進行倉位標記。當新服務器上綫時,清算連鎖反應已經擴散。
為應對罕見的壓力事件而進行過度配置會增加日常運營成本,因此交易所通常優化係統以應對典型負載,並接受偶爾的失敗作為一種經濟上的合理選擇。然而,這種選擇將停機的成本轉嫁給用戶,造成用戶在關鍵市場波動期間面臨清算、交易卡頓或無法訪問資金的問題。

圖8:基礎設施故障模式分佈 (2024-2025)
2024-2025年間基礎設施故障的主要原因包括:
可採取若幹架構改進以減少失敗頻率與嚴重程度,但每項均伴隨權衡:
1.分離定價與清算係統
10月事件部分起因在於將保證金結算綁定至現貨市場價格。若使用封裝資産兌換率而非現貨價格,可避免wBETH估值失真。更廣義地說,關鍵風險管理係統不應依賴可能被操縱的市場數據。採用獨立預言係統、多源聚合、TWAP計算可提供更可靠價格。
2.超額配置與冗餘基礎設施
2025年4月影響幣安、KuCoin和MEXC的AWS中斷事件,展示了集中的基礎設施依賴風險。在多個雲提供商之間運行關鍵組件會增加運營復雜性和成本,但能消除相關性故障。Layer 2網絡可以維護多個具有自動故障切換功能的RPC提供商。在正常運營期間,額外的開銷似乎是浪費,但在需求高峰期可以防止數小時的停機。
3.加強壓力測試與容量規劃
係統“運行良好直到失效”的模式表明壓力測試不足。模擬100倍正常負載應成為標準做法。在開發中識別瓶頸比在實際中斷中發現它們的成本要低得多。然而,真實的負載測試仍然具有挑戰性。生産環境的流量表現出合成測試無法完全捕捉的模式。用戶在真實崩盤期間的行為與測試期間不同。
區塊鏈係統在技術上取得了顯著進步,但在應對壓力測試時仍存在顯著不足。當前係統依賴於傳統業務時間設計的基礎設施,而加密市場卻是全球性、持續運行的,這導致在非正常工作時間發生壓力事件時,團隊需要緊急處理問題,而用戶則可能面臨巨大損失。傳統市場在壓力情況下會暫停交易,而加密市場只會熔斷。這種情況究竟是係統特性還是缺陷,取決於不同角度和立場。
超額配置是解決問題的可靠方案,但與經濟激勵相沖突。維持超額容量的成本高昂,且僅為應對罕見事件。除非災難性故障帶來的成本足夠高,否則行業可能不會主動採取措施。
監管壓力可能成為改變的推動力,例如要求99.9%的正常運行時間或限制可接受的停機時間。然而,監管通常是在災難發生後才出台,例如Mt. Gox在2014年倒閉後促使日本制定了加密貨幣交易所的正式監管政策。預計2025年10月的連鎖反應將引發類似的監管響應,至於這些反應是規定結果(如最大可接受停機時間、清算期間的最大滑點),還是規定實施方式(如特定的預言機提供商、熔斷器阈值),目前尚不確定。
行業需要在牛市中優先考慮係統的穩健性,而非增長。在市場繁榮時,停機問題往往被忽視,但下一輪周期的壓力測試可能會暴露新的弱點。業界是會從2025年10月的事件中吸取教訓,還是會重蹈覆轍,這仍然是一個懸而未決的問題。歷史表明,行業通常通過數十億美元的失敗來發現關鍵漏洞,而非主動改進係統。區塊鏈係統若要在壓力下保持可靠性,需要從原型架構轉向生産級基礎設施,這不僅需要資金支持,還需要在開發速度與穩健性之間找到平衡。
内容來源:PANews
更多精彩內容,請登陸
財華香港網 (https://www.finet.hk/)
現代電視 (http://www.fintv.com)