GitHub的首席安全官和工程部高級(jí)副總裁今天分享了關(guān)于上周代碼托管平臺(tái)發(fā)生的一系列故障的更多細(xì)節(jié)。
雖然這些事件的根源不盡相同,但從5月9日到5月11日,它們影響了GitHub的大部分主要服務(wù),曾導(dǎo)致大范圍的數(shù)據(jù)庫連接和認(rèn)證失敗長達(dá)十小時(shí)。
上周,GitHub經(jīng)歷了幾次可用性事件,既有長時(shí)間運(yùn)行的,也有持續(xù)時(shí)間較短的。目前這些情況均已經(jīng)得到緩解,所有系統(tǒng)現(xiàn)在都已經(jīng)在正常運(yùn)行。
【資料圖】
5月9日,GitHub提供Git數(shù)據(jù)的內(nèi)部服務(wù)的配置發(fā)生了變化,導(dǎo)致8個(gè)主要服務(wù)中斷。
第二次故障發(fā)生在5月10日,該故障影響了GitHub應(yīng)用的認(rèn)證令牌的發(fā)放,造成故障的原因是由于負(fù)責(zé)管理GitHub應(yīng)用權(quán)限的API的高負(fù)荷和低效率實(shí)施造成的。
5月10日,為GitHub App認(rèn)證令牌提供服務(wù)的數(shù)據(jù)庫集群出現(xiàn)了GitHub App權(quán)限寫入延遲7倍的情況(狀態(tài)為黃色)。
在這次事件的大部分時(shí)間里,這些授權(quán)令牌請(qǐng)求的失敗率為8-15%,在短時(shí)間內(nèi)甚至達(dá)到76%的峰值。
5月11日,GitHub出現(xiàn)第三次故障,造成故障的原因是服務(wù)于Git數(shù)據(jù)的數(shù)據(jù)庫集群崩潰并觸發(fā)了自動(dòng)故障轉(zhuǎn)移機(jī)制,導(dǎo)致讀取副本丟失。
事件歷史(GitHub)
GitHub方面表示,目前正在解決Git數(shù)據(jù)庫崩潰的問題,這個(gè)問題目前已經(jīng)引起了不止一次的事件。這項(xiàng)工作已經(jīng)在進(jìn)行中,并將優(yōu)先得到處理。同時(shí),GitHub也在解決關(guān)于數(shù)據(jù)庫故障轉(zhuǎn)移的問題,以確保故障轉(zhuǎn)移總是在沒有干預(yù)的情況下完全恢復(fù)。
GitHub將在5月份可用性報(bào)告中分享有關(guān)這些中斷情況的詳細(xì)信息,以及目前正在采取哪些措施來解決導(dǎo)致這些中斷的問題。同時(shí)還會(huì)公布事件進(jìn)展細(xì)節(jié),以及如何提高GitHub可用性進(jìn)展的一般更新等問題。
2022年3月,GitHub也曾遭遇過多次中斷,當(dāng)時(shí)該公司表示事件原因是由平臺(tái)主數(shù)據(jù)庫集群的資源爭用問題引起的。
GitHub還在2022年2月發(fā)生過一次重大故障。當(dāng)時(shí)一度導(dǎo)致GitHub平臺(tái)在全球范圍內(nèi)關(guān)閉,并且一切訪問網(wǎng)站的請(qǐng)求均被阻止。
標(biāo)簽: