當前位置：首頁 > 資訊動态 > 行業新聞

如何減輕軟件開發的回測壓力？Facebook 已經用上了機器學習

2019-01-02

次

為了高效地開發新産品特征和更新，Facebook 研究團隊使用基于主幹的開發模型來管理對代碼庫的改動。一旦一位工程師的代碼更改被接入主分支（主幹），他們試圖讓它對從事該産品或服務的其他工程師快速可見。這種基于主幹的開發模型比使用特征分支和特征融合更加有效，因為它使得每個人都能夠在代碼庫的Z新版本上工作。

但是，在被接受到主幹之前，對每項提出的更改進行徹底的回歸測試很重要（注：回歸測試是指修改了舊代碼後, 重新進行測試以确認修改沒有引入新的錯誤或導緻其他代碼産生錯誤的一種測試方法）。在從主幹被部署到生産之前，每項代碼更改都需要經過徹底的回歸測試，進入主幹異常代碼會使得評估新提出的代碼更改變得更困難得多，并且還會影響工程師的生産效率。

對此，該研究團隊開發了一種更好的方法來執行這項回歸測試：

這個預測性測試選擇系統已在 Facebook 上部署了一年多，在一段新的代碼加入到主幹、被其它工程師看到之前，這個系統就可以捕捉超過 99.9% 的回歸異常，而且它運行的基于修改的代碼的測試數量也隻需要以往的三分之一那麼多。這也讓 Facebook 的基礎測試設施的效率得到翻倍的提升。

随着代碼庫的不斷發展，該系統也幾乎不要求手動調試。而且經證明，

為什麼使用創建依賴項是低效的

回歸測試的一種常用方法，就是使用從構建元數據中提取的信息來确定在特定代碼更改上運行哪些測試。通過分析代碼單元間的創建依賴項，可以确定傳遞依賴于在代碼更改中被修正的源的所有測試。例如，在下圖中，圓圈表示測試；正方形表示代碼的中間單元，如庫；菱形表示存儲庫中的單個源文件。箭頭連接起實體 A →B，當且僅當 B 直接依賴于 A 時，他們将其解釋為 A 影響 B。藍色的菱形表示在示例代碼更改中被修正的兩個文件，所有傳遞依賴于它們的實體也用藍色表示。在這個場景中，基于創建依賴項的測試選擇策略将執行測試 1,2,3 和 4，但不執行測試 5 和 6，因為後兩項測試不依賴于修正的文件。

這種方法有一個明顯的缺點：它以說「是的，本測試受到影響」告終的次數比實際所需要的要多。平均而言，對于移動代碼庫的每項更改，該方法都會導緻執行多達四分之一的可用測試。如果傳遞依賴于修正文件的所有測試都真正受到影響，他們将别無選擇，而隻能将每項測試都執行一遍。然而，

軟件開發研究領域也開發了其他的回歸測試選擇方法，例如基于靜态更改-影響分析的方法。然而，由于他們代碼庫的大小和使用的不同編程語言的數量，這些技術在他們的使用案例中是不現實的。

一種新方法：預測性測試選擇

基于創建依賴項的選擇測試涉及到判斷哪些測試可能受到更改的影響的問題。為了開發更好的方法，Facebook 的研究團隊考慮了一個不一樣的問題：指定的一項測試發現某個代碼修改中的回歸問題的可能性有多大？如果他們能估計到這個可能性，就可以做出明智的決定，來排除那些極不可能發現回歸的測試。這是對傳統測試選擇的重大背離，并且開辟了一種新的、更有效的選擇測試方法。

作為第一步，

每個新的代碼更改總會與之前的情況略有不同，因此模型不能簡單地将新的更改與曆史更改進行比較，來确定哪些測試值得運行。然而，新更改的抽象可以類似于前一個或多個代碼更改的對應的抽象。

為此，該系統使用了标準機器學習算法的變體——梯度提升決策樹模型。研究團隊雖然可以使用其他機器學習算法，但其之所以選擇這種方法，有幾個原因：

他們可以使用這個模型分析特定的代碼更改，來找到所有傳遞依賴于修改文件的可能受影響的測試，然後估計測試檢測到由更改引入的回歸的概率。基于這些估計，系統選擇對于特定更改Z有可能失敗的測試。下圖顯示了将選擇哪些測試（用藍色表示），來更改影響前一示例中的兩個文件，而在前一示例中，用 0 到 1 之間的數字來表示每個被考慮在内的測試的概率。

評估和校準模型

對于每項代碼更改，系統選擇的測試數量影響它在檢測回歸時的可靠性。使用Z近代碼更改的選擇作為驗證集，研究團隊可以評估其在新更改上的準确性。下面的圖表顯示了每次更改所選擇的Z大測試數量與這一選擇的準确性之間的關系。在生産中，他們要求其模型能夠正确預測超過 95% 的測試結果，并且能為超過 99.9% 的有問題的更改捕獲至少一個失敗的測試。他們發現，

由于代碼庫結構的不斷演變，測試選擇策略必須适應繼續滿足這些嚴格的正确性要求。然而，他們的系統讓其變得簡單，因為他們可以使用Z近提交的代碼更改的測試結果來定期地重新訓練模型。

處理測試片狀

為了确保他們的測試選擇很好地适用于現實世界的測試，系統需要處理測試片狀問題：當被測試的代碼沒有真正被更改時，測試結果從通過變為失敗。正如他們在論文中所做的更詳細的解釋，如果他們訓練一個模型而不去識别片狀測試失敗，該模型可能無法學習去一緻地預測測試結果。在下面的示例中，兩個測試選擇策略捕獲所有失敗的測試執行的共同部分。如果系統不能區分哪些測試失敗是片狀的以及哪些不是，那麼它将無法知道哪個策略是Z好的。策略 A 具有明顯更好的準确性，

為了減輕片狀性對所學到的測試選擇模型的影響，研究團隊在收集訓練數據時積極地重新嘗試失敗的測試。這種方法讓他們将連續失敗的測試（指示真實回歸）與那些呈現片狀、非重現性失敗的測試區分開來。

檢測和固定回歸：30000 英尺的視角

這個系統是研究團隊創建智能工具以使代碼開發過程更加可靠和高效的更廣泛努力的一部分。他們的基于搜索的自動化軟件測試系統 Sapienz 和自動化缺陷修複工具 Getafix，也可以幫助他們自動檢測和修複回歸——也就是說，這些工作僅要求工程師們投入很少的注意力甚至不投入注意力。

預測性測試選擇（這篇博客文章中描述的系統）通過選擇由工程師定義的正确的測試集，來高效地檢測回歸。Sapienz 生成新的測試序列，來發掘讓移動應用程序崩潰的條件，Getafix 則為他們使用測試和驗證工具所發現的問題推薦補丁，然後由編寫更改的工程師檢驗并選擇接受或拒絕這些補丁。總而言之，這些系統讓工程師能夠為使用 Facebook 産品的數十億人，更快、更有效地創建和部署新特征。