商务出差和女老板同房2在线观看_国产91变态调教视频_狠狠干亚洲最新电影av_美女自慰在线123区

您當前位置: 唯學網 » 用戶增長師 » 用戶增長師教育新聞 »

你需要多長時間來運行一個實驗?

你需要多長時間來運行一個實驗?

唯學網 • 教育培訓

2022-8-22 17:00

唯學網 • 中國教育電子商務平臺

加入收藏

在線對照實驗中,一個非常常見的困惑是你需要多少時間來對實驗結果做出結論。

使用p值作為實驗停止的標準,這是個簡單的方法,但它的問題在于,給出p值的假設是你在設計實驗時就已經考慮好了樣本和效應量的大小。但如果你持續(xù)監(jiān)測一個測試項目的進程和p值的變化,那么你就很有可能能夠看到某種有顯著性的“影響”——即使并不存在顯著效應的時候。另一個常見的錯誤是,由于沒有及時觀察到有顯著性的結果,而過早地停止了實驗。

下面是Airbnb所進行的一個實際實驗的例子。我們測試了將搜索頁面上的價格過濾器(將金額范圍從300改為1000美元),顯示效果如下:

在下面的圖5中,展示了本項實驗的進程。藍色的曲線顯示了改版效果(新版/舊版-1),紅色的曲線顯示了隨時間變化的p值。正如你所看到的那樣,p值曲線在7天后達到了常用的顯著標準0.05,這時新版的效應量為4%。如果我們就此打住,那么就會得出結論:改版對預訂的可能性有強烈而顯著的影響。但當我們持續(xù)進行實驗后,我們發(fā)現實際上實驗結果最終的表現是中性的。最終的效應量幾乎為0,此時的p值表明,無論剩下的效應量是多大,都應該被視為統(tǒng)計噪音。

為什么我們知道在p值達到0.05時不要停止實驗?事實證明,這種提前達到所謂的"顯著性",然后又收斂歸于中性結果的情形,在我們的系統(tǒng)中其實是很常見的。

造成這種情況的原因有很多。比如,用戶往往需要很長的時間來預訂,所以測試早期快速完成的預約會對整個測試結果有著明顯的影響。另外,在線上實驗環(huán)境中,即使是小樣本量,放在經典統(tǒng)計學中規(guī)模也可以稱得上是相當巨大的,因而傳統(tǒng)的p值統(tǒng)計方法可能并不完全適用這種超級大樣本量的情形。由于統(tǒng)計檢驗是樣本和效應量的函數,如果通過自然變異的早期效應量很大,那么早期的p值很可能低于0.05。但最重要的原因是,每次計算p值時,你都實際上仍在進行統(tǒng)計測試,每多測算p值一次,就會有較大的概率獲得一個低于0.05的p值。

順便提一下,熟悉Airbnb的人可能會注意到,在寫這篇文章的時候,我們事實上已經上線了新版的價格過濾器。盡管如前文所說,A/B測試的結果是中性的,但我們發(fā)現,確實有一部分用戶會希望有這樣的篩選器能夠更快找到高端房源,因此我們決定在不損害已有體驗的情況下,仍然為有這樣需求的用戶提供此種更好的體驗。

那么實驗應該運行多長時間?為了防止統(tǒng)計學中的第二類錯誤(取偽),最好的做法是在實驗之前就確定改版所要達到的最低效果,并根據樣本量(每日新增訪問)和期望的顯著值,來計算出實驗需要運行的時間。evanmiller.org網站上提供了一個樣本和實驗時長計算器,可以模擬和計算一下。提前設定時長還可以最大限度地減少在沒有效果的情況下卻錯誤地“發(fā)現”效果的誤判。

但這里還有一個問題是,我們通常很難確定新版應該要有多大的效果或者會有怎樣的效果。由于A/B測試是先測試、再應用,因而這往往會導致,某次改版很可能是非常成功的,但由于測試時間過長,就影響了新版的及時上線,這會導致潛在利益的巨大損失;蛘撸珹/B測試也可能會導致產品在使用方面的bug,因此發(fā)現這樣的問題后應當立即停止測試,否則就會對用戶體驗造成更多的傷害。

在實驗時,有時預先設定的時間結束之前,便會獲得具有顯著性的結果。在前文的價格過濾器例子中,你可以看到,當第一次達到預設的顯著性水平時,效應量曲線(藍色曲線)的走勢看起來還沒有完全收斂。有時候直覺思維會幫助我們做出判斷,某個顯著性結果是否達到了穩(wěn)態(tài)呢?因此我們要在實驗進程中不斷檢查,而不是機械地依靠單一的p值。

如果想在預設時間之前停止實驗,我們可以利用這一洞察來更正式地確定何時停止實驗。如果你確實希望對正在測試的更改是否表現得特別好進行自動判斷,這將非常有用,尤其是當你同時運行多個實驗而無法系統(tǒng)地手動檢查實驗的進程時,這也非常有幫助。這種所謂的直覺思維通常要以懷疑的眼光來看待早期的測試結果。這就意味著,在測試的早期,可以采用較低的p值來判斷測試結果的顯著性,當隨著實驗的進行,積累了更多的測試數據,便可以隨之接受更高的p值了,因為這時候犯二類錯誤的概率要低得多。

Airbnb通過模擬測試獲得動態(tài)的p值曲線,來判斷一個早期的顯著性結果是否真的值得信任,從而解決了如何確定停止實驗的p值取值問題。我們編寫了一個程序,通過引入不同的變量,來模擬不同的效應量和置信度結果,并以此來判斷改版對于轉化效果是否真的存在顯著影響。在圖6中,我們展示了某個測試模擬中得到的決策邊界:

這里要提請注意的是,這條曲線是基于某些特定變量而生成的曲線,未必適用其它的實驗場景和實際情況。

來源:SMEI官方

以上是關于用戶增長師的相關信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關資訊,敬請關注唯學網用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!

用戶尾圖.png

0% (10)
0% (0)
已有條評論