導讀:本文主要從偏向底層的推薦算法角度來闡述信息流推薦系統(tǒng)升級如何助力用戶增長。我們知道,內容信息流實際上已經(jīng)算是信息流中比較小的概念,其中包含圖文信息流、短視頻信息流和內容+電商信息流,而對于用戶來講實際上是一個消費時間的產品體驗,從而對內容生態(tài)產生很大的助力 ( 包括PGC、UGC的短內容生態(tài) ),這就是本文主要的問題——內容信息流。本文旨在解決的問題是:基于推薦算法視角,來解決信息流產品用戶增長的問題。其中,主要問題就是如何提升留存率。
01
關于用戶增長
做過推薦系統(tǒng)方面工作的同學應該清楚的知道,推薦工程里面主要包含推薦算法和搜索算法。而我們往往關注的是Stoptime這樣的指標,使用有監(jiān)督的模型來解決一系列問題,例如點擊率、單次時長等。對于留存問題和大盤規(guī)模問題在機制上,有很大的不足,比如:推薦新的篇章,從用戶方面和生態(tài)方面都存在著雙邊的幸存者偏差問題。1. 問題分析首先看下大的背景,目前是移動互聯(lián)網(wǎng)進入下半場的大趨勢,過去粗放式的買量、廠商合作等模式越來越受到掣肘,未來將更加依賴精細化的用戶增長策略、產品和用戶體驗的細致打磨。經(jīng)典的AARRR模式會逐步轉向RARRA模式,提升產品留存、拉活、分享傳播等方式是構建增長的主要戰(zhàn)場,對于一個內容型產品來說,個性化算法對于用戶留存、拉活起到了決定性的作用。在信息流產品增長上,有三種比較成功的模式:
頭部內容模式:一種比較"重"的模式,該類產品利用精準的內容采買,引入優(yōu)質的頭部內容創(chuàng)作者,利用頭部內容的流量聚焦效應,迅速圈定大批用戶,并形成內容APP特有的用戶心智;但是由于內容頭部化,個性化算法在其中發(fā)揮的空間和作用較小,產品模式趨于同質化。
下沉/激勵模式:該類產品參考了網(wǎng)絡游戲模式,從各個環(huán)節(jié)設計用戶里程碑和激勵,不斷引導新用戶一步步完成點擊、下刷、完整閱讀、分享、關注等目標里程碑,并給予虛擬貨幣和真實貨幣的激勵,在短時間內可以獲取大量下沉用戶。
生態(tài)構建模式:該類產品構建了完善的內容生產和消費生態(tài),旨在通過推薦系統(tǒng)同時刺激生產和消費,實現(xiàn)兩端的同時增長。
因此,個性化的核心問題主要分為兩個:
用戶狀態(tài)建模:深度建模用戶狀態(tài)和行為,通過對于大數(shù)據(jù)集中分析,找到使用戶從低階狀態(tài)到高階狀態(tài)轉化的干預因子。也就是如何把新用戶轉化成低階用戶,然后從低階用戶轉化到高階用戶,用戶流失后如何召回,類似這樣的用戶狀態(tài)轉化。
個性化分發(fā)的升級:將用戶行為建模后,在多個場景下將這些干預動作轉化為個性化推薦和營銷,滿足用戶的消費需求。
2. 增長要素
什么樣的內容會讓用戶覺得好?我們來看看用戶增長的要素:
優(yōu)質內容/時效性:內容的更新頻率以及內容的質量是用戶增長的關鍵。
個性化體驗:千人千面,推薦的內容符合當下的需求。
多渠道獲客:多渠道獲客的能力也是增長的一個關鍵因素。
CPC vs LTV:維持CPC ( 按點擊收費 ) 和LTV ( 用戶對系統(tǒng)的長期價值 ) 的一個平衡。
算法如何助力增長呢?主要有以下幾點:
精細化買量/外投;
提升留存;
衡量推薦這樣Action的效用;
消除幸存者偏差。
02關于推薦算法推薦系統(tǒng)在國內大概已經(jīng)有十多年的應用,模型架構和算法都有很大的升級。1. 推薦系統(tǒng)回顧
首先回顧下推薦系統(tǒng):
劣質系統(tǒng):只會推薦一些低俗 ( 只滿足低層次需求 )、興趣受窄、搬運內容 ( 無稀缺性 )、陳舊內容的信息。
良性系統(tǒng):區(qū)別于劣質系統(tǒng),在各個環(huán)節(jié)都會不斷增加信息量 ( 多樣性 ),不同層次的用戶引入 ( 用戶多樣性 ),各類高質量內容的引入 ( 內容多樣性 ),內容更具時效性 ( 提升媒體屬性 ),探索出用戶中長尾興趣:當頭部內容過期時從而更合理的承接。
問題在哪兒?主要存在以下問題:統(tǒng)計機器學習模型存在缺陷;長期的指標觀測體系匱乏以及業(yè)務短視;缺乏合理的機制設計和產品視角。
2. 信息流推薦的增長目標
用戶滿意度的衡量:
衡量用戶滿意度的指標有很多,但主要集中在三大方面:內容相關性、內容質量和內容時效性,時效性一定程度上代表內容的稀缺性。
ctr代表什么:一定需要ctr嗎?對內容無認知的用戶需要衡量用戶對列表頁素材的滿意度,對內容有認知的用戶還需要衡量用戶對內容本身的滿意度。
用戶對內容真正的認可是通過點贊、分享、評論這種互動的方式來表現(xiàn)的,目前很多產品注重對互動的引導。
信息流推薦的增長目標,主要包括:
提升用戶留存、LTV
通過分發(fā)篩選出優(yōu)質內容、優(yōu)質生產者:在傳統(tǒng)的認知中,喜歡什么就給什么;但是更新后的認知是創(chuàng)造需求和玩法,持續(xù)優(yōu)質內容生產
構建內容生態(tài):提高分發(fā)時效性;增加對upgc主的激勵 ( 曝光、點擊、粉絲、分成 );通過準入、扶持打壓、激勵這種機制維持一個好的生態(tài)和增長。只有通過用戶和生態(tài)兩端的同時增長,才能讓產品得到一個飛輪效應,良性發(fā)展
03
核心增長機制
1. 雙邊冷啟動與流轉機制① 概述
在管理上也有這樣的一種思想,就是新人做老事、老人做新事,促進事情穩(wěn)定向前推進,這就是流轉機制設計的主要思想。因此,如何對新用戶和新內容做雙邊冷啟動就成了核心的問題。從算法來看,這是兩個不太相同的問題,但從整體設計思想來講,兩者又比較相近。新內容通過相關性分析可以達到探索、分發(fā)、推廣的效果。進而新用戶如何探索他的興趣?比如推薦股票,一定會先推薦近期走勢最好的股票;推薦科幻片,大概也是這樣,推薦評分最高的,這樣就可以實現(xiàn)新用戶規(guī)模本身的增長。對于新內容來講,通過老用戶面對熱內容的探索分析,也可以逐步推進內容生態(tài)的增長,其實這并不完全是算法的問題,這同樣是貫穿從內容運營到產品設計整個體系的一個哲學思想。對于新和舊的定義是通過置信度對應到多峰興趣級別,同時對應到topic興趣的級別;對于新和老的準確定義應該是經(jīng)過某些流量的分發(fā)驗證,而不是簡單通過來的早晚;新內容冷啟機制也叫爬坡機制。這里面帶來的技術問題包含:
基于表征學習的排序技術,難以表達置信度;神經(jīng)網(wǎng)絡技術很難表達最重要的概念。
新內容冷啟動技術選型業(yè)內有很多的方案:隨機保量 ( 短期降效、對生態(tài)fairness問題相對友好、構建寶貴的無偏數(shù)據(jù)集,消偏應用 ) +Bandit類算法 ( 短程收斂性有一定劣勢 ) +uncertainty預估 ( 個人推薦 )
新用戶冷啟動的技術選型和新內容還是有很大差別的,其主要是通過強化學習、聯(lián)邦學習這種人工智能的方式進行分析,而通過統(tǒng)計學,很難分析出人的偏好。
② 詳細實現(xiàn)
雙邊冷啟動與流轉機制的實現(xiàn),主要包括:a. 早期以顯式標簽+統(tǒng)計連續(xù)值為主的推薦系統(tǒng)
Rank = pRelevance(topic | user)^ cu * pCTR( item | topic)^ ci 一方面用主題到用戶的相關性,另一方面用item到主題的統(tǒng)計值或者模型的估分,這里面會有兩個置信的概念,一個是用戶興趣的置信度,一個是item本身的置信度;
新item冷啟探索:ci低會提高cu,側重主題到用戶的相關性值以及預估穩(wěn)定性;
新用戶冷啟/興趣探索:cu低會提高ci,側重item到主題的統(tǒng)計值以及預估穩(wěn)定性;
純利用:對于老人做老事,ci高,cu也高,推薦的短期效率指標是最高的,但是長期來看,如果只注重這種推薦的短期效率指標,不對新用戶和新內容進行探索,那長期就很難發(fā)展下去。
b. 以表征學習為主的推薦系統(tǒng),這塊主要是思考如何做成Risk-aware recommendation,目前構建排序模型uncertainty的一種方式如下:
c. 超參學習/調控的目標→系統(tǒng)全局E&E3. 消偏與因果推斷:背景介紹
對于幸存者偏差問題,我們是通過因果推斷的方式解決的。推薦系統(tǒng)其實是一個因果推斷的問題,通過用戶是什么樣的人,從而推測用戶會喜歡什么樣的item;對于推薦的causal effect,用戶會不會喜歡?效用有多大?會不會成為高價值客戶?如果推薦后,用戶會有hot moment,我們可以判定,推薦效果是好的。為什么會存在幸存者偏差呢?
推薦模型本身的樣本就是有偏的,user和item偏同時存在,比如用戶沒看喜歡的部分沒有參與到模型訓練中。
對應到item,就是selection-bias和fairness問題。比較典型的案例是youtube net,user embedding average pooling本質上,依然是item-embased,后續(xù)諸多改進沒有本質的解決消偏問題。這樣就會導致后續(xù)推的東西比較類似,如果第一次推的好就會留下用戶,推得不好用戶就會很快流失。
4. 消除幸存者偏差:Casual Inference推薦框架
假設:在因果推斷的推薦框架中,假設用戶變成低活、沉默的原因主要是用戶對之前推薦的內容不滿意。方法:
構建反事實鏡像人:利用無偏信息構建相似度量,構建低活user到高活user的匹配 ( Matching / Propensity Score / IPW,Causal Embedding )
去除低活、沉默用戶的leavecause,推薦高活鏡像人的stay causes
經(jīng)過實踐探索后發(fā)現(xiàn),causal inference框架將成為用戶增長方向的理論基石,對于消偏、效用衡量、歸因和生態(tài)公平性問題都有解法;同時,causal inference也為經(jīng)典推薦算法難題提供解法,如selection-bias、低活用戶畫像和推薦可解釋性等問題。5. 面向增長的用戶畫像
① 狀態(tài)里程碑表示法
經(jīng)典用戶畫像,主要要服務于運營的可解釋性、推薦或廣告系統(tǒng)的模型預估;通常建模成向量:高維離散、低維稠密以及多峰embedding。由于信息流產品具備連續(xù)型消費的特點 ( 同主題下的消費,upgc關注、直播 ),用戶消費行為可以在連續(xù)的時間上進行切分,因此狀態(tài)表示法是對向量表示法的有力補充,狀態(tài)表示法主要包含活躍度、置信度,多峰興趣的置信度、活躍度;這樣將難度較大的"促留存"問題拆分為"目標達成"問題,通過策略不斷使得用戶完成高階里程碑,將"促留存"的抓手聚焦在用戶狀態(tài)躍遷速度的提升上。② 全生命周期因果推斷
全生命周期的因果推斷:在構建面向增長的用戶畫像時,需要采用全生命周期因果推斷:
狀態(tài)躍遷效用衡量
找到使用戶從低階到高階狀態(tài)轉化的干預因子:
· 內容變化:新內容上下架、熱點事件的產生和消逝
· 捕捉興趣的變化
· 分發(fā)幸存者偏差問題
根據(jù)causes的actions:
推斷后的數(shù)據(jù)統(tǒng)計到內容采買和生產
干預場的設計和頁面組織
內容供給指導 ( 2b供應鏈 )
構建時間線上的的推薦系統(tǒng)來推斷個性化排序機制
6. 效用理論應用
① 個性化排序機制
對于效用的普遍認知是:
新用戶首次滿意消費和活動 ( 內容質量控制 )
低活用戶瀏覽深度和ctr ( 內容質量控制 )
高活用戶要增加新穎性和多樣性
個性化排序機制通過multi-task learning、強化學習和causal effect的方式,來進行分狀態(tài)差異化的對用戶進行躍遷效用最大化地排序推薦,無論是新用戶、低活還是各個細分狀態(tài)的用戶,都會讓用戶在平臺中覺得不是興趣收窄的,承擔著各自的職責。這些內容在阿里都有落地并取得了很大的收益。② 生態(tài)效用技術
效用理論應用是一個比較開放的課題,對于電商、短內容的生態(tài)是不一樣的。供給歸因:
興趣覆蓋度、興趣點下的內容質量、時效性、競爭激烈程度
內容供給知道(2B供應鏈->內容采買/生產/激勵機制)
up主激勵機制:
up主質量體系:關注量曲線、生產效率、生產質量,內容正負反饋
輸入就是歷史分發(fā)數(shù)據(jù)(曝光量、點擊量、關注量、up主質量體系)
計算:
· 曝光量->爆款成功率
· 最大化效用:激勵函數(shù)->內容質量和生產效率的擬合
輸出就是一定時間內up主內容的保量、限量range->在線排序的調控約束機制
未來方向:
流量貨幣化
更多經(jīng)濟學、機制設計理論的引入· 演化博弈論分析· 競對分析
以上就是針對面向用戶增長的信息流分發(fā)機制的分享,特別是短內容領域利用推薦算法推動用戶增長的思考,分享比較偏技術,是在阿里多年積累所沉淀下來的東西,沒有太多強調推薦算法模型的部分,更多是以整體的算法架構和算法機制設計角度考量生態(tài)和用戶增長,里面很多問題也是特別難、特別開放的,歡迎大家一起交流探討。
今天的分享就到這里,謝謝大家。
來源:天師 DataFunTalk
以上是關于用戶增長師的相關信息,以供大家查看了解。想要了解更多用戶增長師信息,第一時間了解用戶增長師相關資訊,敬請關注唯學網(wǎng)用戶增長師欄目,如有任何疑問也可在線留言,小編會為您在第一時間解答!