抖音推薦: 淺談抖音推薦系統(tǒng)的初步研究方向!
yanfei 2020-12-08 17:33在過(guò)去的十年里面,我都在研究搜索引擎,尤其是百度的規(guī)則。我們SEO這一行,被許多從業(yè)者自身認(rèn)為是苦力活,這是讓我倍感奇怪的。因?yàn)橹两裎覐氖碌拇蟛糠侄际腔A(chǔ)理論層面的研究,盡管「基礎(chǔ)理論」看著離「實(shí)際應(yīng)用」頗遠(yuǎn),但也沒(méi)那么遠(yuǎn),有收獲不錯(cuò)的成績(jī)——給各種大小網(wǎng)站共計(jì)提升過(guò)數(shù)百萬(wàn)的日均UV。
重視理論研究,以及重視實(shí)踐出真知,這某種程度上可謂是兩大門派了。根據(jù)我所觀察的,站隊(duì)實(shí)踐出真知的人數(shù)比例往往是壓倒性的。
但是,這里有一個(gè)根本矛盾——實(shí)踐出真知的「實(shí)踐」,到底是該去實(shí)踐些什么呢?如果沒(méi)有基礎(chǔ)理論的支撐,可能只是瞎想到什么就去瞎試罷了。
憑借著對(duì)于搜索引擎的理論研究經(jīng)驗(yàn),最近我開(kāi)始抽出一部分精力,對(duì)抖音的推薦系統(tǒng)做出第一步的探索。
為什么要去研究推薦系統(tǒng)呢?難道不是視頻內(nèi)容質(zhì)量決定一切嗎?
這就好比做搜索引擎流量的時(shí)候,我的大多同行們也永遠(yuǎn)聲張著「內(nèi)容為王」,卻罕見(jiàn)他們優(yōu)質(zhì)的內(nèi)容有做出什么流量。
類似的,抖音上面,爆火的視頻經(jīng)常是發(fā)布者自己也沒(méi)有預(yù)料到的,而他們有時(shí)發(fā)布的自己認(rèn)為質(zhì)量很高的視頻反而無(wú)人問(wèn)津。如果單純把原因歸結(jié)為「運(yùn)氣」,就太過(guò)隨意了。
畢竟百度的檢索系統(tǒng)和抖音的推薦系統(tǒng),本質(zhì)上都是把信息提供給用戶,多少有些異曲同工之處。所以我來(lái)談?wù)劵蛟S可行的研究方向,可能還算略有資格。
如何初步開(kāi)啟對(duì)于推薦系統(tǒng)的反向研究?
許多年前我就看過(guò)科幻扛鼎之作的《三體》系列第一部,直到最近我才剛把后面兩部給看完了。在第二部里面,有一個(gè)我極其認(rèn)同的地方。
書(shū)中,主人公羅輯通過(guò)得知了兩條宇宙公理,逐步推論出宇宙的「黑暗森林法則」。簡(jiǎn)言之,是高級(jí)文明在發(fā)現(xiàn)任何一個(gè)其它文明存在跡象的時(shí)候,都會(huì)選擇消滅它。這個(gè)結(jié)論是怎么推論來(lái)的,不重要。重要的是,對(duì)于書(shū)里面的設(shè)定,這個(gè)結(jié)論是「合乎邏輯」的。
因此,當(dāng)?shù)厍蚣磳⑹艿揭粋€(gè)高級(jí)文明攻擊的時(shí)候,主人公便威脅他們:「如果你們不停手,我會(huì)把你們星球的位置暴露給其它文明,那么你們就會(huì)被其它更高級(jí)的文明所摧毀。」最終,證明這個(gè)威脅是有效的,地球和那個(gè)文明在很長(zhǎng)一段時(shí)間內(nèi)維持了和平。主人公羅輯靠邏輯拯救了地球。
為什么?因?yàn)橹灰负诎瞪址▌t」是由嚴(yán)謹(jǐn)?shù)倪壿嬐普摮鰜?lái)的,同時(shí)又因?yàn)椤高壿嫛惯@個(gè)東西放諸四海都一樣有效,所以,更高級(jí)的文明極大概率也早已推論出了黑暗森林法則。
換句人話來(lái)說(shuō):只要我們知道了一個(gè)確實(shí)經(jīng)得起邏輯推敲的結(jié)論,那么遠(yuǎn)遠(yuǎn)比我們考慮的更全面更深遠(yuǎn)的人,多半是會(huì)在這件事上面有共識(shí)的。
像是百度、抖音這種在其核心系統(tǒng),已經(jīng)做到相對(duì)而言非常成熟水平的公司,他們?cè)诖蠓较蛏献匀皇且呀?jīng)趨于「完美」的。
所以,我們不一定需要去設(shè)法「直接」了解具體百度、抖音是怎么做的,而是可以「間接」的通過(guò)邏輯等工具去揣測(cè)什么樣才是完美的解決方案。這兩種手段最終的效果往往是差不多的,而后者的可行性通常要強(qiáng)得多。
先舉一個(gè)百度上面的例子吧。搜索引擎可以如何通過(guò)盡少的數(shù)據(jù)指標(biāo),來(lái)判斷一個(gè)網(wǎng)頁(yè)的質(zhì)量?
在你閱讀后文之前,我認(rèn)為這是一個(gè)蠻值得先停下來(lái)進(jìn)行思索的問(wèn)題。
過(guò)去多年里面,SEO從業(yè)者對(duì)于這個(gè)問(wèn)題給出的最常見(jiàn)答案是兩個(gè):
1) PageRank
2) 跳出率
PageRank,是看一個(gè)網(wǎng)頁(yè)是否有被其它網(wǎng)頁(yè)通過(guò)鏈接的形式所推薦。若展開(kāi)說(shuō)可以說(shuō)出許多PageRank的局限性,此處跳過(guò)。最關(guān)鍵的地方在于,它終究只是一個(gè)「過(guò)程性」的數(shù)據(jù)指標(biāo)。和最終用戶對(duì)于搜索結(jié)果的滿意程度指標(biāo),還差了很遠(yuǎn)的距離。
有些SEO從業(yè)者,或許還會(huì)因?yàn)樽约河X(jué)得「跳出率」指標(biāo)比「PageRank」指標(biāo)更重要,從而覺(jué)得自己專業(yè)水平更高。如果那樣想,就是荒謬至極了。
「公理」級(jí)別的搜索引擎排序原則是:
設(shè)法讓盡多的用戶,在盡短的時(shí)間內(nèi)找到可以滿足自己需求的搜索結(jié)果。
如果連公理都沒(méi)想明白,后面的一切都是無(wú)從展開(kāi)的。哪怕偶爾做出效果,恐怕也只是運(yùn)氣的加持。
比方說(shuō),你搜索某個(gè)明星的身高,一個(gè)搜索結(jié)果網(wǎng)頁(yè)上明確的告訴你答案了,你看到這個(gè)答案后,迅速的關(guān)閉了被打開(kāi)的網(wǎng)頁(yè)。這時(shí)候,跳出率是100%,但哪有存在任何問(wèn)題嗎?
如果你沒(méi)有跳出,還繼續(xù)訪問(wèn)了網(wǎng)站上面其它的網(wǎng)頁(yè),在一部分情況下反而可能說(shuō)明,你的搜索需求或許沒(méi)有被直接滿足,還在花費(fèi)更多時(shí)間去找想要的東西。所以,跳出率在個(gè)別情況下,甚至是和網(wǎng)頁(yè)質(zhì)量呈現(xiàn)負(fù)相關(guān)的,沒(méi)理由被百度當(dāng)做核心指標(biāo)(而且百度怎么去全面收集第三方網(wǎng)站的跳出率也是個(gè)問(wèn)題)。
所以,百度該看什么指標(biāo)呢?這兩年,不少?gòu)臉I(yè)者可能給出的一個(gè)答案是,看用戶在搜索結(jié)果頁(yè)面上面,對(duì)于每一個(gè)搜索結(jié)果的點(diǎn)擊率。
但這里的問(wèn)題也非常明顯。確實(shí),用戶都不樂(lè)意點(diǎn)的搜索結(jié)果,自然多半是不那么高質(zhì)量的;但平常大家都是用過(guò)搜索引擎的,應(yīng)該清楚,當(dāng)點(diǎn)擊了一條搜索結(jié)果以后,也經(jīng)常會(huì)覺(jué)得這并不是自己想要的,然后又退出來(lái)打開(kāi)其他搜索結(jié)果。所以,單純的點(diǎn)擊行為,并沒(méi)法全面的說(shuō)明問(wèn)題。
其實(shí)最終答案已經(jīng)提到了。理論上接近完美的解決方案正是,去看用戶點(diǎn)擊了當(dāng)前的搜索結(jié)果之后,是否還會(huì)退回百度去點(diǎn)擊其它搜索結(jié)果;如果點(diǎn)擊了當(dāng)前搜索結(jié)果之后,就把百度關(guān)閉了,那這就是大概率是一次滿意的搜索行為。
得到這樣的猜想之后,還可以設(shè)法去收集數(shù)據(jù)來(lái)驗(yàn)證。既然我在這里寫這個(gè)東西,自然是實(shí)際數(shù)據(jù)驗(yàn)證過(guò)的。
但其實(shí),用數(shù)據(jù)去驗(yàn)證猜想這一步,在不少情況下甚至是可有可無(wú)的。道理就是前面說(shuō)的,只要我們的結(jié)論邏輯上是足夠經(jīng)得起推敲的,百度做了十幾年的搜索引擎還沒(méi)想到這一點(diǎn)的可能性是幾乎不存在的。
這也正是邏輯工具的一個(gè)強(qiáng)大之處所在——通過(guò)實(shí)踐去驗(yàn)證,通過(guò)數(shù)據(jù)去驗(yàn)證,盡管在很多場(chǎng)景下仍然是更好的選擇,但在另一些場(chǎng)景下,因?yàn)閷?shí)驗(yàn)、數(shù)據(jù)收集都有時(shí)間、技術(shù)等方面的難題,會(huì)使得這些手段變得極為低效,難以獲得研究成果上的質(zhì)變。
唯有邏輯,只需要我們的大腦。
在進(jìn)入抖音的話題之前,還是先來(lái)再談個(gè)外賣的排序研究。幾年前有個(gè)小伙伴和我說(shuō)她可能要去和人合伙做外賣創(chuàng)業(yè)了,花了不到一個(gè)小時(shí)簡(jiǎn)單給看了下。具體看的是哪一家外賣平臺(tái)的我給忘了。
這是一個(gè)可能更容易被理解的簡(jiǎn)單統(tǒng)計(jì)為主的粗淺研究,但仍有非常直接有效的用途。
首先,我們總是應(yīng)該通過(guò)各種方式,把能確定的東西盡可能的確定下來(lái),之后再去做未知部分的探索。比方說(shuō)搜索引擎,能確定的東西很大一部分來(lái)自于搜索引擎原理書(shū)籍、百度官方搜索資源平臺(tái)的文章、百度專利……當(dāng)然,還有在無(wú)論任何領(lǐng)域都通用的——常識(shí)。
常識(shí)告訴我們,外賣的配送距離或是時(shí)間,一定是排序影響最大的因素之一。
其次,常識(shí)也能告訴我們,口味的評(píng)分、銷量等一些和用戶反饋相關(guān)的數(shù)據(jù)指標(biāo),也較有可能是會(huì)影響排序先后的。
隨后,收集具體的排序結(jié)果,及對(duì)應(yīng)的數(shù)據(jù)指標(biāo)。
如果一家店,前面幾個(gè)指標(biāo)表現(xiàn)都良好,排名也不錯(cuò),就視為正常結(jié)果。反之,如果排名不錯(cuò),但主要指標(biāo)都不佳的那些排序結(jié)果,則是主要需要分析的部分。
只要分析到這些結(jié)果的共性(且同時(shí)差異于正常結(jié)果的),便基本上是真正對(duì)排名有影響的地方。
第一個(gè)額外排序因素很快就被發(fā)掘到了,新店。對(duì)于新開(kāi)的店,外賣平臺(tái)會(huì)先流量扶持一陣。但這個(gè)排序因素可操作性不強(qiáng),并非我關(guān)注的重點(diǎn)。
刨除掉新店影響后,繼續(xù)分析剩余那些排名異常的店家的共性,發(fā)現(xiàn)了那些商家的圖片,大多數(shù)都是品牌LOGO,而這些商家都使用了菜品的圖片。大部分場(chǎng)景下,商品圖片的CTR都明顯高于品牌LOGO,因此基本可以斷定,點(diǎn)擊率或受到點(diǎn)擊率影響的其它指標(biāo),是一個(gè)重要的排序因素。
也因此,外賣排名談什么刷單、好評(píng)返現(xiàn)刷評(píng)分等等極其高成本的操作之前,哪怕花幾分鐘把商家圖片從品牌LOGO換成菜品,訂單量也能大幅提升。
是不是聽(tīng)上去蠻有意思的?
相比起研究了早就超過(guò)10000小時(shí)的搜索引擎,抖音我到現(xiàn)在不過(guò)研究了最多十幾二十個(gè)小時(shí)。于是能寫的東西,相對(duì)淺薄許多。
首先,我第一步仍然是在統(tǒng)計(jì)的方向進(jìn)行了探索。得出的結(jié)論是,如果單純的橫向?qū)Ρ韧粋€(gè)發(fā)布者的視頻,這時(shí)評(píng)論÷獲贊比例、轉(zhuǎn)發(fā)÷獲贊比例這般的指標(biāo),整體上和獲贊量沒(méi)有呈現(xiàn)明顯的正相關(guān),甚至在個(gè)別專業(yè)領(lǐng)域下,它們有時(shí)是呈現(xiàn)出負(fù)相關(guān)的。類似的,從其它方式收集到的一些個(gè)例來(lái)看,甚至在橫向?qū)Ρ韧粋€(gè)發(fā)布者的視頻時(shí),完播率(完整看完整個(gè)視頻的比率)和播放量之間也沒(méi)有比較必然的聯(lián)系。
這兩天粗看了一本推薦系統(tǒng)原理方面的書(shū)籍。期間,有想到一個(gè)可能比較重要的思想實(shí)驗(yàn):
假設(shè)抖音推送了一條超級(jí)美女的視頻,那么可以想象,男人都是大豬蹄子,看完的可能性很大;而且女性通常天性上也會(huì)欣賞美女,因?yàn)橛写敫校ǚ催^(guò)來(lái)男性不那么會(huì)欣賞帥哥),看完的可能性也不小。
鑒于大眾對(duì)于美女的喜愛(ài),以及這類視頻在整個(gè)平臺(tái)里面幾乎算時(shí)長(zhǎng)最短的類型。這時(shí),這些視頻的完播率很可能是很高的。
而且,抖音這種大型平臺(tái)里面不乏超級(jí)美女(和強(qiáng)大的美顏功能或多或少有關(guān)系),它可以不斷的推送這樣的視頻。如果這樣,用戶在線時(shí)長(zhǎng)在短期內(nèi)可以達(dá)到很大的提升。
但這樣的話,用戶花不了多久就會(huì)發(fā)現(xiàn)全都只是這一類視頻,漸漸覺(jué)得抖音內(nèi)容過(guò)于缺乏多樣性。再怎么樣的美女看多還是會(huì)看膩,用戶就逐漸流失。因此抖音必然是要么存在一個(gè)機(jī)制,天生就使得這一類(或類似)視頻不會(huì)過(guò)度爆火,要么是額外存在著一個(gè)抑制機(jī)制。
同時(shí),在刷抖音的實(shí)際過(guò)程里面不難發(fā)現(xiàn)的是,每一類自己感興趣的領(lǐng)域,刷到的視頻數(shù)量總體上是相對(duì)平均的。很少會(huì)連續(xù)拼命推送同一類型的視頻。
對(duì)于以上兩個(gè)現(xiàn)象,不難得到一種猜想:抖音根據(jù)每個(gè)用戶的喜好程度,給TA推送相應(yīng)數(shù)量比例的那些個(gè)「類別」的視頻。一些質(zhì)量數(shù)據(jù)指標(biāo),只需要在特定類別里面有相對(duì)的領(lǐng)先就夠了。
如果上述猜想是正確的,那么如何從抖音獲得更高的推送量?
答案就是,把自己的視頻蹭到有更多用戶關(guān)注的類別里面去,也就是「蹭熱點(diǎn)」。
似乎像是說(shuō)了一句廢話,因?yàn)樯晕⒄J(rèn)真做過(guò)抖音的人,應(yīng)該都知道蹭熱點(diǎn)可以獲得更多播放量,看上去沒(méi)有什么技術(shù)含量可言。
比如有一個(gè)抖音號(hào)叫做「大能」,主要是講玩表的話題,抖音至今才做了不到兩個(gè)月,已經(jīng)有了將近700萬(wàn)的粉絲。玩表是非常小眾的領(lǐng)域,但他的視頻仍然經(jīng)常能有幾十萬(wàn)的獲贊,不乏偶爾爆出個(gè)百萬(wàn)級(jí)別獲贊的視頻。其中的主要原因之一就是他喜歡蹭熱點(diǎn)。
他獲贊最多的視頻將近兩百萬(wàn),那個(gè)視頻在羅志祥成為話題人物的期間,講的是「羅志祥戴的是什么表」。大家都樂(lè)意八卦一下渣男的奢侈生活,于是在原本玩表的話題上面,完美的順勢(shì)蹭到了一波熱點(diǎn)。但顯而易見(jiàn)的是,這種「完美順勢(shì)蹭熱點(diǎn)」的機(jī)會(huì)是可遇不可求的,并且對(duì)文案創(chuàng)作有較高的要求。
這些天,他又蹭了一個(gè)熱點(diǎn),視頻里面講「隱秘的角落」這個(gè)時(shí)下大紅大火的電視劇,又收獲了幾十萬(wàn)的獲贊。但這個(gè)視頻講的主要是他對(duì)于這部電視劇的感想,和玩表的話題完全無(wú)關(guān),因此新增的粉絲肯定是不精準(zhǔn)的。這種蹭熱點(diǎn),完全就屬于是「強(qiáng)蹭熱點(diǎn)」,肯定不能說(shuō)毫無(wú)作用,但相對(duì)而言會(huì)收益有限。
「完美順勢(shì)蹭熱點(diǎn)」的收益巨大但前提條件較為苛刻,「強(qiáng)蹭熱點(diǎn)」沒(méi)什么前提條件但收益較小。因此一個(gè)更具研究?jī)r(jià)值的方向,就是去尋找那些既容易實(shí)現(xiàn),又收益更高的辦法。
首先,應(yīng)該先明白抖音大體上是如何判斷一個(gè)視頻的所屬類別的,這是我們?nèi)ゲ鋭e的類別的前提?!割悇e」這個(gè)東西可不是普通人直覺(jué)上那么簡(jiǎn)單的東西,遠(yuǎn)遠(yuǎn)不是隨便把一個(gè)視頻歸屬到一個(gè)類目這么簡(jiǎn)單。在機(jī)器學(xué)習(xí)的領(lǐng)域,它主要是「分類」和「聚類」兩大塊,根據(jù)目前的分析,抖音多半是以聚類為主導(dǎo)的。但聚類對(duì)于沒(méi)有機(jī)器學(xué)習(xí)相關(guān)經(jīng)驗(yàn)的人,卻又難以三言兩語(yǔ)描述清楚,這里無(wú)從展開(kāi)。
其次,也應(yīng)該要明白一個(gè)根本矛盾——蹭一個(gè)不是很相關(guān)的類別的同時(shí),因?yàn)椴シ帕勘欢兑舴职l(fā)給了對(duì)視頻沒(méi)直接興趣的用戶,很容易會(huì)把視頻的質(zhì)量數(shù)據(jù)指標(biāo)拉低,反而導(dǎo)致抖音不樂(lè)意后續(xù)再分發(fā)更多用戶過(guò)來(lái)。
所以,如何在不顯著影響質(zhì)量數(shù)據(jù)指標(biāo)的同時(shí),蹭到抖音其它類別/熱點(diǎn)的流量,是現(xiàn)階段我的主要研究方向之一。已經(jīng)有了個(gè)別的側(cè)面佐證,正在設(shè)法實(shí)際驗(yàn)證。而這里,就留個(gè)懸念了。