![]() |
二.大數(shù)據(jù)的核心思想
1.有什么不重要,怎么用才重要
在會(huì)上,無(wú)奈的發(fā)現(xiàn)每當(dāng)舉男女之間的例子,眾人理解能力就飆升,而講偏產(chǎn)品技術(shù)方面時(shí),下面就一臉木然昏昏欲睡。(諸位。!你們是來(lái)聽色情講座呢?)
Netflix公司利用大數(shù)據(jù)來(lái)拍《紙牌屋》的勵(lì)志故事大家都聽過(guò)無(wú)數(shù)遍。Netflix是美國(guó)最大的DVD與網(wǎng)絡(luò)視頻租賃網(wǎng)站,他們?cè)趪?guó)內(nèi)有2700萬(wàn)用戶,全球有3300萬(wàn)。他們從流媒體視頻用戶處收集到的數(shù)據(jù)是異常驚人的,每一次搜索,每一次暫停,每一次積極或者消極的評(píng)價(jià),還有自己的位置數(shù)據(jù)設(shè)備數(shù)據(jù)社交媒體數(shù)據(jù),在分析完這些數(shù)據(jù)之后,發(fā)現(xiàn)自己的這些觀眾都喜歡演員凱文-史派西,還喜歡導(dǎo)演大衛(wèi)-芬奇,并且喜歡1990年的英國(guó)同名電視劇。三項(xiàng)綜合在一起,Netflix就下定決心拍攝《紙牌屋》,并將數(shù)據(jù)分析運(yùn)用得淋漓盡致。在Netflix的觀影頁(yè)面上,提供暫停后截圖的功能,他們就依靠這種數(shù)據(jù)來(lái)判斷觀眾更喜歡哪種布景和畫面。
當(dāng)然,這三個(gè)因素其實(shí)都有不穩(wěn)定性,例如凱文-史派西也曾拍過(guò)只被評(píng)了4.2分的《弗雷德圣誕老人》,大衛(wèi)-芬奇首次執(zhí)導(dǎo)的《異形3》也成系列中口碑最差的一部。但是從概率上來(lái)說(shuō),這三個(gè)成功因素都包括的劇集更靠譜。
另外國(guó)政通推出的“同名同姓”應(yīng)用,雖然看起來(lái)比較偏娛樂(lè)化實(shí)用性不強(qiáng),但是這背后的那些身份數(shù)據(jù)是可以進(jìn)行各種二次利用。每次看到類似應(yīng)用,我總會(huì)把前同事“操瑞士”的奇葩名字輸進(jìn)去,現(xiàn)在只有這款應(yīng)用準(zhǔn)確的找到了全國(guó)只有1個(gè)操瑞士,并且是安徽人。呼叫瑞士大使館迅速鎖定他的位置吧!
所以大數(shù)據(jù)的核心并不是擁有數(shù)據(jù),而是拿數(shù)據(jù)去做了什么。也就是說(shuō)你不能僅僅占有人家的身子,也要占據(jù)人家的心靈。
2.對(duì)數(shù)據(jù)的容錯(cuò)性更強(qiáng),來(lái)源更加多樣化
一個(gè)500M的用戶數(shù)據(jù)excel表算不算大數(shù)據(jù)?曾經(jīng)在做某款產(chǎn)品的用戶篩選時(shí),這么一個(gè)excel成功拖死我電腦三次,我當(dāng)時(shí)憤怒的說(shuō):“KAO,這SB大數(shù)據(jù)!”現(xiàn)在想起來(lái),我冤枉了大數(shù)據(jù)君,您受苦了。
真正的大數(shù)據(jù),應(yīng)該是從不同維度,不同途徑過(guò)來(lái)的各種格式數(shù)據(jù)碎片,并不限于文字/視頻/聲音/位置/圖片等。只有將不同維度的數(shù)據(jù)放在一起判斷,得出來(lái)的趨勢(shì)才有可能更真實(shí)。雷同的數(shù)據(jù)積累的再多,超過(guò)某一個(gè)限度之后,我們?cè)購(gòu)男聵颖旧汐@得的有用信息就越來(lái)越少,就如同經(jīng)濟(jì)學(xué)上的邊際效應(yīng)遞減一樣。而用簡(jiǎn)單點(diǎn)兒的話解釋就是如果你已經(jīng)交往過(guò)五個(gè)IT碼農(nóng),那么第六個(gè)其實(shí)也不會(huì)新鮮到哪里去,倒不如重新調(diào)整方向,換個(gè)高富帥找點(diǎn)兒不同的刺激。
多樣化的來(lái)源同樣可以避免陷在一個(gè)死胡同里出不來(lái)。例如以前經(jīng)常說(shuō)的“三年自然災(zāi)害”,如果僅僅去查詢這三年的天氣狀況和死亡人數(shù)的關(guān)系。那么可能最后得出結(jié)論是“晴朗天氣比陰天更容易致人死亡”。但實(shí)際上如果去結(jié)合《人民日?qǐng)?bào)》畝產(chǎn)十萬(wàn)斤的相關(guān)翔實(shí)公正報(bào)道再加上那些年中國(guó)糧食對(duì)外進(jìn)出口情況,那么就會(huì)得出更有建設(shè)性的結(jié)論。在一90后妹子的追問(wèn)下,只說(shuō)了四個(gè)數(shù)字。1958年,中國(guó)出口糧食288.34萬(wàn)噸,進(jìn)口22.35萬(wàn)噸。困難時(shí)期第一年,1959年,中國(guó)出口415.75萬(wàn)噸,進(jìn)口0.20萬(wàn)噸,那年,聽說(shuō)大家都好餓。別不多說(shuō),免得喝茶。
再舉個(gè)例子,這兩天淘寶首頁(yè)給我推送的個(gè)性化廣告除了情趣用品就是“花花公子”服飾大優(yōu)惠,我不就是為了找素材和配圖搜了一下“情趣用品”么?你們沒完沒了的給我推送這個(gè),節(jié)操何在?如果你們能拿到我小學(xué)老師的評(píng)語(yǔ),初中老師的評(píng)語(yǔ)和操行評(píng)定,高中老師的評(píng)語(yǔ)和操行評(píng)定,通過(guò)對(duì)多個(gè)來(lái)源不同的數(shù)據(jù)源分析,那么你們給我推送的一定會(huì)是《鋼鐵是怎么煉成的》《雷鋒日記》等好書。(大學(xué)老師的評(píng)語(yǔ)就算了,那廝打CS被我蹂躪了太久容易懷恨在心。)
3.擁有大數(shù)據(jù)的身,也要有大數(shù)據(jù)的心
以往的數(shù)據(jù)分析,更多的是精確的樣本/深度的數(shù)據(jù)挖掘,“精確”就是其代名詞。不符合規(guī)格的樣本過(guò)濾掉,然后再深度挖掘數(shù)據(jù)字段間的關(guān)系,得出幾個(gè)精確無(wú)比數(shù)字去做PPT,或者從一系列數(shù)據(jù)里精準(zhǔn)的找到某個(gè)正一臉猥瑣偷拍姑娘的人。
但是大數(shù)據(jù)更多的是通過(guò)對(duì)各種數(shù)據(jù)分析得出某種趨勢(shì),這種趨勢(shì)不必過(guò)于精確,但是能讓相關(guān)決策人有底氣去做某項(xiàng)決定。大數(shù)據(jù)不重要,重要的是使用大數(shù)據(jù)的人。
因?yàn)槟呐旅嫦蛲耆嗤臄?shù)據(jù)源,不同的人得出的結(jié)論或者決定也可能是截然不同的。三國(guó)赤壁大戰(zhàn),當(dāng)龐統(tǒng)獻(xiàn)計(jì)“若以大船小船各皆配搭,或三十為一排,或五十為一排,首尾用鐵環(huán)連鎖,上鋪闊板,休言人可渡,馬亦可走矣”時(shí),同時(shí)聽到這話的兩個(gè)人,曹操下席而謝,“非先生良謀,安能破東吳耶!”,而徐庶卻私下里扯住龐統(tǒng)“你好大膽,只恐燒不盡絕。”由此可見,“以人為本”是多么精辟的一句廢話。
無(wú)論你NB還是SB,數(shù)據(jù)總在那里,不離不棄。
4.強(qiáng)調(diào)趨勢(shì)和未來(lái)
大數(shù)據(jù),更多的應(yīng)該是分析過(guò)去,提醒現(xiàn)在,展望未來(lái)。無(wú)法用到實(shí)踐中去的大數(shù)據(jù)都是耍流氓,無(wú)論這個(gè)結(jié)果是造福了全人類,還是幫助網(wǎng)站提高1%轉(zhuǎn)化率,這都是有用的。
上圖這充滿著暴力氣息的玩意是當(dāng)年冷戰(zhàn)期間美國(guó)和蘇聯(lián)研發(fā)的高速列車,他們將轟炸機(jī)上的渦輪直接裝在了火車頂上。其中美國(guó)的M-497號(hào)在1966年俄亥俄州的鐵軌上跑出了295.54公里/小時(shí)。雖然幾十年后,才有了現(xiàn)代高速鐵路,但是如果沒有最初的這種野蠻實(shí)驗(yàn),恐怕現(xiàn)在自主研發(fā)的高鐵也沒有那么充足的底氣。
談趨勢(shì)談大數(shù)據(jù),怎么能不提谷歌的流感趨勢(shì)呢?谷歌分析自己上億次的搜索查詢,近乎實(shí)時(shí)的提供全球許多國(guó)家和地區(qū)的流感疫情評(píng)估,從截圖可以看出,谷歌的趨勢(shì)曲線跟美國(guó)官方公布的數(shù)據(jù)重合度非常高,但是后者在時(shí)間和效率上完全無(wú)法比擬谷歌趨勢(shì)。
如果你在準(zhǔn)備出差的時(shí)候,發(fā)現(xiàn)你要去的地方正爆發(fā)鼠疫,我想大部分人肯定就哭著喊著辭職不去了。
再例如2012年美國(guó)某著名避孕套品牌發(fā)布校園性健康報(bào)告,報(bào)告表明在美國(guó)大學(xué)生中,25%得了性病,其中排名第一的是尖銳濕疣,得病率最高的學(xué)校是位于科羅拉多州的美國(guó)空軍學(xué)院(U.S. AIR FORCE ACADEMY)。然后緊接著,無(wú)聊的我又從學(xué)院官網(wǎng)中看到學(xué)校男生占比78.1%,女生占比21.9%。
從這些數(shù)據(jù)至少我們可以分析出一個(gè)結(jié)果:跟海歸一夜情之前,請(qǐng)查一下學(xué)位證。
頁(yè)碼:
上一頁(yè)
1
2
3
4
下一頁(yè)