LinkedIn首席科學(xué)家:創(chuàng)業(yè)公司如何善用數(shù)據(jù),加入下一個(gè)千億美元市場?
ahxxm 發(fā)表于 2012.7.26| 點(diǎn)擊數(shù)13811
據(jù)麥肯錫大數(shù)據(jù)行業(yè)研究報(bào)告,歐元區(qū)的大數(shù)據(jù)行業(yè)將通過改善公司運(yùn)行效率、減少出錯(cuò)和增加稅收,為公共部門創(chuàng)造2500億歐元左右的產(chǎn)值。同時(shí),行業(yè)需求的人才數(shù)量不斷上升,但由于市場滯后性,可以預(yù)測此類人才在近幾年內(nèi)都是非常搶手的。
本文寫于2011年9月16日,作者DJ Patil,曾于2008年5月到2011年5月間在LinkedIn數(shù)據(jù)科學(xué)團(tuán)隊(duì)擔(dān)任管理者,“你可能認(rèn)識(shí)的人”等著名機(jī)制就來源于他的團(tuán)隊(duì)。編者有刪改。
早在2008年時(shí),我就和Jeff Hammerbacher 對(duì)于“如何打造Facebook和LinkedIn的數(shù)據(jù)收集和分析團(tuán)隊(duì)”這個(gè)話題有過經(jīng)驗(yàn)交流,我們?cè)谠S多方面都達(dá)成了共識(shí),這些共識(shí)總的概括起來成為一句話:數(shù)據(jù)科學(xué)是一項(xiàng)獨(dú)特的專業(yè)技能(具體見本文第二段“數(shù)據(jù)科學(xué)家應(yīng)有的素質(zhì)”)。
數(shù)據(jù)科學(xué)就是從那時(shí)候開始逐漸熱門起來的,如今數(shù)據(jù)科學(xué)界有著按時(shí)召開的討論會(huì)議、富有潛力的數(shù)據(jù)分析類新創(chuàng)公司,甚至有些大學(xué)都開設(shè)了這門課程,盡管如此,數(shù)據(jù)分析類人才依然非常緊缺。
LinkedIn求職板數(shù)據(jù),以及McKinsey的研究報(bào)告
這種局面是Google、Facebook、Amazon等互聯(lián)網(wǎng)巨頭對(duì)于數(shù)據(jù)的創(chuàng)造性運(yùn)用造成的。巨頭們擁有頂尖的數(shù)據(jù)科學(xué)家,數(shù)據(jù)科學(xué)家們用這些數(shù)據(jù)創(chuàng)造了巨大價(jià)值:讓搜索結(jié)果變得更準(zhǔn)確,準(zhǔn)確投放廣告獲得更高點(diǎn)擊率,向用戶推薦“可能認(rèn)識(shí)的人”等等。數(shù)據(jù)科學(xué)為互聯(lián)網(wǎng)帶來了許多改進(jìn)和有價(jià)值的產(chǎn)品,但它的適用范圍不僅僅在于互聯(lián)網(wǎng),沃爾瑪并沒有做出類似產(chǎn)品,但沃爾瑪之所以在零售業(yè)如此出類拔萃,就是因?yàn)樗恢痹谟酶鞣矫鏀?shù)據(jù)優(yōu)化著業(yè)務(wù)。
數(shù)據(jù)科學(xué)的重要性毋庸置疑,那么數(shù)據(jù)科學(xué)家為公司帶來了什么?他們?nèi)绾巫龅竭@些的?公司應(yīng)該如何打造一個(gè)有效的數(shù)據(jù)科學(xué)團(tuán)隊(duì)?
一、讓數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)
(譯者注:“機(jī)會(huì)驅(qū)動(dòng)”、“量化分析”這兩個(gè)詞可以幫助理解。)
每個(gè)企業(yè)家都想要讓數(shù)據(jù)驅(qū)動(dòng)型公司,“數(shù)據(jù)驅(qū)動(dòng)”這個(gè)詞膾炙人口,關(guān)于它的書籍、期刊、博文也數(shù)不勝數(shù),但數(shù)據(jù)驅(qū)動(dòng)型公司到底是怎么樣的?我的定義是這樣:
數(shù)據(jù)驅(qū)動(dòng)型公司反復(fù)收集、處理和運(yùn)用數(shù)據(jù)以提高效率、創(chuàng)造新產(chǎn)品,最終引領(lǐng)市場走向。
行業(yè)分析者們?cè)O(shè)計(jì)了許多評(píng)判一個(gè)公司是否屬于數(shù)據(jù)驅(qū)動(dòng)型的方法,有些人以數(shù)據(jù)量為標(biāo)準(zhǔn)、有些以數(shù)據(jù)復(fù)雜程度和處理難度為標(biāo)準(zhǔn),我更看重公司對(duì)于數(shù)據(jù)的使用效率。
電子商務(wù)網(wǎng)站多年前就開始利用這些數(shù)據(jù),配合算法向用戶推薦商品。Amazon創(chuàng)造了一種新的推薦模式,“查看此商品的顧客也查看了……”、“看過此商品后顧客買的其它商品有……”、“購買了您最近瀏覽過的商品的顧客同時(shí)購買了……”。
它們是Amazon網(wǎng)站最常用的功能之一,看起來有點(diǎn)拗口,但這個(gè)模式非常強(qiáng)力,用戶不再需要用傳統(tǒng)搜索功能大海撈針般尋找想要的商品,當(dāng)用戶對(duì)某個(gè)產(chǎn)品的特定屬性不滿意時(shí),底下會(huì)有同類替代品,它們由與有著相同愛好的人們幫助篩選出來,這些替代品符合用戶需求的可能性大大提高;同時(shí)Amazon還會(huì)將用戶可能想要的產(chǎn)品列出——注意,僅僅是“可能”想要——以刺激用戶購買欲望,最終促進(jìn)銷量。
這就是對(duì)數(shù)據(jù)高效運(yùn)用的結(jié)果,是Amazon在電子商務(wù)行業(yè)進(jìn)行的一場革命。
數(shù)據(jù)科學(xué)產(chǎn)品同樣是社交媒體的核心,畢竟,如果沒有這些產(chǎn)品用于增強(qiáng)用戶互動(dòng),社交網(wǎng)絡(luò)何以成為社交網(wǎng)絡(luò)?以“你可能認(rèn)識(shí)的人”為例,這也許是社交網(wǎng)絡(luò)里最重要的基礎(chǔ)功能,因?yàn)橐粋€(gè)個(gè)搜索朋友、同事、家人然后添加好友是個(gè)非常麻煩的過程——試想當(dāng)你搜索“John Smith”,結(jié)果發(fā)現(xiàn)有幾萬個(gè)人叫這名字的場面。
LinkedIn發(fā)明了“你可能認(rèn)識(shí)的人”(PYMK)機(jī)制,PYMK機(jī)制理論基礎(chǔ)很簡單:當(dāng)A認(rèn)識(shí)B、B認(rèn)識(shí)C時(shí),A也許會(huì)認(rèn)識(shí)C。但實(shí)際上結(jié)論并不一定成立,設(shè)計(jì)方法分析這個(gè)可能性的大小就是數(shù)據(jù)科學(xué)們要做的事情之一。
PYMK機(jī)制在當(dāng)時(shí)是很新奇的,但各大社交網(wǎng)絡(luò)迅速抄襲了它。Facebook在原有模式上做出了改進(jìn),不僅支持PYMK,還監(jiān)控這個(gè)機(jī)制對(duì)于用戶新增好友速度的影響。
經(jīng)過長久監(jiān)控和復(fù)雜的數(shù)據(jù)分析后,F(xiàn)acebook發(fā)現(xiàn)了保證“該用戶會(huì)長期持續(xù)進(jìn)行社交活動(dòng)”需要的好友數(shù)和兩次新增好友之間的間隔時(shí)長,形象的說,好友少和好友增加速度較慢的用戶一般不會(huì)長期在社交網(wǎng)絡(luò)活動(dòng),因此Facebook想方設(shè)法讓新用戶一開始就能獲得一定數(shù)量的好友。
Netflix數(shù)據(jù)科學(xué)團(tuán)隊(duì)發(fā)現(xiàn),相比不提供任何信息的用戶,在“想看的電影”列表添加了一定數(shù)量電影的用戶成為網(wǎng)站長期使用者的概率要顯著高出許多。所以在當(dāng)新用戶注冊(cè)Netflix時(shí),網(wǎng)站會(huì)強(qiáng)烈建議用戶填寫“想看的電影”,并且網(wǎng)站仍在不斷優(yōu)化注冊(cè)和試用流程(網(wǎng)站服務(wù)收費(fèi)、為新用戶提供免費(fèi)試用期)。
Zynga也利用統(tǒng)計(jì)數(shù)據(jù)與用戶保持長期關(guān)系,讓用戶持續(xù)地使用網(wǎng)站玩在線游戲。Zynga對(duì)于用戶個(gè)人信息和在網(wǎng)站上的行為都有統(tǒng)計(jì),長期統(tǒng)計(jì)帶來了大量數(shù)據(jù),數(shù)據(jù)分析創(chuàng)造了極大價(jià)值——從對(duì)人們參與游戲情況的分析中,發(fā)現(xiàn)了如何創(chuàng)造成功的游戲;在對(duì)游戲內(nèi)人們互動(dòng)情況進(jìn)行分析后,發(fā)現(xiàn)了影響用戶長期玩某游戲可能性的因素,等等等等。
多年來前端工程師和美工們都是憑本能設(shè)計(jì)網(wǎng)頁的,這沒什么錯(cuò)。然而Google和Amazon將A/B測試法(單變量測試)運(yùn)用于優(yōu)化網(wǎng)頁設(shè)計(jì)——某個(gè)細(xì)節(jié)的更改,是否促進(jìn)了商品銷售量?用戶要多久才能發(fā)現(xiàn)這些改變?這個(gè)改變?cè)斐闪擞脩袅魇?,有多少用戶走了?/p>
這些關(guān)系到網(wǎng)站運(yùn)行效率的因素,只有通過實(shí)驗(yàn)、數(shù)據(jù)收集、數(shù)據(jù)分析一步步才能發(fā)現(xiàn)。從數(shù)據(jù)分析中得出成功需要的硬性條件,團(tuán)隊(duì)任務(wù)自然是朝著這個(gè)條件優(yōu)化產(chǎn)品,這就是數(shù)據(jù)驅(qū)動(dòng)型公司。
雅虎對(duì)于數(shù)據(jù)科學(xué)的發(fā)展有著巨大貢獻(xiàn),看到Google使用MapReduce分析海量數(shù)據(jù)獲得的成功之后,雅虎意識(shí)到自己也需要一個(gè)同類工具用于數(shù)據(jù)分析,所以雅虎選擇了Hadoop。盡管后來這個(gè)工具被商業(yè)化,而且分析功能有著這樣那樣的缺陷(如對(duì)于數(shù)據(jù)流的分析效率很低),雅虎還是聘用了幾十名工程師開發(fā)新的開源工具彌補(bǔ)缺陷,目前Hadoop已經(jīng)成為所有數(shù)據(jù)科學(xué)家們必備工具中最重要的之一。
支付行業(yè)競爭非常激烈,PayPal、Visa、American Express、Square百花齊放,稍有不慎就會(huì)落后于其他所有公司,然后滅亡。為了在競爭中保持優(yōu)勢,這些公司打造了復(fù)雜的監(jiān)控系統(tǒng),提升安全性并排除支付過程中一切出錯(cuò)狀況,產(chǎn)品對(duì)這些系統(tǒng)的要求非常高,每個(gè)請(qǐng)求都必須在幾毫秒之內(nèi)處理完畢,因?yàn)榻酉聛磉€有無數(shù)請(qǐng)求等著處理。
所有搜索引擎為了提升用戶體驗(yàn),都會(huì)檢測搜索結(jié)果的相關(guān)程度,從無數(shù)點(diǎn)擊中分辨出有效的,進(jìn)行統(tǒng)計(jì)然后改進(jìn)。這大概是數(shù)據(jù)科學(xué)中最難的一塊,但Google發(fā)明了許多新技術(shù)克服這個(gè)難題,硬件有自制計(jì)算機(jī)、高性能分析軟件MapReduce、算法如PageRank等等,現(xiàn)在這些數(shù)據(jù)科學(xué)的成果大多成了開源項(xiàng)目。
我發(fā)現(xiàn)這些最著名的數(shù)據(jù)驅(qū)動(dòng)型公司都有相同格言:“無法量化,就無法改善。”以及與這種心態(tài)相配的幾個(gè)措施:
1.盡可能多的檢測和收集數(shù)據(jù),不論是在設(shè)計(jì)產(chǎn)品還是改善商業(yè)模式,如果不收集數(shù)據(jù),就不會(huì)有頭緒。
2.主動(dòng)而有規(guī)律的進(jìn)行收集工作,量化戰(zhàn)略和產(chǎn)品的成功程度。
3.整理數(shù)據(jù),讓更多的人看到以發(fā)現(xiàn)問題,“群眾的眼睛是雪亮的”。
4.深入分析數(shù)據(jù)變化的原因,以及數(shù)據(jù)不變化的原因。
所謂數(shù)據(jù)驅(qū)動(dòng)型公司有很多,因?yàn)槭占瘮?shù)據(jù)的門檻不高,但如果你公司能收集與自己產(chǎn)品有關(guān)的絕大部分?jǐn)?shù)據(jù)、按照以上這幾條進(jìn)行分析和改善工作,就超過了其中絕大部分。
接下來我要談?wù)勱P(guān)于數(shù)據(jù)科學(xué)家的一些事情,注意,數(shù)據(jù)并不只是專業(yè)者獨(dú)有的東西,公司里的每個(gè)員工都應(yīng)該關(guān)注它們。
二、數(shù)據(jù)科學(xué)家們的職責(zé)
在我工作過的和擔(dān)任過顧問的公司中,數(shù)據(jù)科學(xué)家不論多寡,說話都是非常有分量的。
數(shù)據(jù)科學(xué)家們的職責(zé)主要有以下幾類:
1.決策科學(xué)和商業(yè)智慧
數(shù)據(jù)對(duì)公司運(yùn)營的多個(gè)方面都有舉足輕重的影響,從戰(zhàn)略決策到具體實(shí)施規(guī)范。數(shù)據(jù)科學(xué)家們監(jiān)控?cái)?shù)據(jù),發(fā)現(xiàn)并總結(jié)出決策中需要考慮的因素。
聽起來簡單,但實(shí)際上這個(gè)過程稱得上是一門藝術(shù)。每個(gè)因素都與全局息息相關(guān),牽一發(fā)而動(dòng)全身,一個(gè)淺顯的例子是,看數(shù)據(jù)不能光看百分比、分母也很重要。隨著公司業(yè)務(wù)逐漸做大,需要考慮的因素也變得越來越多,整個(gè)過程越來越復(fù)雜。打個(gè)比方,將一個(gè)只報(bào)告溫度的天氣預(yù)報(bào),與報(bào)告溫度、氣壓的相比,再與包含溫度、氣壓、濕度等一系列信息的天氣預(yù)報(bào)相比,可以看出,質(zhì)量要求的提升會(huì)帶來數(shù)據(jù)收集和分析難度提升。(譯注:作者典故可能用的有點(diǎn)突兀,不過不會(huì)有頭沒尾,后面有照應(yīng)的。)
數(shù)據(jù)科學(xué)團(tuán)隊(duì)發(fā)現(xiàn)了這些因素之后,總結(jié)的過程也非常重要,給不同人群寫報(bào)告需要使用不同工具,從簡單的表格、到網(wǎng)頁上的視覺化信息圖以及更為復(fù)雜的商業(yè)產(chǎn)品,越復(fù)雜的產(chǎn)品提供的功能就越多,通過注釋和對(duì)比,可以突出報(bào)告重點(diǎn)、提供額外分析和橫向縱向的比較。
大的數(shù)據(jù)驅(qū)動(dòng)型公司會(huì)推動(dòng)數(shù)據(jù)“民主化”,讓數(shù)據(jù)不再只是數(shù)據(jù)分析團(tuán)隊(duì)和高級(jí)管理層專屬,每個(gè)人都可以合法的瀏覽這些數(shù)據(jù)。
Facebook是數(shù)據(jù)民主化的先驅(qū),所有人都能用Hive語言在其數(shù)據(jù)庫(基于Hadoop)進(jìn)行查詢,這意味著,稍微有點(diǎn)腳本語言基礎(chǔ)就能創(chuàng)立一個(gè)屬于自己的數(shù)據(jù)分析面板。
Zynga也有類似的機(jī)制,不過采用了完全不同的技術(shù),Zynga建立了兩個(gè)數(shù)據(jù)中心,一個(gè)有著嚴(yán)格的服務(wù)等級(jí)協(xié)議,為其核心服務(wù)提供支持,另一個(gè)用于為員工提供數(shù)據(jù)查詢服務(wù),不保證隨時(shí)都能表現(xiàn)出最佳性能。
更加傳統(tǒng)一些的公司,例如eBay也這么做了,eBay采用了類似Teradata的技術(shù),為每個(gè)工作小組提供與其相關(guān)的數(shù)據(jù)庫和數(shù)據(jù)存儲(chǔ)空間,使小組能方便的利用和修改數(shù)據(jù)。
隨著數(shù)據(jù)科學(xué)的發(fā)展,公司們?cè)谧鰶Q策時(shí)對(duì)于數(shù)據(jù)報(bào)告和分析越來越依賴,我們把這個(gè)新的決策模式稱為“決策科學(xué)”。決策科學(xué)團(tuán)隊(duì)將自身收集和分析的數(shù)據(jù)與外部的進(jìn)行對(duì)比,描繪出競爭格局,從中發(fā)現(xiàn)應(yīng)該優(yōu)先使用的策略,然后為策略制定中的假設(shè)提供證據(jù)支持,團(tuán)隊(duì)可能專注于“我們接下來應(yīng)該往哪個(gè)國家拓展業(yè)務(wù)”、“這個(gè)市場是否已經(jīng)飽和”類似的問題,解決這些問題不僅需要數(shù)據(jù),還要做出用于預(yù)測的模型,并用現(xiàn)有數(shù)據(jù)或者實(shí)際市場反應(yīng)檢驗(yàn)這些模型。
警惕:新接觸數(shù)據(jù)科學(xué)的人往往喜歡尋找“銀彈”,在數(shù)據(jù)科學(xué)中“銀彈”指能用于構(gòu)造整個(gè)系統(tǒng)的神奇數(shù)字,銀彈是可遇而不可求的,真正杰出的數(shù)據(jù)科學(xué)團(tuán)隊(duì)會(huì)尋找一個(gè)個(gè)杠杠,將收益最大化。
2.產(chǎn)品和市場分析
產(chǎn)品分析是數(shù)據(jù)運(yùn)用中一個(gè)相對(duì)較新的新領(lǐng)域,數(shù)據(jù)科學(xué)團(tuán)隊(duì)創(chuàng)造了直接與用戶互動(dòng)的環(huán)節(jié),例如:
用戶對(duì)于內(nèi)容有高度自主權(quán)的產(chǎn)品,如新聞聚合程序中用戶對(duì)于新聞源的控制、調(diào)整某個(gè)新聞源的展示優(yōu)先級(jí)。
推動(dòng)公司價(jià)值定位的程序,如“你可能認(rèn)識(shí)的人”和其他促進(jìn)用戶互動(dòng)的程序。(譯注:價(jià)值定位價(jià)值鏈中的一個(gè)環(huán)節(jié),對(duì)“公司能為用戶提供什么產(chǎn)品”進(jìn)行定位)
推薦其他產(chǎn)品的鏈接,如LinkedIn用戶使用群組功能時(shí),網(wǎng)站提示“你也許會(huì)喜歡這個(gè)小組”。
防止用戶直接離開、利用其他用戶提供的數(shù)據(jù)進(jìn)行推銷的提示,如上文中提到的Amazon那一系列“你可能……”。
獨(dú)立而有統(tǒng)計(jì)意義的產(chǎn)品,如Google News和LinkedIn Today,可以用于分析新聞與用戶喜好的相關(guān)程度。
隨著計(jì)算成本的迅速下降,用公開的算法和技術(shù)開發(fā)這些產(chǎn)品的成本也迅速下降。
市場分析與產(chǎn)品分析差不多,也是利用數(shù)據(jù)對(duì)產(chǎn)品和服務(wù)進(jìn)行價(jià)值定位,市場分析的典范是OKCupid博客,它分析多種來源的數(shù)據(jù)對(duì)未來趨勢進(jìn)行預(yù)測,博客上幾乎每篇文章都很出名,其中有一篇研究擁有智能手機(jī)的品牌與性伴侶數(shù)量之間的聯(lián)系,“iPhone用戶是否會(huì)有更多樂趣呢?”,一篇根據(jù)新增好友的數(shù)量、研究用戶在社交網(wǎng)絡(luò)中使用不同頭像產(chǎn)生的吸引力大小差異。
這些文章評(píng)論都至少達(dá)到三位數(shù),被許多傳統(tǒng)媒體轉(zhuǎn)載和引用,在各大社交網(wǎng)絡(luò)中被用戶們分享傳播,用戶們和市場的反應(yīng)證明文章分析做得非常到位。
長期以來電子郵件都是商家與客戶和潛在客戶交流的主要方式,公司們對(duì)電子郵件進(jìn)行分析也不是近期才開始的,但是強(qiáng)有力的新技術(shù)能用豐富內(nèi)容開創(chuàng)一個(gè)新的電子郵件營銷方式。
例如Facebook會(huì)對(duì)不活躍用戶發(fā)送郵件,提醒登陸;LinkedIn網(wǎng)站周期性的給用戶發(fā)送郵件,將用戶社交圈子的動(dòng)態(tài)濃縮在其中,新的工作職位、引人注目的文章、新的好友等,若非如此,單純的沒有任何內(nèi)容的廣告郵件會(huì)被系統(tǒng)當(dāng)作垃圾郵件處理。
一個(gè)用心經(jīng)營過自己社交網(wǎng)絡(luò)的人,看到這些郵件中好友動(dòng)態(tài),必然不會(huì)輕易刪除它們,這就是用新技術(shù)進(jìn)行營銷的效率。
3.欺騙、濫用、風(fēng)險(xiǎn)、安全
(譯注:前文中提到支付公司,它們的漏洞可能不那么容易理解,形象的說,某種攻擊方式——如DDoS——讓它們死機(jī)就能造成巨額損失。
App Store本次漏洞中,發(fā)現(xiàn)者使用的“中間人攻擊”就是一種欺騙,花費(fèi)一定成本進(jìn)行App內(nèi)購買,監(jiān)控并記錄購買時(shí)的數(shù)據(jù),然后偽造成iTunes,修改這些數(shù)據(jù)開出“已經(jīng)購買的證明”,讓程序服務(wù)器相信用戶已經(jīng)購買。
值得一提的是,大約十年前米特尼克就在《欺騙的藝術(shù)》一書中寫到了這種手段,并讓公司們警惕。)
利用互聯(lián)網(wǎng)進(jìn)行高科技犯罪的人有著高超的隱藏手段,和現(xiàn)成的掩護(hù)者:海量數(shù)據(jù)。數(shù)據(jù)分析在這類持續(xù)進(jìn)行的防御戰(zhàn)爭中起著決定性作用,數(shù)據(jù)收集、入侵檢測、壓力抵抗、蜜罐取證等等機(jī)制設(shè)計(jì)過程都與數(shù)據(jù)科學(xué)家擁有的技能有關(guān)。
一切都從數(shù)據(jù)收集開始,數(shù)據(jù)收集永遠(yuǎn)是個(gè)挑戰(zhàn),因?yàn)楹茈y確定收集的數(shù)據(jù)規(guī)模和種類足以支持結(jié)論,事實(shí)上由于存儲(chǔ)空間和計(jì)算帶來的成本,數(shù)據(jù)科學(xué)家們必須縮小范圍,找出對(duì)結(jié)論影響最重要的因素,最終設(shè)計(jì)出像“如果收集了足夠的x和y數(shù)據(jù),我們就能了解正在發(fā)生什么”一樣的檢測模型。
檢測欺騙、濫用等行為的另外一個(gè)問題是時(shí)間限制,攻擊者如果持續(xù)進(jìn)行DDos攻擊,同時(shí)檢測流程效率過低的話,會(huì)影響網(wǎng)站正常運(yùn)作。許多公司都意識(shí)到了檢測效率的重要性,雇傭了數(shù)據(jù)科學(xué)家,讓他們用復(fù)雜的工具改進(jìn)檢測流程,縮短系統(tǒng)反應(yīng)時(shí)間。
檢測到攻擊的下一步是防御,緩解服務(wù)器壓力,從所有用戶中分辨出攻擊者然后踢開他,這需要將已收集的數(shù)據(jù)作為變量,設(shè)計(jì)精密的分辨模型,是個(gè)很重要的過程。(譯注:再帶點(diǎn)私貨,所謂“主動(dòng)防御”也是先檢測程序行為,不過是比被動(dòng)防御消耗資源更大、有借口提醒你機(jī)器不安全而已。)
以IP地址為例,幾乎所有的系統(tǒng)日志機(jī)制都會(huì)收集使用者的IP,IP地址本身用處不大,但是作為變量來說,某IP地址的統(tǒng)計(jì)數(shù)據(jù)可以轉(zhuǎn)化為:
在一定時(shí)長內(nèi)來自此IP地址的異常行為
用戶在全球的分布狀況和其他地理位置信息
這個(gè)IP上的用戶是否經(jīng)常在此時(shí)訪問網(wǎng)站
數(shù)據(jù)->變量->模型->結(jié)論。
4.數(shù)據(jù)服務(wù)和操作
數(shù)據(jù)驅(qū)動(dòng)型公司的一大核心業(yè)務(wù)就是利用數(shù)據(jù)提供服務(wù),數(shù)據(jù)團(tuán)隊(duì)對(duì)于數(shù)據(jù)庫安全、存儲(chǔ)結(jié)構(gòu)、查詢模式負(fù)有責(zé)任,他們需要監(jiān)控并保證數(shù)據(jù)系統(tǒng)正常運(yùn)作,因?yàn)槠渌δ芏家蕾囉谶@個(gè)系統(tǒng)。
在我看來,隨著數(shù)據(jù)科學(xué)團(tuán)隊(duì)重要性的不斷上升,它與其他團(tuán)隊(duì)協(xié)作的需求也在不斷上升,傳統(tǒng)團(tuán)隊(duì)?wèi)?yīng)該改變自己習(xí)慣,以適應(yīng)數(shù)據(jù)團(tuán)隊(duì)的功能和服務(wù),而且他們需要被數(shù)據(jù)團(tuán)隊(duì)監(jiān)控,以保證穩(wěn)定性,員工們應(yīng)該隨時(shí)準(zhǔn)備處理服務(wù)器崩潰等緊急情況——成熟的公司就是在這些方面有著專業(yè)人才。
公司們對(duì)統(tǒng)計(jì)報(bào)表有著需求,這是數(shù)據(jù)團(tuán)隊(duì)的責(zé)任之一,他們要發(fā)現(xiàn)并總結(jié)出重點(diǎn),按時(shí)上交報(bào)表。同時(shí)也會(huì)出現(xiàn)某個(gè)因素大筆一揮就寫了出來,但由于硬件和軟件限制,這個(gè)因素不那么容易得出、會(huì)對(duì)服務(wù)器造成過大負(fù)擔(dān)的情況,所以與決策科學(xué)團(tuán)隊(duì)溝通合作也是非常重要的。
5.數(shù)據(jù)工程和基礎(chǔ)設(shè)施
對(duì)大規(guī)模數(shù)據(jù)進(jìn)行測量、追蹤、轉(zhuǎn)移和處理的工具復(fù)雜程度是非常難以理解的,而構(gòu)造這些工具就是數(shù)據(jù)工程團(tuán)隊(duì)的責(zé)任。
近些年科技發(fā)展極快,一些開源項(xiàng)目促進(jìn)了這類工具,舉幾個(gè)例:
Kafka、Flume、Scribe :是用于收集數(shù)據(jù)流信息的工具,它們使用的模型并不一樣,不過工作程序相似——從多個(gè)來源收集數(shù)據(jù),進(jìn)行整合,然后輸入數(shù)據(jù)庫。
Hadoop:Hadoop是目前最流行的數(shù)據(jù)處理框架。它是個(gè)面向批量數(shù)據(jù)處理的開源項(xiàng)目,創(chuàng)建者Doug Cutting受到MapReduce的啟發(fā)設(shè)計(jì)了它,許多數(shù)據(jù)流處理的新技術(shù)都采用了Hadoop。
Azkaban 和Oozie:作業(yè)調(diào)度程序,管理和協(xié)作復(fù)雜的數(shù)據(jù)流。
Pig和Hive:對(duì)于大型非關(guān)系數(shù)據(jù)庫的查詢語言。
Voldemort、Cassandra、HBase:保證大規(guī)模數(shù)據(jù)存儲(chǔ)使用時(shí)的良好表現(xiàn)。
同樣重要的還有對(duì)于這些系統(tǒng)的檢測和部署技術(shù)。
數(shù)據(jù)分析團(tuán)隊(duì)在構(gòu)造了這些大規(guī)模數(shù)據(jù)處理工具之后,會(huì)將這些工具應(yīng)用于產(chǎn)品和市場分析團(tuán)隊(duì)。一個(gè)視頻推薦引擎也許由SQL、Pig或Hive構(gòu)建,如果測試表明這個(gè)引擎有效、有市場價(jià)值,數(shù)據(jù)分析團(tuán)隊(duì)就要優(yōu)化它,部署至服務(wù)器上,嚴(yán)格遵循服務(wù)等級(jí)協(xié)議規(guī)定的穩(wěn)定性和效率運(yùn)行。
這個(gè)從原型到實(shí)際產(chǎn)品的過程,有時(shí)甚至需要完全推到重寫,例如當(dāng)SQL和關(guān)系型數(shù)據(jù)庫表現(xiàn)無法達(dá)到要求時(shí),程序就必須移植到其他類型的數(shù)據(jù)庫上,如HBase,移植成功后又要重新檢測運(yùn)行效率,這需要相當(dāng)復(fù)雜的編程。
6.提高公司內(nèi)部互動(dòng)和規(guī)范程度
一個(gè)公司的運(yùn)營應(yīng)該由這些數(shù)據(jù)指導(dǎo),還是根據(jù)其他機(jī)制?這是個(gè)問題。
有許多需要考慮的事情,員工、公司規(guī)模、運(yùn)營狀況、目前公司類型(產(chǎn)品驅(qū)動(dòng)、市場驅(qū)動(dòng))。有些公司以數(shù)據(jù)團(tuán)隊(duì)為中心,有些將數(shù)據(jù)團(tuán)隊(duì)與其他團(tuán)隊(duì)相互融合,機(jī)制有非常多種。
在公司初創(chuàng)時(shí),每個(gè)人都扮演著不同角色,因?yàn)闊o法負(fù)擔(dān)起多個(gè)團(tuán)隊(duì)用于分析、安全、運(yùn)營、基礎(chǔ)設(shè)施建設(shè),但隨著公司的發(fā)展,分工也變得明確和專業(yè)化,這是保證成功的手段之一。
在這一點(diǎn)上,我有三條建議:
在團(tuán)隊(duì)規(guī)模還很小的時(shí)候,成員們更應(yīng)該加強(qiáng)溝通,這樣能很方便的反應(yīng)和解決問題。
授人以漁,這能提高公司成為數(shù)據(jù)驅(qū)動(dòng)型的可能性。前文提到Facebook和Zynga等公司將數(shù)據(jù)公開化,結(jié)果是員工們幫助發(fā)現(xiàn)了一些影響產(chǎn)品成功程度的因素,這種模式在五年前是聞所未聞的。對(duì)于數(shù)據(jù)的觀察和分析需要訓(xùn)練,所以公司應(yīng)該開設(shè)這門課程。
各個(gè)職能部門有規(guī)律的定期相互聯(lián)系,數(shù)據(jù)科學(xué)的發(fā)展會(huì)帶動(dòng)科技創(chuàng)新,為了讓所有部門能跟上步伐,定期交流經(jīng)驗(yàn)是非常重要的。
三、數(shù)據(jù)科學(xué)家應(yīng)該有哪些素質(zhì)?
我和Jeff Hammerbacher 在討論如何打造數(shù)據(jù)科學(xué)團(tuán)隊(duì)時(shí)意識(shí)到,隨著公司成長,我們發(fā)現(xiàn)不知道應(yīng)該如何稱呼這些團(tuán)隊(duì)成員,“商業(yè)分析員”聽起來不像是干大事的,“數(shù)據(jù)分析師”太籠統(tǒng),而且許多團(tuán)隊(duì)成員都有深厚的工程技術(shù)專長,不適合這么叫,“研究員”又被Sun、HP等公司使用過。
不過我們發(fā)現(xiàn)了這些稱呼與團(tuán)隊(duì)工作的差異:許多研究成果都是抽象的,與產(chǎn)品毫無關(guān)系,而且通常要經(jīng)過實(shí)驗(yàn)室?guī)啄暄芯坎拍馨l(fā)現(xiàn)一些影響產(chǎn)品發(fā)展的因素,相反,我們的團(tuán)隊(duì)注重即時(shí)性,一旦有了進(jìn)展,對(duì)于產(chǎn)品發(fā)展會(huì)有巨大幫助。所以團(tuán)隊(duì)最終命名為“數(shù)據(jù)科學(xué)團(tuán)隊(duì)”,每個(gè)成員都是數(shù)據(jù)科學(xué)家——使用數(shù)據(jù)和科學(xué)進(jìn)行創(chuàng)造活動(dòng)的人。
接下來討論的就是如何尋找合格的成員,或者說,一名合格的數(shù)據(jù)科學(xué)家應(yīng)該有哪些素質(zhì)?
專業(yè)技術(shù):在某個(gè)領(lǐng)域擁有深厚的專業(yè)知識(shí)。
好奇心:透過表現(xiàn)看本質(zhì)的欲望,將問題分解成一個(gè)個(gè)小步驟,科學(xué)的解決。
講故事:發(fā)現(xiàn)數(shù)據(jù)反應(yīng)出的問題并有效向他人表達(dá)。
睿智:多角度、創(chuàng)造性的看問題。
人們通常會(huì)認(rèn)為,數(shù)據(jù)科學(xué)家都需要有計(jì)算機(jī)科學(xué)的學(xué)術(shù)背景,不過以我的經(jīng)驗(yàn)看來,這不構(gòu)成問題,起碼我團(tuán)隊(duì)里不是這樣的,PYMK機(jī)制由一位實(shí)驗(yàn)物理學(xué)家發(fā)明,一位計(jì)算化學(xué)家解決了百年以來的“水的能量狀態(tài)”難題(譯者:這和LinkedIn有半毛錢關(guān)系?),一位海洋學(xué)家在我們制作檢測欺騙模型時(shí)做出了杰出貢獻(xiàn),這都不算什么,神經(jīng)外科醫(yī)師居然是個(gè)發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含趨勢的天才……
所有頂尖數(shù)據(jù)科學(xué)家都有充分而寬廣的好奇心,不分日常生活和工作,所以他們能用新奇的方式整合一些完全不同的東西,我認(rèn)識(shí)的一位好奇寶寶將DNA排序技術(shù)運(yùn)用于發(fā)現(xiàn)欺騙。
這些人幾乎都有著相當(dāng)高的學(xué)歷,當(dāng)然,我也見過一些杰出的、可以稱得上數(shù)據(jù)科學(xué)家的在校大學(xué)生,那么如何整合他們的能力呢?
在整合他們能力解決實(shí)際問題之前,首先要把數(shù)據(jù)搞定,這是準(zhǔn)備活動(dòng),同時(shí)也是需要解決的實(shí)際問題。我剛畢業(yè)時(shí)對(duì)天氣預(yù)報(bào)很感興趣,想出了個(gè)預(yù)測天氣的方法,但需要很多數(shù)據(jù),這些數(shù)據(jù)網(wǎng)上有現(xiàn)成的,不過它們的存儲(chǔ)格式、文件尺寸都不一樣,為了將它們利用起來我寫了個(gè)系統(tǒng),讓寢室每臺(tái)電腦從凌晨1點(diǎn)到早上8點(diǎn)都工作,獲取和處理數(shù)據(jù),最終經(jīng)過優(yōu)化的數(shù)據(jù)庫在任何一臺(tái)電腦上都能運(yùn)行。(譯注:蓋茨大二時(shí)的數(shù)學(xué)作業(yè)被老師整理后發(fā)表成論文,見此)
找到豐富的數(shù)據(jù)源。
在硬件、軟件和帶寬不充足時(shí),進(jìn)行大規(guī)模數(shù)據(jù)操作。
把數(shù)據(jù)格式轉(zhuǎn)換成一致的,對(duì)多個(gè)數(shù)據(jù)源進(jìn)行融合。
將數(shù)據(jù)視覺化。
寫出高效利用數(shù)據(jù)的工具。
尋找數(shù)據(jù)科學(xué)家的另一個(gè)難題在于,這類人才實(shí)在沒多少,即使有訓(xùn)練項(xiàng)目和開設(shè)了這門課程的大學(xué),市場上仍然供不應(yīng)求,根據(jù)我的經(jīng)驗(yàn),要想成為數(shù)據(jù)科學(xué)家,最好的方法不是訓(xùn)練和學(xué)習(xí),而是自己去做一些與數(shù)據(jù)科學(xué)有關(guān)的事情。
因此我對(duì)新員工有這方面要求,必須要有與數(shù)據(jù)打交道的經(jīng)驗(yàn),否則如果是有潛力的大學(xué)生,就必須經(jīng)過強(qiáng)度非常大的實(shí)習(xí)訓(xùn)練項(xiàng)目考驗(yàn)。Kaggle和Topcoder提供了這類人才的平臺(tái),公司可以在上面發(fā)布一個(gè)項(xiàng)目,然后從參與的團(tuán)隊(duì)中挑選出最好的那個(gè)。
許多人都想招現(xiàn)成的工作人員,其實(shí)潛力股也是很重要的,這三年我?guī)ьI(lǐng)LinkedIn分析和數(shù)據(jù)團(tuán)隊(duì),對(duì)于“怎么樣的畢業(yè)生或者在校學(xué)生值得選擇”總結(jié)出了一些規(guī)則,必須滿足一下標(biāo)準(zhǔn):
時(shí)間:一旦選擇此人,我們就要在同一個(gè)辦公室長期工作,參與是新人成長必備的歷程。
信任:我們能相信你嗎?你對(duì)工作是敷衍了事,還是盡力做到最好?
交流:有效交流是保證高效率運(yùn)行的關(guān)鍵,你能在90天之內(nèi)融入公司嗎?
后面兩條需要時(shí)間來驗(yàn)證,我們量化了這兩個(gè)標(biāo)準(zhǔn),對(duì)于實(shí)習(xí)生的工作質(zhì)量和速度設(shè)置了一定期望。
融入部分,“90天”需要個(gè)人和團(tuán)隊(duì)的共同努力,同樣,成功也是整個(gè)團(tuán)隊(duì)共同分享的東西。我們會(huì)將期望設(shè)置的很高,讓實(shí)習(xí)者意識(shí)到這是一個(gè)精英級(jí)別的團(tuán)隊(duì),然后以高標(biāo)準(zhǔn)要求自己,如果在與團(tuán)隊(duì)互動(dòng)、了解工作流程和公司運(yùn)行模式之后仍然不能在短期內(nèi)達(dá)到要求,那么就不適合這兒。
這也是保證長期內(nèi)能成功的條件,通過這個(gè)考驗(yàn),他們的成果就值得公司其他部門的人研究,這會(huì)讓他們對(duì)未來的工作有自信。每個(gè)從實(shí)習(xí)生做到資深高管的人都做到了這一點(diǎn),許多業(yè)界頂尖人士更是在實(shí)習(xí)期就做出了非同尋常的成就。
“4-6年內(nèi),你能做出一些令人驚異的事兒嗎?”
什么叫令人驚異?這很難定義,因?yàn)檎務(wù)摰氖情L期內(nèi)整個(gè)行業(yè)的趨勢,但這很容易辨別,一眼就能看出。許多公司提到職位上升需要時(shí)間問題時(shí)總是語焉不詳,我并不期望實(shí)習(xí)生能做出什么令人驚異的事情,但我看中的是有了長期規(guī)劃之后,實(shí)習(xí)生能在4-6年內(nèi)做出成果。
最后強(qiáng)調(diào)一下,這個(gè)標(biāo)準(zhǔn)是共同努力達(dá)到的,如果公司不提供表現(xiàn)的平臺(tái)和機(jī)會(huì),實(shí)習(xí)生永遠(yuǎn)無法成功。
四、打造LinkedIn數(shù)據(jù)科學(xué)團(tuán)隊(duì)
LinkedIn數(shù)據(jù)團(tuán)隊(duì)剛開始時(shí)與現(xiàn)在可謂天壤之別,沒有數(shù)據(jù)服務(wù)團(tuán)隊(duì),總共有1.5個(gè)工程師,那0.5個(gè)后來創(chuàng)業(yè)去了,5個(gè)分析師、目前都是團(tuán)隊(duì)核心,為公司上上下下提供支持。
我做的第一件事是去各大科技公司取經(jīng),雅虎、eBay、Facebook、Google、Sun等等都走遍了,結(jié)果令我很驚奇。每個(gè)公司中都有類似于數(shù)據(jù)科學(xué)家的人,但他們有“主業(yè)”,只在有限的空閑時(shí)間里做一些數(shù)據(jù)科學(xué)研究,也許有一天他們發(fā)現(xiàn)了什么或者想到了什么點(diǎn)子,產(chǎn)品經(jīng)理也會(huì)告訴他們說“不錯(cuò),不過這沒在我們的藍(lán)圖中。”
所以我將數(shù)據(jù)科學(xué)團(tuán)隊(duì)獨(dú)立出來,作為產(chǎn)品團(tuán)隊(duì)存在,對(duì)于產(chǎn)品設(shè)計(jì)、使用和維護(hù)負(fù)有責(zé)任,這給了數(shù)據(jù)科學(xué)家們測試空間和表現(xiàn)機(jī)會(huì)。結(jié)果不僅是“你可能認(rèn)識(shí)的人”和“誰看了我的檔案”,還有許多功能,如Skills,作為個(gè)人檔案的一部分,同時(shí)也匯聚了公司對(duì)于技能的要求,讓用戶了解在某個(gè)領(lǐng)域成功需要那些技能。
團(tuán)隊(duì)學(xué)術(shù)背景的多樣性也是成功因素之一,產(chǎn)品設(shè)計(jì)、前端后臺(tái)編寫、運(yùn)營策略和實(shí)施都有專業(yè)人士去做,同時(shí)每個(gè)人都了解如何利用數(shù)據(jù)工作,所以業(yè)務(wù)界限并不明顯,工程師可以向產(chǎn)品設(shè)計(jì)提建議,設(shè)計(jì)師也能指點(diǎn)工程師。
在數(shù)據(jù)產(chǎn)品的打造上,傳統(tǒng)模式效率也相當(dāng)?shù)?,將?shù)據(jù)團(tuán)隊(duì)與設(shè)計(jì)、市場分開,不科學(xué),我甚至懷疑這樣成功率是不是0。
有了數(shù)據(jù)科學(xué),傳統(tǒng)瀑布式流程——模塊化的運(yùn)作,團(tuán)隊(duì)們分別定義和設(shè)計(jì)產(chǎn)品,數(shù)據(jù)科學(xué)家只能準(zhǔn)備數(shù)據(jù),最終工程師做出產(chǎn)品——就過時(shí)了。數(shù)據(jù)科學(xué)團(tuán)隊(duì)并不是設(shè)計(jì)Office,或者類似的人們對(duì)于程序界面、功能等方面都有著共識(shí)的產(chǎn)品,相反,每個(gè)項(xiàng)目都是在新領(lǐng)域進(jìn)行創(chuàng)造和實(shí)驗(yàn),從設(shè)計(jì)到運(yùn)營都是實(shí)驗(yàn)的重要部分。
這類產(chǎn)品對(duì)于存儲(chǔ)、網(wǎng)絡(luò)和計(jì)算性能的要求都遠(yuǎn)遠(yuǎn)超過原先,存儲(chǔ)級(jí)別是PB甚至EB級(jí)的(譯注:8m網(wǎng)絡(luò)下載1EB的文件要30年,如果我沒有算錯(cuò)的話),使用的數(shù)據(jù)部分來自本身服務(wù)器、部分來自外部,所以,如果不是一開始就將整個(gè)團(tuán)隊(duì)融合,產(chǎn)品不可能表現(xiàn)得令人滿意。
數(shù)據(jù)科學(xué)產(chǎn)品的質(zhì)量檢驗(yàn)(QA)需要非常嚴(yán)格的手段,常規(guī)的構(gòu)造測試數(shù)據(jù)集甚至無法覆蓋整個(gè)產(chǎn)品的使用范圍,所以不再適合這類新技術(shù)。為了有效的檢驗(yàn)產(chǎn)品質(zhì)量,從理念原型時(shí)就應(yīng)該開始設(shè)計(jì)檢驗(yàn)機(jī)制,我的數(shù)據(jù)科學(xué)團(tuán)隊(duì)中有幾位在整個(gè)產(chǎn)品生命周期內(nèi)都負(fù)責(zé)這方面工作。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)不只是作為數(shù)據(jù)科學(xué)家團(tuán)隊(duì)存在,它設(shè)計(jì)工具將整個(gè)公司的運(yùn)營數(shù)字化和自動(dòng)化,節(jié)約了大量時(shí)間——泡杯咖啡就能得到數(shù)據(jù),然后再次實(shí)驗(yàn),比一覺醒來還得等上個(gè)把小時(shí)效率要高得多,從而做出創(chuàng)造性成果的可能性也高得多。
數(shù)據(jù)科學(xué)團(tuán)隊(duì)與公司其他部門的交流也要重點(diǎn)注意,因?yàn)閳F(tuán)隊(duì)很可能被接連不斷的問題和請(qǐng)求轟炸,必須分清優(yōu)先級(jí)、做好時(shí)間安排,一個(gè)個(gè)解決。
五、最后
建立一支成功的數(shù)據(jù)科學(xué)團(tuán)隊(duì),你會(huì)發(fā)現(xiàn)整個(gè)公司都被他們影響,到處都是數(shù)據(jù)產(chǎn)品的身影。
動(dòng)手吧公司們!
轉(zhuǎn)自:http://tech2ipo.com/54736
相關(guān)新聞>>
- LinkedIn創(chuàng)始人Reid Hoffman寫給畢業(yè)生的3個(gè)通往成功的秘密
- 科技的發(fā)展讓公司“死”得越來越快
- 如何在開放式辦公室里高效工作?
- (超長篇)凱文·凱利最新演講珍藏版:想把握未來商機(jī),必須看透這十二個(gè)趨勢
- 五條法則,幫你打造典型扁平化產(chǎn)品
- Uber首席技術(shù)官闖入醫(yī)療界,Pager獲資1400萬美元
- IDG總結(jié)創(chuàng)業(yè)者不可錯(cuò)過的三大領(lǐng)域,人工智能、消費(fèi)升級(jí)、泛娛樂
- 注意力經(jīng)濟(jì)危機(jī):內(nèi)容、商業(yè)與文化的未來