成立于2008年的Vpon威朋是一個(gè)移動(dòng)廣告公司,其主營(yíng)業(yè)務(wù)是接受廣告主委托在其合作方推出的移動(dòng)App上發(fā)布廣告。上個(gè)月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統廣告分析系統,這是一套建立在Hadoop平臺上的大數據挖掘、分析及處理系統。這套系統最大作用就是能精確地統計和分析用戶(hù)點(diǎn)擊移動(dòng)應用的時(shí)間、地點(diǎn)和各種偏好,從而幫助廣告主做出更有效的廣告投放決策。成立于2009年的北京百分點(diǎn)信息科技有限公司(以下稱(chēng)百分點(diǎn))也在做與Vpon威朋類(lèi)似的事情。百分點(diǎn)推出了一種名為個(gè)性化搜索引擎的工具,電子商務(wù)網(wǎng)站可以利用它來(lái)分析訪(fǎng)客的點(diǎn)擊行為,找出訪(fǎng)客的偏好、進(jìn)行產(chǎn)品推薦。同樣,這個(gè)搜索引擎也是基于Hadoop開(kāi)發(fā)。
在互聯(lián)網(wǎng)領(lǐng)域,像Vpon威朋、百分點(diǎn)這樣利用Hadoop等利用大數據相關(guān)技術(shù)進(jìn)行訪(fǎng)客點(diǎn)擊行為分析來(lái)開(kāi)展業(yè)務(wù)的公司越來(lái)越多,其中有一大批對新興技術(shù)敏感的初創(chuàng )公司,同時(shí)也不乏像Google、Facebook這樣著(zhù)名的互聯(lián)網(wǎng)公司。
事實(shí)上,“大數據”這股發(fā)端于互聯(lián)網(wǎng)企業(yè)的數據分析熱潮如今已經(jīng)超出了互聯(lián)網(wǎng)領(lǐng)域,部分敢于“嘗鮮”的傳統企業(yè)已經(jīng)開(kāi)始部署大數據相關(guān)技術(shù)。根據IDC最新發(fā)布的全球大數據市場(chǎng)預測,大數據將從2010年的32億美元增長(cháng)至2015年的169億美元,年復合增長(cháng)率達到40%。對市場(chǎng)前景的良好預期吸引投資者們也紛紛投身其中,目前對于大數據的風(fēng)投資金已超過(guò)5億美元:去年年底Hadoop版本的主要發(fā)布者Cloudera獲得4000萬(wàn)美元投資;Cloudera的競爭對手,另一個(gè)Hadoop版本發(fā)布者——MapR獲得了2500萬(wàn)美元的投資;NoSQL數據庫廠(chǎng)商10Gen(MongoDB的供應商)和DataStax(Cassandra的供應商)分別獲得了3200萬(wàn)美元和1100萬(wàn)美元的融資;今年4月剛剛在納斯達克進(jìn)行IPO,融資2.3億美元……這個(gè)名單可以列得很長(cháng)。
很顯然,在市場(chǎng)研究機構和投資者看來(lái),大數據市場(chǎng)現在是如日中天,其熱度甚至大有蓋過(guò)云計算之勢。與此同時(shí),“大數據是大忽悠、大謊言”的說(shuō)法也不絕于耳。紛紛擾擾的市場(chǎng)宣傳中,我們究竟該如何認識大數據,大數據到底是大機遇還是大騙局?
迎來(lái)大數據時(shí)代
大數據與數據的爆炸性增長(cháng)有著(zhù)密切關(guān)系。根據IDC的研究,2010年底全球新生成的數據量已經(jīng)達到120萬(wàn)PB(或1.2 ZB),這些數據如果使用光盤(pán)存儲,摞起來(lái)可以從地球到月球一個(gè)來(lái)回(從地球到月球大約24萬(wàn)英里)。IDC預計,到2020年需要存儲的數據量將達到35萬(wàn)億GB,是2010年數據存儲量的42倍。
今天的中國是數據生產(chǎn)的大國。還是IDC提供的數據,截止到2012年6月,中國有近3.9億的移動(dòng)客戶(hù)、5.3億的互聯(lián)網(wǎng)客戶(hù)。在一個(gè)比較典型的智能城市中,每個(gè)季度就可能產(chǎn)生出200PB的視頻數據。
應該說(shuō),我們面對的挑戰不只是海量數據,還包括越來(lái)越繁多的數據格式,特別是非結構化和半結構數據量遠遠超過(guò)傳統的結構化數據。研究表明,如今新增數據中80%以上是諸如日志、圖片、視頻、電子郵件等非結構化或半結構化的數據。這些數據都不能(或者不適合)用傳統方法處理,需要有新的思考、新的作為,這就是大數據技術(shù)。
對于什么是大數據至今并沒(méi)有明確而且一致的定義。目前關(guān)于大數據有兩個(gè)不同的理解,一個(gè)是認為它是一系列的技術(shù),通過(guò)這些技術(shù)對大量的結構化和非結構化數據進(jìn)行處理,從而獲得各種分析和預測結果;另一個(gè),也是更多的人理解是,簡(jiǎn)單地稱(chēng)海量的數據集稱(chēng)為大數據,本文采用后一種認識。
雖然缺乏對大數據明確的定義,但對大數據三個(gè)“V”基本特征卻是頗有共識,即海量的數據規模(volume)、快速的數據流轉(velocity)、多樣的數據類(lèi)型(variety)。這其中,“海量”是大數據的引發(fā)人們廣泛關(guān)注的前提,而快速和復雜的數據類(lèi)型則是引發(fā)人們廣泛關(guān)注的關(guān)鍵。
大數據從何而來(lái)
談到大數據,不得不談到移動(dòng)設備。因為我們面對的大數據除了來(lái)自企業(yè)應用、運營(yíng)的數據以及供應鏈、供應商產(chǎn)生各種各樣的數據,還有很大一部分來(lái)自社交媒體以及移動(dòng)應用,而移動(dòng)智能設備就是背后最大的推手之一。
眾所周知,智能移動(dòng)設備的普及給社會(huì )帶來(lái)諸多變化。其中之一就是人們可以在任何時(shí)間、任何地點(diǎn)獲取信息,能夠實(shí)時(shí)通信、實(shí)時(shí)協(xié)作、發(fā)布社交內容。這就使得數據的生產(chǎn)方式發(fā)生了變化:過(guò)去,我們只是在工作時(shí)產(chǎn)生數據,而今我們幾乎是每時(shí)每刻都在生產(chǎn)數據;過(guò)去,數據都是交易型,典型的表現形式為一條條交易記錄,這是傳統數據庫所擅長(cháng)的,而如今,數據源眾多,而且很多數據不再是由人而是由機器產(chǎn)生的,各種各樣的RFID、傳感器都在生成數據。另外,即使是人為產(chǎn)生的,如社交網(wǎng)絡(luò )、微博,數據的形式和過(guò)去的形式也不一樣,主要表現為非結構化。
“數據量的增加已經(jīng)遠遠超出預期,而且企業(yè)目前面臨的還是一個(gè)更加復雜的數據環(huán)境。在這樣一個(gè)環(huán)境中,企業(yè)要獲得傳統財務(wù)或者財務(wù)以外信息分析能力,需要新的方法。這就是大數據熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數據論壇演講時(shí)表示。
面對如此海量、復雜的數據需要存儲、需要管理更需要分析,這就引發(fā)了人們對大數據的極大關(guān)注,而VMware全球高級副總裁范承工看來(lái),事情變復雜的還有另外兩個(gè)因素。“之所以有今天的大數據話(huà)題,除了數據產(chǎn)生更還包括云應用的普及以及數據的使用者發(fā)生了變化。”
范承工在VMware內部領(lǐng)導一個(gè)數據部門(mén)從事相關(guān)產(chǎn)品的開(kāi)發(fā),包括支持Hadoop在虛擬化環(huán)境中的快速部署插件等。范承工解釋說(shuō),云應用的普及改變了過(guò)去單一的數據位于數據中心的形式,越來(lái)越多的數據被保存在企業(yè)防火墻外的公有云中,使得數據整合成為難題;同時(shí),數據使用者也從最初主要面向管理者、高級經(jīng)理到逐漸普及到一般業(yè)務(wù)人員,這就要求獲得分析結果的方式更簡(jiǎn)單、更靈活。
相關(guān)閱讀