數據庫不能承受之重大數據落地人才最緊缺

2012/09/11 07:47 鄒大斌

　　成立于2008年的Vpon威朋是一個(gè)移動(dòng)廣告公司，其主營(yíng)業(yè)務(wù)是接受廣告主委托在其合作方推出的移動(dòng)App上發(fā)布廣告。上個(gè)月Vpon威朋推出了一款名為3S(Sales Supporting System)的系統廣告分析系統，這是一套建立在Hadoop平臺上的大數據挖掘、分析及處理系統。這套系統最大作用就是能精確地統計和分析用戶(hù)點(diǎn)擊移動(dòng)應用的時(shí)間、地點(diǎn)和各種偏好，從而幫助廣告主做出更有效的廣告投放決策。成立于2009年的北京百分點(diǎn)信息科技有限公司(以下稱(chēng)百分點(diǎn))也在做與Vpon威朋類(lèi)似的事情。百分點(diǎn)推出了一種名為個(gè)性化搜索引擎的工具，電子商務(wù)網(wǎng)站可以利用它來(lái)分析訪(fǎng)客的點(diǎn)擊行為，找出訪(fǎng)客的偏好、進(jìn)行產(chǎn)品推薦。同樣，這個(gè)搜索引擎也是基于Hadoop開(kāi)發(fā)。

　　在互聯(lián)網(wǎng)領(lǐng)域，像Vpon威朋、百分點(diǎn)這樣利用Hadoop等利用大數據相關(guān)技術(shù)進(jìn)行訪(fǎng)客點(diǎn)擊行為分析來(lái)開(kāi)展業(yè)務(wù)的公司越來(lái)越多，其中有一大批對新興技術(shù)敏感的初創(chuàng )公司，同時(shí)也不乏像Google、Facebook這樣著(zhù)名的互聯(lián)網(wǎng)公司。

　　事實(shí)上，“大數據”這股發(fā)端于互聯(lián)網(wǎng)企業(yè)的數據分析熱潮如今已經(jīng)超出了互聯(lián)網(wǎng)領(lǐng)域，部分敢于“嘗鮮”的傳統企業(yè)已經(jīng)開(kāi)始部署大數據相關(guān)技術(shù)。根據IDC最新發(fā)布的全球大數據市場(chǎng)預測，大數據將從2010年的32億美元增長(cháng)至2015年的169億美元，年復合增長(cháng)率達到40%。對市場(chǎng)前景的良好預期吸引投資者們也紛紛投身其中，目前對于大數據的風(fēng)投資金已超過(guò)5億美元：去年年底Hadoop版本的主要發(fā)布者Cloudera獲得4000萬(wàn)美元投資;Cloudera的競爭對手，另一個(gè)Hadoop版本發(fā)布者——MapR獲得了2500萬(wàn)美元的投資;NoSQL數據庫廠(chǎng)商10Gen(MongoDB的供應商)和DataStax(Cassandra的供應商)分別獲得了3200萬(wàn)美元和1100萬(wàn)美元的融資;今年4月剛剛在納斯達克進(jìn)行IPO，融資2.3億美元……這個(gè)名單可以列得很長(cháng)。

　　很顯然，在市場(chǎng)研究機構和投資者看來(lái)，大數據市場(chǎng)現在是如日中天，其熱度甚至大有蓋過(guò)云計算之勢。與此同時(shí)，“大數據是大忽悠、大謊言”的說(shuō)法也不絕于耳。紛紛擾擾的市場(chǎng)宣傳中，我們究竟該如何認識大數據，大數據到底是大機遇還是大騙局?

　　迎來(lái)大數據時(shí)代

　　大數據與數據的爆炸性增長(cháng)有著(zhù)密切關(guān)系。根據IDC的研究，2010年底全球新生成的數據量已經(jīng)達到120萬(wàn)PB(或1.2 ZB)，這些數據如果使用光盤(pán)存儲，摞起來(lái)可以從地球到月球一個(gè)來(lái)回(從地球到月球大約24萬(wàn)英里)。IDC預計，到2020年需要存儲的數據量將達到35萬(wàn)億GB，是2010年數據存儲量的42倍。

　　今天的中國是數據生產(chǎn)的大國。還是IDC提供的數據，截止到2012年6月，中國有近3.9億的移動(dòng)客戶(hù)、5.3億的互聯(lián)網(wǎng)客戶(hù)。在一個(gè)比較典型的智能城市中，每個(gè)季度就可能產(chǎn)生出200PB的視頻數據。

　　應該說(shuō)，我們面對的挑戰不只是海量數據，還包括越來(lái)越繁多的數據格式，特別是非結構化和半結構數據量遠遠超過(guò)傳統的結構化數據。研究表明，如今新增數據中80%以上是諸如日志、圖片、視頻、電子郵件等非結構化或半結構化的數據。這些數據都不能(或者不適合)用傳統方法處理，需要有新的思考、新的作為，這就是大數據技術(shù)。

　　對于什么是大數據至今并沒(méi)有明確而且一致的定義。目前關(guān)于大數據有兩個(gè)不同的理解，一個(gè)是認為它是一系列的技術(shù)，通過(guò)這些技術(shù)對大量的結構化和非結構化數據進(jìn)行處理，從而獲得各種分析和預測結果;另一個(gè)，也是更多的人理解是，簡(jiǎn)單地稱(chēng)海量的數據集稱(chēng)為大數據，本文采用后一種認識。

　　雖然缺乏對大數據明確的定義，但對大數據三個(gè)“V”基本特征卻是頗有共識，即海量的數據規模(volume)、快速的數據流轉(velocity)、多樣的數據類(lèi)型(variety)。這其中，“海量”是大數據的引發(fā)人們廣泛關(guān)注的前提，而快速和復雜的數據類(lèi)型則是引發(fā)人們廣泛關(guān)注的關(guān)鍵。

　　大數據從何而來(lái)

　　談到大數據，不得不談到移動(dòng)設備。因為我們面對的大數據除了來(lái)自企業(yè)應用、運營(yíng)的數據以及供應鏈、供應商產(chǎn)生各種各樣的數據，還有很大一部分來(lái)自社交媒體以及移動(dòng)應用，而移動(dòng)智能設備就是背后最大的推手之一。

　　眾所周知，智能移動(dòng)設備的普及給社會(huì )帶來(lái)諸多變化。其中之一就是人們可以在任何時(shí)間、任何地點(diǎn)獲取信息，能夠實(shí)時(shí)通信、實(shí)時(shí)協(xié)作、發(fā)布社交內容。這就使得數據的生產(chǎn)方式發(fā)生了變化：過(guò)去，我們只是在工作時(shí)產(chǎn)生數據，而今我們幾乎是每時(shí)每刻都在生產(chǎn)數據;過(guò)去，數據都是交易型，典型的表現形式為一條條交易記錄，這是傳統數據庫所擅長(cháng)的，而如今，數據源眾多，而且很多數據不再是由人而是由機器產(chǎn)生的，各種各樣的RFID、傳感器都在生成數據。另外，即使是人為產(chǎn)生的，如社交網(wǎng)絡(luò )、微博，數據的形式和過(guò)去的形式也不一樣，主要表現為非結構化。

　　“數據量的增加已經(jīng)遠遠超出預期，而且企業(yè)目前面臨的還是一個(gè)更加復雜的數據環(huán)境。在這樣一個(gè)環(huán)境中，企業(yè)要獲得傳統財務(wù)或者財務(wù)以外信息分析能力，需要新的方法。這就是大數據熱的大背景。”Forrester Research資深分析師曹宇欽在不久前舉辦的大數據論壇演講時(shí)表示。

　　面對如此海量、復雜的數據需要存儲、需要管理更需要分析，這就引發(fā)了人們對大數據的極大關(guān)注，而VMware全球高級副總裁范承工看來(lái)，事情變復雜的還有另外兩個(gè)因素。“之所以有今天的大數據話(huà)題，除了數據產(chǎn)生更還包括云應用的普及以及數據的使用者發(fā)生了變化。”

　　范承工在VMware內部領(lǐng)導一個(gè)數據部門(mén)從事相關(guān)產(chǎn)品的開(kāi)發(fā)，包括支持Hadoop在虛擬化環(huán)境中的快速部署插件等。范承工解釋說(shuō)，云應用的普及改變了過(guò)去單一的數據位于數據中心的形式，越來(lái)越多的數據被保存在企業(yè)防火墻外的公有云中，使得數據整合成為難題;同時(shí)，數據使用者也從最初主要面向管理者、高級經(jīng)理到逐漸普及到一般業(yè)務(wù)人員，這就要求獲得分析結果的方式更簡(jiǎn)單、更靈活。

97婷婷狠狠成人免费视频,国产精品亚洲精品日韩已满,高清国产一区二区三区,日韩欧美黄色网站,xxxxx黄在线观看,韩国一级淫片视频免费播放,99久久成人国产精品免费

數據庫不能承受之重大數據落地人才最緊缺

相關(guān)閱讀

實(shí)時(shí)更新

新聞排行榜

熱門(mén)話(huà)題

關(guān)注挖貝

97婷婷狠狠成人免费视频,国产精品亚洲精品日韩已满,高清国产一区二区三区,日韩欧美黄色网站,xxxxx黄在线观看,韩国一级淫片视频免费播放,99久久成人国产精品免费

數據庫不能承受之重 大數據落地人才最緊缺

相關(guān)閱讀

實(shí)時(shí)更新

新聞排行榜

熱門(mén)話(huà)題

關(guān)注挖貝

數據庫不能承受之重大數據落地人才最緊缺