97婷婷狠狠成人免费视频,国产精品亚洲精品日韩已满,高清国产一区二区三区,日韩欧美黄色网站,xxxxx黄在线观看,韩国一级淫片视频免费播放,99久久成人国产精品免费

1分鐘愛(ài)上管理學(xué):為什么尿布和啤酒放在一起賣(mài)?

2012/05/02 06:17      姚余梁

知識點(diǎn)·數據挖掘 (Data Mining)

我們正處在一個(gè)信息大爆炸的年代,主要表現在大量信息的產(chǎn)生并以數字化的方式被記錄下來(lái)。之所以會(huì )有信息大爆炸,一個(gè)主要的原因是信息技術(shù)的成本大幅下降并且迅速廣泛普及。10年前,一臺個(gè)人電腦的硬盤(pán)大概也就是1GB大小,今天硬盤(pán)的大小都用幾百GB甚至TB(1TB=1024GB)來(lái)衡量了,而價(jià)錢(qián)基本上沒(méi)有變化。正是信息技術(shù)的普及造就了信息大爆炸的年代。信息多了,是好事兒,也是壞事兒。好事兒呢,是因為信息可以幫助人們更好地決策;壞事兒呢,是因為信息太多了,如何找到有用的信息又變成了一件難題。

大海撈針,出自明代戲曲作家王錂的《春蕪記·定計》:“覓利如大海撈針,攪禍似干柴引火。”你想想,大海有多大、多深、多廣闊,而一根針又是多么細微和渺小,要想在廣闊的大海里找到一根針,是一件不可能完成的任務(wù)。在今天的信息大爆炸年代,代表信息的數據就好像大海,廣闊無(wú)邊,而要在這廣闊的大海里找到想要的某一條信息,也確實(shí)是一件很難的事情。所以說(shuō),大海撈針的“撈”其實(shí)很形象地刻畫(huà)了數據挖掘的過(guò)程。

簡(jiǎn)而言之,數據挖掘就是從存放在數據庫中的大量數據中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過(guò)程。這個(gè)定義說(shuō)出了數據挖掘的四個(gè)基本特征:一是有效;二是新穎;三是有用;四是可理解。這四個(gè)基本特征缺少一個(gè)就不是嚴格意義上的數據挖掘。“有效”是指數據挖掘過(guò)程所使用的方法是正確的,無(wú)論用統計抽樣、假設檢驗,還是人工智能、模式識別和機器學(xué)習等方法,都要是正確地使用。“新穎”是指數據挖掘結果是意想不到的、事先不知道的,如果是已經(jīng)知道的,還費那么大的力氣去挖掘什么呢。“有用”是指數據挖掘結果可以用來(lái)指導公司決策,否則,費了九牛二虎之力挖掘出來(lái)的東西豈不都是垃圾。“可理解”是指數據挖掘結果能夠用常識或理論解釋?zhuān)绻忉尣涣?,那么這個(gè)結果很可能是碰巧得來(lái)的。這次碰巧得到了,不知道下次還能不能碰上,這樣的結果使用價(jià)值也不大。

數據挖掘的應用之一就是關(guān)聯(lián)規則,通過(guò)對大量數據的分析,找到兩個(gè)或幾個(gè)總是同時(shí)發(fā)生的事件。對于關(guān)聯(lián)規則,有一個(gè)關(guān)于沃爾瑪的傳說(shuō),之所以說(shuō)是傳說(shuō),是因為這個(gè)故事在商學(xué)院MBA課堂上廣泛流傳,誰(shuí)也不知道源頭在哪里,到底是不是真的。有一個(gè)學(xué)期,我有幾個(gè)學(xué)生非常較真,做了大量的搜索工作,最后也無(wú)法確定這個(gè)故事的源頭和真相,這故事后來(lái)就成了一個(gè)謎,反倒更增加了它的吸引力。沃爾瑪擁有世界上最大的數據倉庫系統,為了能夠準確了解顧客在其門(mén)店的購買(mǎi)習慣,沃爾瑪對其顧客的歷史購物行為進(jìn)行購物籃分析,想知道顧客經(jīng)常一起購買(mǎi)的商品有哪些。沃爾瑪數據倉庫集中了其各門(mén)店的詳細原始交易數據,在這些原始交易數據的基礎上,沃爾瑪利用數據挖掘方法對這些數據進(jìn)行分析和挖掘,發(fā)現了一個(gè)很有意思的現象:嬰兒尿布和啤酒有很高的相關(guān)度,即跟尿布一起購買(mǎi)最多的商品竟然是啤酒!

不要忘記我們前面說(shuō)的四個(gè)基本特征。有效?沒(méi)問(wèn)題,沃爾瑪的數據存儲和分析肯定都是正確有效的。新穎?當然!在這之前,誰(shuí)會(huì )想到啤酒和尿布會(huì )是一起購買(mǎi)最多的商品呢?那么,這個(gè)發(fā)現有用么?當然有用,這個(gè)發(fā)現可以幫助沃爾瑪商場(chǎng)合理擺放商品。一個(gè)從眾思維的經(jīng)理會(huì )利用這個(gè)發(fā)現把啤酒和尿布擺放到一起,方便顧客購買(mǎi),這是中規中矩。但是,一個(gè)有批判思維的經(jīng)理會(huì )覺(jué)得把啤酒和尿布擺放得越遠越好,這樣一來(lái),顧客拿了啤酒就要在商場(chǎng)里穿過(guò)別的貨架去拿尿布,這個(gè)過(guò)程中可能又看到別的感興趣的但沒(méi)準備買(mǎi)的東西,也裝入購物車(chē),增加了商場(chǎng)的額外收入。最難的應該是最后一個(gè)特征,這個(gè)現象可不可以解釋?它是不是一個(gè)純粹的巧合?在把這個(gè)故事講了幾十遍以后,我的學(xué)生們基本上有兩個(gè)解釋。一個(gè)是有了孩子以后,丈夫出去泡酒吧的機會(huì )少了,只好自己買(mǎi)啤酒在家自酌自飲。另一個(gè)是丈夫工作了一天回家還要照顧孩子,很累,有一些抑郁,于是需要一些酒精的麻醉,借酒澆愁。應該說(shuō),這兩個(gè)解釋都基本可信。所以,這個(gè)發(fā)現符合四個(gè)基本特征,是一個(gè)典型的數據發(fā)掘的應用例子。

數據挖掘還有一個(gè)有趣的例子,也是關(guān)于沃爾瑪的,但這個(gè)是真的,不是傳說(shuō)。沃爾瑪想知道在自然災害來(lái)臨前,比如颶風(fēng)、龍卷風(fēng)等,顧客都買(mǎi)什么東西。也就是說(shuō),想通過(guò)數據發(fā)掘找到和自然災害預報相關(guān)的顧客購物習慣。通過(guò)對其各門(mén)店的詳細原始交易數據的挖掘,沃爾瑪確實(shí)發(fā)現了一種商品顧客買(mǎi)得相當多,而沃爾瑪以前卻不知道。通常,人們會(huì )猜是電池、水、面包、膠帶等,但是,這些商品和自然災害的相關(guān)性還用數據挖掘嗎?根本不用!人人都知道自然災害來(lái)臨前要買(mǎi)這些東西,所以他們不構成新穎的特征。沃爾瑪發(fā)現一種新穎的商品——高糖壓縮餅干。仔細一想,這個(gè)也好理解,如果自然災害真的很?chē)乐?,把人在地下室困上幾個(gè)星期的話(huà),面包早就壞了,而高糖壓縮餅干,別說(shuō)幾個(gè)星期,就是幾個(gè)月甚至幾年,都沒(méi)問(wèn)題,并且高糖壓縮餅干體積小、易攜帶。那么,沃爾瑪如何利用這條數據挖掘結果呢?很容易,每次有自然災害預報的時(shí)候(比如颶風(fēng)要來(lái)了),它就要保證店面里有充足的高糖壓縮餅干供應,不要脫銷(xiāo)。

那么是不是有的時(shí)候數據挖掘的結果無(wú)法解釋呢?當然有。好萊塢著(zhù)名女星安妮·海瑟薇(Anne Hathaway)的姓和華爾街投資家巴菲特的公司其名稱(chēng)的后一個(gè)詞一模一樣,都叫“Hathaway”,一個(gè)叫Anne Hathaway,一個(gè)叫Berkshire Hathaway。有好事者做了一個(gè)數據挖掘,發(fā)現如下有趣現象:

● 2008年10月3日,《Rachel Getting Married》首映;同天,巴菲特公司的股票(BRK.A)上漲0.44%;

● 2009年1月5日,《Bride Wars》首映;同天,巴菲特公司的股票(BRK.A)上漲2.61%;

● 2010年2月8日,《Valentines Day》首映;同天,巴菲特公司的股票(BRK.A)上漲1.01%;

● 2010年3月5日,《Alice in Wonderland》首映;同天,巴菲特公司的股票(BRK.A)上漲0.74%;

● 2010年11月24日,《Love and Other Drugs》首映;同天,巴菲特公司的股票(BRK.A)上漲1.62%;

● 2010年11月29日,安妮·海瑟薇被選為奧斯卡聯(lián)合主持人;同天,巴菲特公司的股票(BRK.A)上漲0.25%。

每當好萊塢著(zhù)名女星安妮·海瑟薇的電影上映的那天,或者其他正面消息的那天,巴菲特公司的股票都不同幅度地漲了!新穎不?太新穎了!有用不?太有用了!能解釋不?太難了!有一種可能就是投資者以為巴菲特的公司和好萊塢著(zhù)名女星安妮·海瑟薇有某種裙帶關(guān)系,所以電影出來(lái)的時(shí)候,也就是公司股票利好的消息??蛇@基本不可能,巴菲特的公司股票一股要十幾萬(wàn)美元,根本就不是普通投資者能買(mǎi)得起的,那些精明的投資公司絕對不會(huì )笨到不知道巴菲特的公司和好萊塢著(zhù)名女星安妮·海瑟薇有沒(méi)有裙帶關(guān)系的地步。所以可以肯定地說(shuō),這是一個(gè)純粹的巧合,沒(méi)有任何的因果關(guān)系。解釋不了,就不是數據挖掘。

相關(guān)閱讀