鈦媒體注:80后這一代人可以說(shuō)是伴隨著(zhù)中國互聯(lián)網(wǎng)的成長(cháng)而長(cháng)大的。他們經(jīng)歷過(guò)互聯(lián)網(wǎng)行業(yè)怎樣的發(fā)展?他們怎么看、怎么想?鈦媒體作者白鼠窩推出“80后的互聯(lián)成長(cháng)”系列文章,在鈦媒體獨家連載(鏈接地址:http://www.tmtpost.com/author/baishuwo),本文是第九篇:
上一篇講到了醫院熱衷SEO這個(gè)事,而這都和搜索引擎的存在有關(guān),這篇來(lái)講講和搜索引擎相關(guān)的一些東西。
當我開(kāi)始可以上網(wǎng)時(shí),怎么找到你需要的信息就成了一個(gè)很大的問(wèn)題。你知道網(wǎng)上有很多的東西,但你卻不知道它在哪里。這時(shí)候偉大的搜索引擎就可以救你于水深火熱之中。
如同之前所說(shuō)的,剛開(kāi)始上網(wǎng)時(shí),主要是通過(guò)門(mén)戶(hù)網(wǎng)站上的超鏈接(就是點(diǎn)擊了會(huì )跳到另外一個(gè)網(wǎng)頁(yè)的文字或圖片)來(lái)瀏覽網(wǎng)絡(luò )。超鏈接的確是互聯(lián)網(wǎng)中簡(jiǎn)單卻又異常有用的發(fā)明。通過(guò)超鏈接,成千上萬(wàn)的網(wǎng)頁(yè)得以互聯(lián)連接。通過(guò)不同的組織方式,人們可以更好的瀏覽內容,發(fā)現相關(guān)內容,鏈接廣告還可以用來(lái)變現等等。
但超鏈接也有很大的局限性,如果你只是在一個(gè)內容相對集中的站點(diǎn)中瀏覽,那么超鏈接可以給你很好的指引。但如果你想在茫茫的互聯(lián)網(wǎng)上找到相關(guān)的內容,單純的超鏈接似乎就力不從心了。當你從一個(gè)頁(yè)面進(jìn)行了10幾次跳轉還沒(méi)找到相關(guān)內容的時(shí)候,估計你就完全沒(méi)有耐心繼續尋找了。
搜索引擎的出現,就幫人們解決了互聯(lián)網(wǎng)上的定位問(wèn)題。通過(guò)搜索引擎,只需要相應的關(guān)鍵字,你就可以很容易的早點(diǎn)相關(guān)的內容,而不需要通過(guò)似乎無(wú)止境的超鏈接導航一層一層的走。
當然,搜索引擎并不是孤立存在的,能使搜索引擎存在的基礎便是超鏈接的存在。搜索引擎能完成搜索最重要的兩個(gè)核心要素——信息抓取和信息排序,都離不開(kāi)超鏈接。
搜索引擎依靠一種叫做“爬蟲(chóng)”(spider)的程序在互聯(lián)網(wǎng)獲取信息。之所以稱(chēng)之為“爬蟲(chóng)”就是因為這個(gè)程序會(huì )順著(zhù)它獲得到的超鏈接一直“爬”,正是由于互聯(lián)網(wǎng)超鏈接的互通性,從一些大的站點(diǎn)或者一些重要的導航站(目錄站)出發(fā),爬蟲(chóng)就有可能通過(guò)這些千千萬(wàn)萬(wàn)的鏈接走遍整個(gè)互聯(lián)網(wǎng)。
搜索引擎的爬蟲(chóng)在”爬“到相應的網(wǎng)站時(shí),就會(huì )將該網(wǎng)站存到自己的數據庫中,以便搜索排序之用。就是說(shuō),想要實(shí)現真正的搜索,搜索引擎廠(chǎng)商需要將幾乎整個(gè)互聯(lián)網(wǎng)都裝進(jìn)自己的服務(wù)器中。
為了存儲這些數據,搜索引擎公司需要有大量的服務(wù)器。谷歌中國前技術(shù)總監周杰在2008年的一次會(huì )議上曾經(jīng)透露過(guò)Googl擁有的服務(wù)器數量級,他說(shuō)“Google的服務(wù)數量大約相當于美國第三大PC生產(chǎn)商。”雖然不知道具體數據,我們還可以從另外一個(gè)側面來(lái)看谷歌的數據中心規模,據谷歌公布的數據顯示,谷歌全球能源消費達到2.6億瓦特,這相當于弗吉尼亞州首府里士滿(mǎn)或者加州歐文市家庭用戶(hù)的所有用電量,或者說(shuō),這相當于一座標準核電站1/4的輸出功率。大多數數據報告都認為谷歌是世界上擁有最多服務(wù)器的企業(yè)。
當然,僅僅是儲存這些數據是遠遠不夠的,搜索的目的就是要找出最符合用戶(hù)需求的網(wǎng)頁(yè)。這時(shí)候搜索引擎就需要對不同的網(wǎng)頁(yè)進(jìn)行排序,而這個(gè)排序的基礎也是通過(guò)超鏈接計算出來(lái)的。
簡(jiǎn)單來(lái)說(shuō),搜索引擎的排序基礎算法是這樣的:大多數網(wǎng)頁(yè)都有超鏈接鏈向它,或者它會(huì )鏈向別人,而這種鏈接可以被認為是每個(gè)網(wǎng)頁(yè)對其他網(wǎng)頁(yè)質(zhì)量好壞的投票。搜索引擎認為,如果有大量的鏈接鏈向某個(gè)頁(yè)面,那這個(gè)頁(yè)面就是受歡迎的,就應該在搜時(shí)被排在前面。反之沒(méi)有人鏈接的網(wǎng)站就是不受歡迎的。當然,搜索引擎還會(huì )考慮關(guān)鍵字匹配程度、鏈接網(wǎng)頁(yè)本身的質(zhì)量等多種因素,但大體上其工作原理就是上面所說(shuō)的那樣。
正是由于搜索引擎的工作原理是通過(guò)超鏈接實(shí)現的,就可以理解大多數網(wǎng)站為什么那么喜歡交換友情鏈接了。因為增互相間的鏈接是可以提高網(wǎng)站在搜索引擎的排名的。當然如果你沒(méi)有那么多“友人”的話(huà),你還可在網(wǎng)上找到很多賣(mài)“友鏈”的人的,他們會(huì )很“友好”的告訴你每條鏈接的價(jià)錢(qián)。
直接賣(mài)鏈接,是比較初級的做法。因為即使有鏈接,但效果怎么樣實(shí)在難以衡量。在搜索引擎稱(chēng)霸互聯(lián)網(wǎng)以后,就出現了一種特殊的工種——SEO(搜索引擎優(yōu)化)。SEO的職責就是讓網(wǎng)站的排名在搜索引擎里盡量靠前,這樣你的網(wǎng)站就有可能被跟多的人訪(fǎng)問(wèn)到。正如上一篇所說(shuō)的,很多網(wǎng)站會(huì )有專(zhuān)門(mén)的SEO人員來(lái)優(yōu)化自己網(wǎng)站的排名。
圍繞搜索引擎,有很多相關(guān)的上下游產(chǎn)業(yè)。這邊就不一一展開(kāi)去了。當你知道搜索引擎的大概工作原理,你就能大概理解這些行當都是做什么的。
回到搜索引擎本身,如上面提到的,要從成千上億條數據中快速找出需要的頁(yè)面并完成排序,這在技術(shù)上也并不是一件容易的事情,調度上萬(wàn)臺機器的資源可不容易,包括微軟、雅虎在內的企業(yè)都曾經(jīng)在搜索引擎上摔過(guò)跟頭。
搜索引擎在基礎設施投資和技術(shù)門(mén)檻上都可以說(shuō)是一件門(mén)檻非常高的事,但于此同時(shí)搜索引擎又有著(zhù)一種令人著(zhù)迷的盈利模式,這讓很多企業(yè)都對引擎業(yè)務(wù)趨之若鶩。(本文獨家首發(fā)鈦媒體)
【鈦媒體作者介紹:葉元,微信公眾號“白鼠窩”(baishuwo)】
相關(guān)閱讀