2010年1月21日星期四

由學校合併現象談起 Merging Colleges for Mutual Growth



這本書"Merging Colleges for Mutual Growth"是在1993年出版的, James Martin與James E. Samels合著, 談的是高等教育學校的合併策略, 在2010年的台灣嘉南科大與立德科大也進行合併 ...

這本書的內容寫道:
In response to campus, state, and federal budget cuts, resource scarcities, and shrinking enrollments, greater numbers of U.S. colleges and universities have become conservative ... a growing number of both public and private entrepreneurial colleges and universities are choosing forms of institutional merger, consolidation, and affiliation to meet these unprecedented challenges while simultaneously raising levels of academic quality.
資源的短缺與註冊人數減少, 讓許多公私立學校必須開始進行合併或合作等方式來應對挑戰 ...

而台灣目前資源的短缺並且每年新生兒數目已經低於20萬人, 這本書的內容更值得大家思考

另外有一本書"創意改變學校:讓學校成功的七大經營術":
本書作者喬治.凱勒以嶄新的角度來研究美國高等教育,審視依隆的管理階層、理事會和全體教職員,為了將一所經費有限的學院改造為一所頂尖的地區性大學而做的各種決定。以依隆作為個案研究,凱勒為美國競爭激烈的大專院校提供了一個方向—在這個競爭中,失敗者面臨的是合併或關閉的命運,而贏家則可以獲得經費、優秀的學生,和頂尖的設備。
Elon University的成功經驗應該也可以給大家另外的方向

OK ... 以上的內容大致說明了, 不以利潤為考量的學校都開始面臨營運的問題, 這是一個前所未見的挑戰, James Martin在1993年已經看到, 而我們到今天才剛看到台灣的合併案:
台南縣嘉南藥理科大22日將與台南市立德大學簽訂合併協議書,兩校董事會將合併,校務暫各自獨立經營,未來的「新校名」仍未確定。這是國內私立大學在私校法修定後首次合併案
合併的訊息如下:
私校首例 嘉南科大、立德後天合併
嘉南科大、立德擬合併 校務獨立運作

話說筆者當年出國唸書時, 選擇了一個從未到過的地方, 所有的訊息都從書上得知(當時沒有網際網路), 第一次到達學校就在註冊日 ... 現在網際網路發達的情況下, 學生如何選擇希望就讀的學校? 當然學校的「虛擬識別」就佔了很重要的因素, 也就是學校在網路上能夠查詢到的資料, 就決定了大眾什麼樣的認知, 這個認知的高低就可能會影響學子就讀的意願; 所以非營利的學校需不需要進行網路行銷呢? 除了會影響網路排名之外, 更重要的是影響大眾的認知

除了好好閱讀上面的兩本書之外, 學校也應該開始思考網路行銷的策劃了

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年4月19日星期日

百萬小學堂 : 電子郵件中有出現edu就是學術單位嗎?



每次看完電視節目"百萬小學堂", 就對下一代的教育更加憂心, 不是這個節目做得不好, 而是這個節目曝露出台灣的教育出了很大的問題, 如果教育相關單位能夠就這個節目的背後意義多加思考, 也許可以"解救"台灣的小朋友與家長可以免於"恐懼的日子"...

舉幾個題目來看看:

(1)電子郵件地址中有出現edu代表什麼?
(2)海綿寶寶最愛的寵物是哪個? (1)snail (2)owl (3)jellyfish
(3)「拔蘿蔔」歌詞中提到"誰"來幫忙拔蘿蔔,當中不曾出現的是小花貓、小老鼠還是小朋友?

答案:

(1)代表學術單位
(2)Snail (蝸牛)
(3)小老鼠

如果我有能力的話, 我會叫小朋友不要唸教這種知識的學校!


也就是說台灣的學校大概都不要唸了?!

為什麼這麼說呢?

我們知道電子郵件地址以@為分隔, 分成使用者帳號、郵件伺服器URI(Uniform Resource Identifier), 這個URI又分成機器名稱加上網域名稱, 所以電子郵件地址的格式就是 -- 使用者帳號@郵件伺服器機器名稱+網域名稱

電子郵件地址 = 使用者帳號@郵件伺服器機器名稱+網域名稱

所以電子郵件地址中有出現edu代表是學術單位嗎???? 當然不是!

my-edu@microsoft.com、user@edu.microsoft.com、user@microsoft-edu.com 當然不是學術單位, 只有"gTLD/ccTLD網域名稱"出現edu才是學術單位, 也就是網域名稱中的後綴出現edu才是學術單位

USER@NTU.EDU.TW 或 USER@MIT.EDU 之類的格式才是學術單位

再來就是, 我管什麼卡通中海綿寶寶的寵物做什麼? 我知道蝸牛是SNAIL, 但不知道海綿寶寶的寵物是小蝸也不會答對

而我的小朋友只要在拔蘿蔔歌曲中很高興跟夥伴互動就好了, 我^%#$&^%$&#的管歌詞中出現誰幹啥????

小學生胃潰瘍的消息已經不是新聞, 多少小學生跟國中生是下課後不需補習的? 多少小學生跟國中生能夠正常的、沒壓力的在家吃晚餐的?

一堆專家學者希望家長們不要給小朋友壓力...都是一堆屁話罷了, 給壓力的不是家長, 是整個教育制度! 而這些放屁的專家學者們卻都把小孩子送往國外或美國學校, 這種專家學者也能稱為專家學者?

這個問題已經不是家長能夠決定的問題, 而是高高在上的教育管理單位老爺們的問題, 但是日復一日....我們下一代的健康跟前途就葬送在一堆腦滿腸肥的官員手中! 台灣人為什麼能夠不生氣?

標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年4月16日星期四

You Are What You Read : 看什麼像什麼



知識不會憑空而來, 天才把他放逐在森林也可能變成白癡, 大多人的知識都必須靠閱讀而來, 但是該讀什麼呢? 這期的IEEE Software Magazine的"You Are What You Read"作者Philippe Kruchten提出他的看法, 但Philippe Kruchten是何許人? 幹什麼聽他說?

Philippe Kruchten是哥倫比亞大學軟體工程的教授, 也是RUP的靈魂人物, RUP(Rational Unified Process)是一個軟體開發的架構, 後來2003年被IBM拿來當產品的重要核心

他說到:

"To get to a deeper understanding about a given topic, you need more than bitesized chunks of information—you need material that has been carefully thought out and that’s presented with plenty of evidence, examples, illustrations, and so on. A book (be it electronic or paper; the medium isn’t the point here) or a long paper on one specific point will more likely achieve this goal."


也就是說雖然網路已經是知識的重要來源, 但是真正的知識還是不能光靠片斷的網路訊息, 而必須要有完整論述的書籍(不管是紙本或電子書), 才能真正架構起真正的知識

我們在"SEO策略 : 如何產生更多的backlink?", 也提到:

資訊性的、新聞性的、幽默性的、另類性的、工具性的、插件性的內容不能是普遍大家都知道的, 必須具備獨特性, 這些內容的產生除了必須時常注意網路上相關網站的動向之外, 最重要的就是多讀紙本的書籍
許多人由於網路上瀏覽習慣養成後, 可能已經不再買書看書了, 但是許多正確而有用的資訊還是必須不斷大量的透過傳統的閱讀來取得的...


因此選擇什麼來讀? 如何有效的使用時間? 以及如何組織閱讀內容? 就是很重要的經驗

Philippe Kruchten有幾個不錯的經驗: 保存一個閱讀記錄, 把閱讀過的要點加以記載, 並且對於電子式檔案都以pdf保留, 而非只是bookmark, 他使用"姓名-年份-關鍵字.PDF", 去標示該檔案的檔名, 當以後查尋的線索

他並推薦100個好讀的軟體工程書目 http://tinyurl.com/100sebooks

如何組織自己的知識架構, 已經是現代網路人必備的技能了, 檔案已經多到不行, bookmark滿天飛, email已經塞滿, 書籍總是不知道忘在哪裡, 文件更是頭痛問題, 更不必說還有日常的帳單、證件....

當個現代人...真的需要好好的組織一下了


標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2009年2月10日星期二

Springer AuthorMapper告訴你什麼?



Springer是一個全球性的科學及商業學術出版商, 於今年二月初推出了AuthorMapper服務, 可以用不同於以往搜尋引擎的介面取得出版文章外, 還可以取得各種相關的統計資料, 目前已經有三百萬篇期刊學術論文, 未來將包含Springer以外更多的出版內容, 這個AuthorMapper除了提供了瀏覽模式的搜尋外, 亦可以用關鍵字來搜尋, 從這個服務我們看到了什麼呢...

從下面資料來看 (2007/1/1~2009年至今在Computer Science主題的出版文章)


中國大陸以1625篇佔第二名, 其他名次為Japan(439篇)居第八, South Korea(184篇)居15, Singapore(146篇)居18, 而台灣則有81篇領先香港的74篇

雖然這個只是Springer一個出版商的資料, 未必能夠代表全貌, 但就統計觀點來看, 台大13篇與新加坡南洋大學的52篇來比較...實在有些離譜了

而就institution來看, 中國以三個單位囊括了前三名(中國科學院,武漢大學,上海交大), 對照台大之前的口號"八十臺大,前進百大", 就又有些諷刺了, 進不進百大並不代表什麼, 但連這些數據都矮別人一大截, 還能搞啥名堂呢??

也許有人會說: 數量並不代表水準, OK, 那我們的品質表現數據拿得出去乎?

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年11月27日星期四

Clicker System : 課堂上的小工具、大大提升教學品質


上圖的學生怎麼每個人都在按搖控器? 這可不是大家在搶電視的轉台, 也不是在玩電動玩具, 而是大家正在回答老師的問題; 根據研究顯示, 現在的學生佔很大的比例都在玩線上遊戲跟熱衷電視節目, 因此現在很多美國及加拿大的學校開始採用Clicker System, 讓學生參與上課問題的回答, 並且老師可以很快的知悉學生對於授課內容的瞭解程度...

相信很多老師都有一個困擾, 那就是講半天到底學生聽得懂不懂? 想要馬上考試又佔用太多時間, 並且也未必有時間來改考卷, 如果只抽問幾位學生, 又無法全盤瞭解整體狀況, 而台灣的學生又幾乎99%以上不會提問題, 因此老師就在自問自答間孤芳自賞, 學生就在滿頭霧水下混過一堂又一堂...

老師與學生之間的權利義務就是, 老師賺鐘點費、學生繳學雜費, 知識的傳遞與解惑的任務, 好像已經不太重要, 當然老師閒閒沒事就咒咒別人一代、兩代、三代...也就沒啥奇怪啦

嗯...閒話就此打住

這個Clicker System有許多廠商提供類似服務, 以下是大致的使用圖



當老師在投影幕上提出問題時, 學生就透過類似電視搖控器的裝置開始回答, 老師可以馬上透過收集的資料, 得到回答的狀況, 如果大部分的學生都回答正確, 老師的任務就算功德圓滿, 否則就得再把授課內容再講解一遍, 或調整授課內容

美國加州的STANISLAUS COUNTY購入五套系統, 包括人員訓練只花費了$8,000美金, 並且學生反應極佳, 他們正打算擴大使用範圍

根據UBC Vancouver的資料, 自2008/9起開始轉換成iClicker, 而MSU也採用不同的兩套系統, 讓老師決定比較適用的系統:

In Fall, 2006 there were 6 different clicker systems in use by almost 7,600 students in 24 courses. In Spring 2008, there are over 14,700 enrolled students using clickers in 45 courses, and only 4 different clicker systems are being used The reduction of clicker systems has resulted in less confusion and lower costs for students. Currently, the iClicker is used in 33 courses by almost 11,900 enrolled students and the eIstruction CPS clicker is used in 8 courses by over 1,150 enrolled students (based upon data obtained from the Spartan Bookstore as of 1/29/08).

(摘自: http://computing.msu.edu/features/080208.php)

MSU目前已經有41堂課程、上萬名學生使用這兩種系統, 這個資料Clicker@MSU(PDF檔案)就是iClickereIstruction的比較

以下是在UC Berkeley探討使用Clicker System的影片:



但是月有圓缺, 學生對於這種系統當然也有抱怨, 以下就是一個負面影片...花了$40美金只用過一次...搶劫啊, 而且問題是: 你認為這門課你應該得到什麼分數? ... 大概是搞笑成份居多, 但在推出這類系統也該在各層面多加考量, 以免一廂情願造成更多困擾...





標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年10月15日星期三

資料視覺化 : Data Visualization



各種資料越來越多, 對於人類而言很難在一大堆資料中快速找出端倪, 例如把一堆銷售資料轉換成圖表後, 可以一目瞭然的知道到底銷售狀況如何, 如NameVoyager(上圖)就把英文名字圖表化(需安裝Java plug-in), 看出各年代哪些名字是菜市場名, 我們來看看國外還有哪些研究結果 ...

這個網站2008美國總統大選候選人評比就用問卷的方式讓您來找出到底應該支持哪個候選人(如下圖), 不像台灣的選舉就簡單多了, 反正就看顏色選就對啦 ...



這個網站Visuword透過圖形化把英文的WordNet表示出來, 如下圖把"Taiwan"這個字的關聯顯示成圖形化, 不過可能由於WordNet詞庫的關係, 只有看到Taipei與Taichung兩個城市



看了這些例子, 是否覺得看圖比看文字簡單多了? 資料視覺化正是在大量資料的年代的一個趨勢, 如果您有興趣, 更多資料視覺化可參考這裡:
175+ DATA AND INFORMATION VISUALIZATION EXAMPLES AND RESOURCES

標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月24日星期三

SEO : How Google Handle Duplicate Content? (Google如何處理重複內容)

在網路上尋找資料時, 經常發現重複或近似內容, 有些是splog造成, 有些是惡意的SEO動作, 有些則是有其必要的原因, 在Google關於重複內容的說明文件中, 指出:

非惡意的重複內容可能包括:
-可針對行動裝置產生的一般網頁和精簡網頁的討論區
-透過不同的URL儲存顯示或連結的項目
-列印用網頁

但在某些情況下,有心人士會故意在整個網域中重複內容,試圖操控搜尋引擎的排名或贏得更多的流量。 這種欺騙的做法會帶來不好的使用經驗,因為訪客會在搜尋結果中看到大量相同的內容。

Search engine到底如何處理重複內容? 如何才能避免因重複內容而導致處罰?

我們先來看看幾個檢查重複內容的網路服務:

http://www.webconfs.com/similar-page-checker.php
http://tool.motoricerca.info/similarity-analyzer.phtml

當然以上只是初淺的查詢, 並非search engine所依靠的方式, 到底Google如何確定兩個網頁是重複的呢?

根據Google的專利資料"Methods and apparatus for estimating similarity", "Detecting duplicate and near-duplicate files" :

A similarity engine generates compact representations of objects called sketches. Sketches of different objects can be compared to determine the similarity between the two objects. The sketch for an object may be generated by creating a vector corresponding to the object, where each coordinate of the vector is associated with a corresponding weight. The weight associated with each coordinate in the vector is multiplied by a predetermined hashing vector to generate a product vector, and the product vectors are summed. The similarity engine may then generate a compact representation of the object based on the summed product vector.

就是透過由文件形成vector, 再由hashing function產生的值, 與vector相乘後總合, 由這些總合後就變成sketch, 來比較這些sketch求得重複程度

在這篇研究文章中"Detecting Near Duplicates for Web Crawling(PDF)", 使用Charikar's simhash將高維的向量轉成f-bit fingerprint

這篇論文也指出, 辨識重複資料的目的:

(1)減少search engine在處理重複資料的空間浪費與計算浪費
(2)可以比對找出散佈在各地的類似新聞, 形成相關連的叢集(cluster)
(3)利用檢查結構類似, 可以用來淬取資料
(4)用來檢查文章的盜用(plagiarism)及垃圾網站(spam)
(5)用來檢查文章的改版

如Google所說的, 重複資料不是都屬於黑帽SEO, 有其必要性, 但是還是必須小心參考Google關於重複內容的說明文件, 好好審視您的網頁的重複狀況, 因為判斷重複內容的技術越來越精準, 事先避免才能保持與search engine的友好關係

以下是影片的說明:
Getting Serious, Series 1: Avoiding Duplicate Content


Do You Have Duplicate Content and Not Even Know It?


其他參考資料:
http://www.seobythesea.com/?p=999
http://www.vizioninteractive.com/search-engine-optimization-tip-14-fix-duplicate-content/
http://www.searchenginejournal.com/duplicate-content-penalty-how-to-lose-google-ranking-fast/1886/

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月22日星期一

SEO與Google網誌搜尋 (續)

經上個星期的文章"SEO與Google網誌搜尋"與本週的資料比對顯示, Google的blog search更新速度實在快速, 可以搜尋到最新的部落格文章, 如果更新速度不夠快, 會很快的被他頁面排擠下去, 剛剛的文章"SEO : SERP名列前茅有用嗎? 看看Eye Tracking實驗"幾乎剛刊登就同步被Google抓取 ...

剛剛才寫完的文章就被Google抓在第一名, 但會因時間被更新的文章往後推(如下)


而更重要的是, 頁面title的文字就是被抓取當keyword的重要依據, 如此被顯示在blog search第一位置, 就能夠快速增加被搜尋的可能與點選率, 這也就是網頁的更新度為何會影響SERP結果的重要因素之一

也許有些人會質疑, 為何我的部落格也是更新很快, 也都注意使用清楚的title, 為何都不出現在blog search中呢? 這些問題容後慢慢再告訴您, 其實答案已經都在本部落格中了, 只是我尚未清楚整理出來, 如果您等不及想要找出答案, 就請先看看本部落個的SEO系列文章吧 ...

標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

SEO : SERP名列前茅有用嗎? 看看Eye Tracking實驗

當您在網頁上瀏覽資料時, 眼光到底聚焦在什麼地方, 一直是科學家有興趣的題目, 如果能夠統計出一個可靠的資訊, 不僅對網路廣告商是一大福音, 對於研究SEO的人也可以有不少的助益, 我們就來研究看看這些結果與您的習慣有哪些差異 ...

這篇"Distribution of Clicks on Google’s SERPs"文章, 實驗認為網路搜尋結果(SERP, Search Engine Results Page)的前幾個項目(約是第一到第三名)會佔用大部分的目光, 依序往後遞減, 但最後一個項目卻反常的會被瀏覽者注目, 而在點選率而言, 中間部分項目(第七項)的點選大多在瀏覽整頁後才進行點選

當然以上的數據一定會有差池, 但是說明了一個趨勢:

-- 排名在SERP頁面的前三名, 被注目的比例較高
-- 排名在SERP頁面的中段, 反而會在最後才被點選

其實以上數據還牽涉到顯示項目的Title與Description, 大部分人瀏覽SERP時, 會先看Title, 在螢幕上可以看到的Title看完, 再往下滑(Scroll)看其他內容, 有些情況看到該Title剛好就是您要的就進行Click, 如果Title不太清楚, 再去讀Description, 而上面的趨勢顯示的是: 大家都不太有耐心, 因此看完前幾項就會往下滑, 至於是否能夠概括所有使用者行為, 就見仁見智了 ...

另外一個Eye Tracking的研究是Microsoft的"An eye-tracking study of information usage in Web search:Variations in target position and contextual snippet length", 這個研究與上述結果大同小異, 也是SERP前幾項較容易被注意, 但稍有不同的是實驗顯示, Description太短的比較不會被點選, 而另一個特別的是"第七項" ...

當SERP頁面被來回瀏覽後, 第七項目被點選的機率又逐漸高出後面項目, 真的是Lucky Seven ...

另外一篇"F-Shaped Pattern For Reading Web Content"則研究不同類型的網頁, 來看使用者目光的聚焦度, 該研究認為使用者在瀏覽網頁時會因網頁類別的不同而有差異

網友在瀏覽一般文章與電子商務內容時會有呈現類似"F"形狀的聚焦(如下圖1,2), 而瀏覽網路查詢頁面時會呈現"E"形狀的聚焦(如下圖3), 所以使用者幾乎不太觀看一般文章與電子商務內容的下半部, 但網路查詢頁面(SERP)反而是中間部分常會被忽略, 這個結果與上兩個實驗有異曲同工之妙

(圖1)


(圖2)


(圖3)


這篇"Google’s Golden Triangle"也提及類似的聚焦結果, 不過這種結果似乎不同年代會或多或少有差異, 如這篇在2005年與2008年的資料顯示, 使用者越來越沒耐心看完所有資料了 ...

這篇"Eye tracking and online search: Lessons learned and challenges ahead"更具體的說明了一些數字, 96%的查詢結果, 只有第一頁會被瀏覽, 並且只有前幾個項目會被點選, 如果前幾個點選沒有意義, 則使用者會放棄該查詢結果, 並且在Google與Yahoo的搜尋行為分析中顯示, Google的使用者會花較多時間在閱讀查詢結果內容

最後總結是: SERP的結果如果不能在前三名, 倒不如列在該頁底部, 並且頁面的Title文字敘述應該更加清楚明瞭, 以增加被點選的機率


標籤: , , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月19日星期五

SEO與Google網誌搜尋

我們在之前文章談及"Query Deserves Freshness (QDF) : 由內容新鮮度談SERP", 現在我們來驗證看看新鮮度與更新率對SERP的影響結果, 到底目前這個部落格的文章搜尋曝光度如何呢? 以下是一些結果, 並且當成資料, 以供後續對照 ...

我們進到Google的網誌搜尋, 打入"seo"得到以下結果, 並且我們後續來觀察SERP變化:

在三千多萬筆的搜尋結果下, seo這個關鍵字目前結果:


在二十多萬筆的搜尋結果下, serp這個關鍵字目前結果:


在一萬多筆的搜尋結果下, 網路行銷這個關鍵字目前結果:


(本站的資料都在第一個位置, 但以上資料可能因時間會有變動, 並且在Google Chrome browser無法顯示圖檔)

這個結果代表了幾個事實, 內容新鮮度影響SERP甚鉅, 以及在Google認定的blog範圍內, 談論SEO,SERP,網路行銷的繁體資料實在少得可憐

為何會有如此現象? 大概都把自己知道的內容暗幹起來, 不願意公開討論吧, 如果能夠把這個主題當成學術議題來看待, 如前文"SEO : Honesty is the best policy (誠實是SEO最佳策略)"所談的, 也許可以教育更多的企業主, 讓SEO成為大家重視的問題, 也能讓網路使用者真正搜尋到想要的資料 ...

標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月18日星期四

The most wired colleges : 全美校園科技使用評比

PC MagazineThe Princeton Review最近對於美國361所學校進行科技使用評比, 240所學校完成評比問卷, 其全美校園科技使用評比結果顯示並非大就是好, 也並非名校就能提供給學生最好的科技資源 ...

CNN也針對這次評比訪問了PC Magazine的Eric Griffith

評比結果前五名是: (詳細排名)

(1)伊利諾香檳分校
(2)堪薩斯州立大學
(3)猶他大學
(4)Bentley大學
(5)Pomona大學

前20名中較為出乎意料的是Stanford竟然是第20名, 而MIT也只名列第9

不過這些排名也只是一個參考, 因為美國的大學在不同的領域都有其驕傲之處, 有些是以球隊聞名, 有些是以學術表現, 有些是以就業受歡迎度 ... 其所著重的領域是非常多元化的, 他們會以其專長而驕傲, 反觀台灣的高等教育, 其評比只有一個, 那就是入學分數排行, 如果你是18分就可以入學, 就永遠被打趴在地上 ...

2006年天下雜誌的教育調查報告中, 發現近九成的大學生認為,念大學不值得驕傲, 六成以上的大學教授:台灣不可能培養世界一流的頂尖大學。《Cheers》雜誌「2008年最佳大學指南」的調查, 還是只局限在很傳統的數據上

台灣教育的多元發展還停留在獲得補助多少元的階段, 想真的脫胎換骨, 要走的路還真的很遠 ...

標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月17日星期三

SEO : inception date的意義

所謂inception的意思是初始, inception date就是初始日期, 一個網頁文件的初始日期對SERP(Search Engine Results Page)的影響在前文已經討論過, 我們現在來看看Google如何決定網頁文件的inception date ...

根據Google的專利文件US 7,346,839 B2的說明, inception date由好幾個方式來決定

(1)由搜尋引擎抓到該網頁文件的日期
(2)由該網頁文件所在domain之註冊日期
(3)該網頁文件被其他網頁文件關聯的日期
(4)由儲存該網頁文件的伺服器time stamp

找出以上日期後, 依最早的日期或經演算法判定該網頁文件之初始日期, 這個日期就會影響該網頁文件的評分, 新網頁文件有10個backlink, 會比十年前的網頁文件具有100個backlink來得好 ... 但是也有可能會有例外

什麼時候會出現例外? 當演算法由初始日期與backlink的計算中, 發現異常數字時, 會將之歸類為spam, 這個時候就會降低原本的評分

而什麼是異常數字? search engine會由正常的網頁文件中的inception date與backlink, 算出一個參考值, 如果某網頁文件的backlink成長率超出一個範圍, 就是異常, 至於正常成長率是多少? 超出的範圍是多少? 這個資料並沒有揭露, 但是我們可以由幾個方式了解

(1)一些PR同等級而且值得信賴的網頁的backlink平均成長率
(2)自己網頁的成長率曲線 (參考)

由他站的成長曲線可以知道曲度(slope), 由自己網頁的成長曲線可以知道是否平滑, 如果往上成長的曲度合理並且平滑, 大致就沒麼問題, 但是一定會有被誤判的情況, 不過如果時間拉長, 以上的計算不失為蠻精準的演算法


標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月16日星期二

SEO : SERP的影響公式探討

在之前文章"Query Deserves Freshness (QDF) : 由內容新鮮度談SERP"談到時間因素會對SERP (Search Engine Results Page)有所影響, 到底是怎麼個影響法呢? 我們由Google的專利資料中來研究一下 ...

第一個公式:


其中
H: History-adjusted link score
L: Link score given to the document (也就是PageRank U.S. Pat.No. 6285999)
F: elapsed time measured from the inception date associated with the document
(詳細關於inception date, 後續再來談)

由以上的公式可以知道, 剛開始link score會放大, 然後慢慢以平滑曲線遞減
L=5, F=1, H=10.47
L=5, F=2, H=8.30
L=5, F=3, H=7.15
L=5, F=4, H=6.42
...
L=5, F=59, H=2.80
L=5, F=60, H=2.79

但是某些SERP data set的average date並無太大差異的情況下, 新產生的網頁就未必有優秀的SERP,所以你會看到某些查詢結果幾乎不太變動, 但某些查詢結果卻一日數變, 就是這個因素

第二個公式:


其中
U: Update score
f: a function, such as a sum or weighted sum
UF: Update frequency score
UA: Update amount score

也就是網頁的更新頻率與更新量會來決定U, 同樣的如果SERP data set的average date-of-change並無太大差異的情況下, 以上公式就不會去影響SERP

至於search engine如何知道哪個網頁有更新呢? 更新量如何呢? 基本上search engine不可能把所有頁面都全部cache, 某些頁面就以signature來判斷(例如在頁頭抓一個字,頁中抓一個字,頁尾抓一個字,如此就能產生該頁面的signature), 當signature變動時, 就知道本頁已經update

至於update amount就可以用多個signature來判斷, 例如一個頁面中的10個signature有3個已經變動, 就比10個signature中有2個變動有較多的update amount, 當然不一定精準, 但平均而言差異不大

所以根據你下的關鍵字所產生的SERP, 其特性到底是哪個種類?

是否會因時間而影響? 如果不會的話, 新網頁就很難打破這個SERP

是否會因更新頻率與更新量而影響? 如果不會的話, 你再如何時常更新也於事無補

因此瞭解了以上的公式, 對您網頁的SEO多少有些助益

標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月5日星期五

SEO for Dummies : SEO白癡手冊

許多經營部落格的人, 常常剛開始充滿熱情, 但寫到最後因為幾乎沒有人看而退出江湖, 其中不乏有許多精彩內容的部落格, 為何沒有人看? 因為經營部落格的方式錯誤, 並且沒有做到基本的SEO (Search Engine Optimization)

這篇文章來談談以非技術觀點下, 您可以輕易運用的SEO方式, 因為連白癡都看得懂, 故名為"SEO for Dummies : SEO白癡手冊", 所以沒有任何特別誣蔑的意涵 ...

由於本篇文章定位為入門, 所以必須把SEO先做最簡單的解釋

SEO(Search Engine Optimization)就是指運用一些方式, 把您的網頁調整成搜尋引擎喜歡的方式, 一但被搜尋引擎喜歡以後, 就比較容易被網友找到, 當然流量就會增加

談到流量, 我們先談談網友到訪您的部落格的三種方式 :

(1)在瀏覽軟體打入您部落格的網址, 或由他們的"我的最愛"進入您的部落格
(2)透過別人的網頁上的連結, 點選後進入您的部落格
(3)透過搜尋引擎打入您部落格的名稱或關鍵字, 由搜尋引擎連到您的部落格

另外一種是搜尋引擎或網路機器人, 透過指令式方式進入您的部落格, 這點與本文無關, 我們就不談

因此以上三種方式就決定了您的部落格的流量

所以建議剛剛成立部落格的人, 最好先使用大型入口網站的部落格服務, 等流量到達一個程度後, 再另外擁有自己網址(註一)的部落格 (如本站 : http://www.dns.com.tw/blog), 這樣才能累積自己網址的信用度(註二)

(註一:以上姑且以網址代替網域名稱, 以方便入門者瞭解)
(註二:所謂信用度就是搜尋引擎信任您的部落格網址的程度, 當擁有自己網址, 這個信用度才屬於您的)

為何要先使用大型入口網站的部落格服務? 因為您的部落格文章至少會出現在他們網頁(如最新部落格文章...), 也就藉由上面三種流量來源的(2), 會漸漸增加您的流量, 而您的內容如果不錯, 被別人收入他的"我的最愛", 就有了(1)的流量

所以內容不錯以後, (1)(2)的流量就會自然產生

但是上面三種流量來源的(3), 就必須靠自己的調整了, 這個調整的動作就是在做SEO

哪些動作要做呢? 整理如下:

(1)談大家可能有興趣, 但是經過網路搜尋後, 大家比較少談的主題
這點困難度稍高, 但如果能就自己專業範圍內, 盡量比別人早一步談這個主題, 可以建立權威性, 並且內容新鮮度高, 可以容易被搜尋到, 如果有興趣看細節, 詳細內容在: "Query Deserves Freshness (QDF) : 由內容新鮮度談SERP"

(2)最重要的關鍵字一定要出現在"主題(title)"上, 並且如果長度允許, 最好中英文都有, 如本篇的主題:"SEO for Dummies : SEO白癡手冊"

(3)在內文中, 認為有可能可當關鍵字的字串, 以<h1>...</h1>, <h2>...</h2>等tag夾起來, 會顯示如下

SEO for Dummies : SEO白癡手冊

... 但是不要用得太離譜

(4)使用Social bookmark (如funP, Hemidemi ...), 把您的文章自我推薦上去

(5)將您的部落格網址推薦到DMOZ, Google Directory, Yahoo Directory

(6)與朋友較優質的部落格互相交換連結
與其他網站交換連結時必須慎重, 因為根據Google的判定, Bad page會連到Good page, 但是Good page不會連到Bad page, 因此如果您連到一個被Google判定為Bad page的話, 您也會被受到牽連

(7)使用其他的社交網路工具 (如部落格觀察...)

(8)使用PageRank checker貼紙, 可以隨時觀察自己部落格的頁面PR值變化, 當有不錯PR值時, 可以適度在該頁面增加連到自己其他相關內容 (但是如果內容是八竿子打不著的就不必了)

關於PageRank (PR) 如果有興趣可以參考 : Pagerank 演算法研究

(9)使用Counter (如http://www.shinystat.com/), 可以觀察詳細的流量狀況, 或稍微進階者可以使用Google Webmaster管理員工具

(10)Anchor link策略
不管建立Forward link(往別人頁面的連結)或Backlink(連回自己頁面的連結), 在建立連結時最忌諱使用以下的樣子:

<A Href="http://www.dns.com.tw">這一篇可以參考</A>

因為以上"這一篇可以參考"這個字串, 與連往的站台一點都不相關, 這個字串就好像向搜尋引擎介紹一樣, 這個介紹詞就成了此互連網頁的關聯, 不管是Forward link或Backlink都要仔細編輯這個字串

(11)使用NoFollow
在一個頁面中雖然可以有無數的Forward link(往別人頁面的連結), Google也都可以抓到, 但是一個頁面的Forward link最好在數目100以下, 並且如果您不希望Google把某些Forward link也算下去, 您可以使用如下的語法

<A Href="http://www.yahoo.com" rel="NoFollow">Yahoo</A>

減少一個頁面中的Forward link數目, 可以防止被不必要的頁面去瓜分評分

當然以上的方式如果要效果明顯, 前提是您的部落格或網站必須要有好的內容, 如果沒有好的內容, 神仙都沒辦法 (之前文章有提到過 : "網路行銷/網路營銷 -- 內容為王"), 但是除了有好的內容外, 如果能夠依照上述方式好好調整, 相信對於流量會有不錯的改善

以上盡量以比較淺顯的方式, 來說明如何讓不懂技術的人來進行SEO, 如果有任何意見或建議, 歡迎多多指教啦 ...

標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

Query Deserves Freshness (QDF) : 由內容新鮮度談SERP

什麼是Query Deserves Freshness?

就是在搜尋時SERP會因為內容的age而出現不同的結果, 也就是說, 新的頁面在某一段時間內, 其SERP會比舊資料更有優勢, 那到底這段時間多長? 這種現象是否合理? 與其他SERP規則有無牴觸?

我們先撇開所有既有的想法, 純粹由使用者觀點來看的話, 使用者當然希望找到最新的資料, 並且要找到最正確的資料

如果所有的網路文章撰寫者都是很負責任的話, 當然最新的資料等於最正確的資料是可以成立的, 但是 ... 網路文章撰寫者都是很負責任的嗎? 所以很有可能新資料有可能是不成熟的

如果您看過之前文章, 應該會同意我的看法, 如果還沒看過的話, 不妨由以下連結去瀏覽一下

"你在看誰的部落格? 是誤解還是事實?"
"他們不會知道你是一條狗"
"你在看誰的部落格? 一個目前沒有答案的問題"

話說回來, 另外有些資訊是不會變的, 這時反而舊資料是可能比較權威的, 例如許多wikipedia上的資料初始日期是很早的, 並且後續還有許多更新

到底Google在處理這些資料時, 如何判斷哪個頁面是fresh(新鮮)? 哪個頁面是stale(陳舊)?

在Google的專利資料顯示了許多影響SERP的因素: "Information retrieval based on historical data", 對於想要研究SEO的人應該好好閱讀, 這裡面就隱含了所有影響SERP與PageRank的因素

如果能夠把Google近期的專利都讀完, 大概您對search engine就能有更深一層的瞭解了, 以下是相關資料(html與pdf), 如果您沒有時間讀那麼多密密麻麻的資料, 我在後續文章會再說明這些內容

DOCUMENT SCORING BASED ON DOCUMENT INCEPTION DATE
Publication number: US 2007/0094254 A1
Filing date: Nov 20, 2006

DOCUMENT SCORING BASED ON DOCUMENT CONTENT
Publication number: US 2007/0100817 A1
Filing date: Nov 21, 2006

DOCUMENT SCORING BASED ON QUERY ANALYSIS
Publication number: US 2007/0088692 A1
Filing date: Nov 22, 2006

DOCUMENT SCORING BASED ON LINK-BASED CRITERIA
Publication number: US 2007/0094255 A1
Filing date: Nov 30, 2006

DOCUMENT SCORING BASED ON TRAFFIC ASSOCIATED WITH A DOCUMENT
Publication number: US 2007/0088693 A1
Filing date: Nov 30, 2006

Personalizing anchor text scores in a search engine
Patent number: 7260573
Filing date: May 17, 2004
Issue date: Aug 21, 2007

Information retrieval based on historical data
Patent number: 7346839
Filing date: Dec 31, 2003
Issue date: Mar 18, 2008

光從上面的專利標題, INCEPTION DATE, DOCUMENT CONTENT, QUERY ANALYSIS, LINK-BASED CRITERIA, TRAFFIC ASSOCIATED WITH A DOCUMENT, anchor text, 您大概就可以知道Google在對網頁評分的標準了, 這些因素在之前一系列SEO文章也都提過

話題扯遠了 ... 我們回到主題, 本篇只談文章的新鮮度

現在假設有一篇熱呼呼的文章剛被Google抓取, 姑且稱網頁A其初始時間(INCEPTION DATE)為2008.09.05 12:00:00, 這篇文章會不會出現在SERP的第一頁, 就完全取決於query analysis後, 網頁A內容與keyword的相關性緊密度評分, 如果評分後有其他網頁更優勢, 當然網頁A就被排擠下來

如果相關性緊密度評分相等或相近, 並且這個SERP set中的其他頁面, 其他評分並不顯著優勢(如backlink), 這時網頁A就可能出現在SERP的第一頁, 但是這個優勢會隨著時間因素而遞減(公式後續再談)

網頁A如果在因時間因素遞減下, 但增加了自然的backlink, 就可能繼續存在SERP第一頁

網頁A如果在因時間因素遞減下, 沒有增加自然的backlink, 若其他頁面也同樣沒有增加自然的backlink, 網頁A也可能繼續存在SERP第一頁

對於Google而言, 網頁A如果在一週內有10個自然的backlink, 其link analysis評分當然比存在一年的網頁B具有30個backlink要優秀, 但是這裡強調的是"自然的backlink", 非自然的backlink就可能會被演算法抓出, 以人為的方式降級或列入sandbox中

這也就是為什麼一些很新的網頁會出現在SERP第一頁的原因, 但是別太高興, 如果內容不好, 就會被其他相關文章擠下去

有興趣的話, 請期待後續文章啦 ...

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年9月3日星期三

Tongue Computing (舌控運算) : 讓殘障人士找回春天


(Photo from : CNN.com)

美國喬治亞理工大學助理教授Maysam Ghovanloo研究利用舌頭肌肉來控制計算機, 他認為殘疾人士的嘴可轉化為一台虛擬的計算機, 而牙齒成為一個鍵盤而舌頭來進行操縱。Maysam Ghovanloo說 : 你可以使用舌頭來完全控制所有環境。

該研究把舌頭變成一個類似搖桿的裝置, 用來控制輪椅, 家電, 電腦, 雖然這個研究還有一大段路要走, 但是早期試驗已經令人鼓舞, 雖然不算是第一個使用臉部肌肉的動作來控制電器用品, 但殘障人士高度寄望這個使用舌頭的控制的發明, 亞特蘭大復健醫院副總裁Mike Jones表示 : 這個發明提供了無限可能的溝通方式。

在美國有數以十萬計的美國人是頸部以下殘障, 但目前使用的技術不是難以控制, 或是成本過高, 舌頭是一個更靈活敏感的選項, 而且在車禍中大部分身體癱瘓後, 舌頭仍然能夠運作自如。

位於加州Palo Alto的newabilities系統公司, 已經設計了一個具有9個按鈕鍵盤放置在口中來控制電子設備, 而Maysam Ghovanloo卻使用虛擬鍵盤, 把三毫米大小的磁體放置於舌尖, 兩側臉頰的感應器用來追蹤舌頭動作, 傳送資料到頭部接收器, 藉由這些轉換成控制輪椅或其它電子產品的指令。

這個團隊已經吸引了National Science Foundation及Christopher and Dana Reeve Foundation的資金支持。但是這個研究還有許多困難及挑戰需要克服, 研究人員必須改善笨重頭帽的設計, 改善軟體的功能, 縮小磁體的大小, 及強化無線電力, 另外還必須降低成本到數百美元。

雖然如此, 這個研究結果已經相當令人鼓舞, 他不僅可以控制你的輪椅, 你的電視, 你的電腦, 還能控制殘障人士的整個人生 ...

標籤: , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月29日星期五

Semantic Ranking : Search Engine 的另一扇窗

由前文"Pagerank 演算法研究"與"SERP v.s. PageRank : PR值與搜尋排前的關係", 我們瞭解了影響網路搜尋結果的幾個因素

但是網頁的互相連結並無法表示支持的程度, 目前PageRank計算一概以均分的方式, 而網頁互相連結也無法表示網頁間的關聯, 如科技類的網頁A連接到科技類的網頁B, 對於網頁的重要度評比, 當然應該比生活類的網頁C連接到科技類的網頁B要來的重要

而使用網頁結構與keyword的關聯性來產生SERP的結果, 也有可能出現錯誤的狀況, 比如keyword為"SERP PageRank" 與 "PageRank SERP", 就可能產生不同的SERP結果, 同義與相近詞也無法透過搜尋有效率的尋找

這些都是由於PageRank與SERP目前都尚未真正融入Semantic語意技術, 沒有語意技術實在很難以分析這麼多看似不相關的資料 ...

"Context-Aware Semantic Association Ranking", "Ranking Complex Relationships on the Semantic Web", "Ontology-Driven Semantic Ranking for Natural Language Disambiguation in the OntoNL Framework" ... 等等文章就提出了Semantic Ranking的概念, 希望以語意的關聯來建立網頁間的關係, 如果您希望看更多訊息, 可以用"semantic ranking"去進行搜尋

什麼是Semantic Ranking? 就是用語意技術去評比網頁, 當您下一個關鍵字, 網頁就可以用semantic ranking的大小來依序顯示, 不像現在只是純粹比對字串

當網頁間存在Semantic Connectivity (語意連接性) 或Semantic Similarity (語意相似性), 就是存在Semantic Association (語意關聯性)

例如: 當網頁A的內容討論車子的性能, 網頁B的內容討論重型機車的性能, 網頁C的內容討論BMW汽車的性能, 網頁D的內容討論寶馬汽車的性能, 則網頁A-C,A-D互相具有Semantic Connectivity, 網頁C,D互相具有Semantic Similarity, 而網頁B則可透過另外網頁與網頁A產生另外一個Semantic Connectivity

不過可惜的是以舊有的網頁語法, 如果沒有使用RDF (Resource Description Framework), 比較困難建立這些關係, 如何在既有的HTML語法下, 或簡化使用RDF的方式來改善PageRank與SERP是Search engine的一個困難的難題

如果這個問題可以解決的話, Search engine的市場就可能重新洗牌, SEO的方式可能就全面改觀了, 拭目以待吧 ...

標籤: , , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

SERP v.s. PageRank : PR值與搜尋排前的關係

許多搞SEO (Search Engine Optimization) 的人一定都有一個困惑:為什麼許多搜尋結果, 反而PR值低的會排在前面?

在前文"SERP : Search Engine Results Page"已經提到, PR值與SERP不一定成正比, 也許您會問 : 那花那麼多功夫把PR值提高, 不是白費功夫了嗎? 有那麼多的backlink不也是如夢一場了嗎?

大家真的都被Google耍弄了嗎? 事實真像如何呢? 繼續往下看就能解開您的疑惑了 ...

首先解釋一下, 我們由前文"Pagerank 演算法研究"知道, PR值完全看有多少網頁投票給您, 這些投票給您的網頁其本身的質量與該頁的連結數目決定了您的PR值, 這個值跟keyword無關 (真的無關嗎?我們後續會來研究)

而SERP主要由哪些因素決定呢?

(1)keyword在您頁面的密度相關性
(2)您頁面被Google index的時間
(3)PR值

在說明以上因素之前, 我先用近日文章的SERP來說明:

"WREL : Wireless Resonant Energy Link 未來的無線電力傳輸"
2008.08.28刊登, 於2008.08.28被Google index
在Google search以"Wireless Resonant Energy Link"為keyword, SERP=第一頁位置5, 中文SERP=第一頁位置1

"DPR : Dynamic Physical Rendering 未來的變形金剛"
2008.08.28刊登, 於2008.08.28被Google index
在Google search以"Dynamic Physical Rendering"為keyword, SERP=第一頁位置7, 中文SERP=第一頁位置1

"PageRank, BrowseRank, AlexaRank"
2008.08.26刊登, 於2008.08.26被Google index
在Google search以"BrowseRank"為keyword, SERP=第一頁位置2, 中文SERP=第一頁位置1

"使用手機或PDA離線瀏覽Google Map"
2008.08.12刊登, 於2008.08.12被Google index
在Google search以"mgmaps"為keyword, SERP=第一頁位置4, 中文SERP=第一頁位置2

(以上資料可能會因時間等因素而顯示不同結果)

由以上例子看, 為什麼這麼新的網頁能夠有優秀的SERP? 因為該文就是以keyword為title或tag, 談的內容就是keyword完全相關的

在以上提的SERP三個主要決定因素中, (1)是最重要的, 其次是(2), 最後是(3)

除此之外, 據觀察結果, 還可能與TrustRank有關係, 不過這點尚無法詳細證明, 但根據一份PageRank/SERP統計資料顯示結論: SERP與PR有關, 但隨著時間PR會逐漸減少對SERP的影響

因此如果您看到某些頁面的PR比較低, 但SERP比您的頁面好, 原因就是: keyword比較有關連或被index的時間比您早

Google處理SERP的方式, 以上面的觀察來看, 其實是很符合使用者需求的, 因為網路上不斷出現新的優秀內容, 如果光是以PR順序來顯示資料, 也許根本找不到要的資料, 況且目前一堆黑帽SEO, 不符合網頁的PR值也很多, 因此Google把PR的影響遞減, 其方向大致沒什麼問題

另外由以上的觀察, 也覺得台灣在新科技相關的研究內容實在少得可憐, 提到DPR(Dynamic Physical Rendering)的中文內容竟然屈指可數, 不過就因為如此, 只要您能夠在內容與結構上好好耕耘 (如本站一系列的SEO探討文章所說的), 您的高品質內容也會有出頭的一天, 其他亂七八糟的黑帽SEO就忘了他吧 ...

標籤: , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月28日星期四

DPR : Dynamic Physical Rendering 未來的變形金剛



前陣子的變形金剛系列電影造成不小的轟動, 擁有變形金剛(Transformers)是許多小孩子的夢想, 連已經是歐吉桑的人可能都很想偷偷買一個來玩, 現在Intel的DPR技術(Dynamic Physical Rendering)可以說是變形金剛的終極技術, 不只是變形, 而且是塑造出可能想像的擬真物件 ...

這個DPR技術是Intel與卡內基美倫大學 (Carnegie Mellon University)合作的一個專案, 研發出一種材料可以用來任意塑形, 他們把這種材料暱稱為pario (其基本元素為catom - claytronics atom), 利用pario可以作出真實可動的立體物件, 並且跟真的物件無法分辨, 而且這個複製物可以與真實物件同步動作, 因此以後打電話不只可以看到對方影像, 還可以跟對方來個真實的擁抱, 當該材料複製後還可以再利用來變形成另外的物件

所以可能以後舉辦奧運時, 選手在奧運場比賽, 您可以不出國也可以看到一模一樣的擬真選手的現場表演, 而且這個擬真選手可以任意的resize, 也就是您可以用十分之一的比例, 俯視整個棒球比賽 ... 這真是太棒啦

這個研究專案是於2002年的研討會上, 卡內基美倫大學的教授Seth Goldstein與Intel研究室的Todd Mowry兩人討論出來的主意, Mowry想要改善視訊會議 (video conferencing), 而Goldstein正在研究奈米技術(nano technology), 剛好這兩種技術結合後就變成DPR ...

這個可塑的材料catom (claytronics atom), 都具有Computation、Motion、Power、Communications的能力, 如果這個研究能夠問世, 將可以用在醫療/運動/娛樂/通訊 ... 等等用途上

以下是Dynamic Physical Rendering的介紹影片 (From YouTube.com)



標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月27日星期三

SERP : 搜尋排前對消費者的影響

不管公司的大小, 許多產品都希望能夠讓消費者於網路搜尋時可以排列在最前面, 到底搜尋排前對消費者的影響是如何呢? 3位武漢大學的學者在2007年WiCom研討會上有一篇論文: "Does It Pay to Get to the Top? Contextual Factors of Branding in Search Engine Marketing", 做了一個SERP的研究 ...

他們把使用者分成兩大類, 一部分是具備搜尋技能的人, 一部分是不具備搜尋技能的人, 進行四項實驗, 然後去評估他們對產品的認知

這個研究得到幾個結論:

(1)具備搜尋技能的人較不易被SERP結果影響, 但不具備搜尋技能的人易被SERP結果影響對產品的認知

(2)當他們瞭解許多產品有進行SEO(Search Engine Optimization)來影響SERP時, 沒有顯著影響他們原有的產品認知

(3)不知名產品在搜尋排前時, 產品認知的影響比知名產品來得顯著

以上結果代表什麼意義呢? 就是沒有名氣的產品如果能夠搜尋排前是非常重要的, 可以快速建立產品的Branding, 相對的知名產品就沒必要花太大心力在SERP上, 並且對於廣大的不具備搜尋技能的人影響較大, 就算他們知道SERP可能是被操作的, 也不太會對於搜尋排前產生太大疑問

所以如果您的產品越沒有名氣, 把精力放在SEO來改善SERP, 是決對能夠逐步建立品牌的一個快速方式, 並且能夠獲得消費者對於您的產品的正面認知!

標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月26日星期二

SERP : Search Engine Results Page

前幾篇文章談了一堆關於Ranking的技術, 最後也就是最重要的就是SERP (Search Engine Results Page), 不管您的PageRank, TrustRank ... 等等指標多好, 如果使用者在搜尋時無法出現在前幾頁, 也就是有較好的SERP的話, 所有的指標都只是白費功夫, 空有好的內容, 但搜尋引擎並不認識你, 可說是非常可惜的事情, 如何才能夠讓您的網頁有優秀的SERP表現呢?

SERP與keyword及網頁結構關係最密切, 而高的PageRank不能保證有好的SERP, 高的流量也不能保證有好的SERP, 如果能夠有好的內容再加上優秀的SERP, 那才是網站成功的保證

當使用者下了一個keyword, 哪些重要因素影響SERP的結果呢?

(1)網頁title

例如本文章的重點在談SERP, 而title就是"SERP : Search Engine Results Page"
如果您的內容無法表現在title tag上, 當然SERP就無法有好的表現, 這也就是上次談到: SEO 三大建議, 希望能夠使用blog結構的原因, 因為可以不需額外功夫就讓內容的title顯示出來

(2)網頁meta data

meta data中的keyword, 與內容中的heading處理, 也可以讓search engine特別注意, 這個在上文Semantic HTML也提到過, 使用正確的tag, 可以讓search engine瞭解您的內容

(3)網址與目錄

如果您的網址或目錄中含有keyword, 如http://www.serp.com/serp-pagerank/serp.html, 如此也可以讓您針對SERP這個keyword有較好的結果, 並且就網址後綴來說, 一般org/net/com 也比ccTLD (Country Code Top Level Domain, 如org.tw/net.tw/com.tw)要好

(4)網頁內容

當然在您文章的內容一定要出現該keyword, 並且真的就是關於該keyword的文章, 否則使用者找到您的網頁也就沒啥意思了

(5)Refresh rate

什麼是Refresh rate? 就是您網站的更新頻繁度, 如果您的網站內容時常更新, 除了能夠讓search engine加快抓取頻率外, 也能夠讓SERP有更好的結果

也許有人會問:到底search engine會多久來抓我的資料? 除了使用http://www.google.com/webmasters/可以讓您上傳sitemap來告知之外, search engine也會自動根據您更新頻繁度來修正抓資料的頻率, 也就是如果每次search engine來抓資料都發現您已經更新, 他會修正縮短抓資料的區間, 如果來抓資料時發現您的網站沒有更新, 則放慢抓資料的區間

因此當您的網頁如果已經被indexing後, 並且您的網站屬於Trust那個區塊, 其實search engine抓資料的頻率有很大因素決定在您手上

標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

TrustRank, PageRank, SERP

許多站長常常問一個問題 : 為何我的網頁已經建置很久了, 但一直沒被Google index? 另外一個問題也常常被問到 : 為何許多PageRank值比我低的網頁, 搜尋時出現在我的網頁前面?

第一個問題的答案是 : TrustRank, 而第二個問題的答案是 : SERP (Search Engine Result Page)與PageRank不一定成正比

本部落格的網頁最快約10~30分鐘就會被Google抓走, 最慢也在一天內就被Google抓走, 原因是TrustRank

什麼是TrustRank? 詳細資料請看 : Combating Web Spam with TrustRank

由於全球的網頁數目太龐大, 因此Google的Sandbox, TrustBox技術會將網頁區分為兩大區塊-被排除的區塊(Sandbox)與信任的區塊(TrustBox)

哪些網站會被信任? 被Dmoz list的網站, 被Social bookmark熱門推薦的網站, 被TrustRank/PageRank高的網站所連結的網站 ... 這篇文章也提到一些成為TrustBox區塊的方式

另兩篇文章 : What is Google TrustRank (TR)?, The Social Side Of Trustrank 也提出許多提高TrustRank的方式, 本站之前的文章也都提到過

當TrustRank較好時才會快速被抓取, 被抓取後才可能有好的SERP, SERP就與網頁結構有很大的關係, 但是真正決定SERP的因素, 現在還是只能由結果來猜測, 尚無真正能夠證明哪些因素來決定SERP (SERP的研究倒是不錯的研究題目)

不過不管如何, 研究了一堆PageRank, TrustRank, SERP ... 之後, 其實最重要的還是老話一句 - 內容與結構! 就把一些指標暫時放一邊, 好好研究如何產生好的內容與正確使用Semantic HTML比較實在吧!

標籤: , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

PageRank, BrowseRank, AlexaRank

在八月初的SIGIR (Special Interest Group on Information Retrieval)研討會上, 出現了BrowseRank: Letting Web Users Vote for Page Importance

這個微軟研究中心的BrowseRank演算法, 大抵是想跟Google的PageRank一別苗頭, 到底這個BrowseRank是否能夠比PageRank來得好呢? 我們來研究一下

大略瀏覽了上述的論文, 發現BrowseRank只是Page-level的AlexaRank, 他的data set來自於瀏覽軟體的使用者資料, AlexaRank由Alexa toolbar所得到的資料來分析, 而BrowseRank由微軟的IE所得到的資料來分析

AlexaRank只是Domain-level ranking, BrowseRank比較仔細一些, 進到Page-level Ranking, Website-level Ranking, 而PageRank是透過link-analysis來取得頁面的重要度

論文題目說: Letting Web Users Vote for Page Importance, 其實是值得商確的, 網友到訪了一個網頁, 未必就認為該頁是重要的, 可能看完後幹聲連連 ...

因此我們可以粗略的說AlexaRank標示了網域的熱門度, BrowseRank標示了網頁/網站的熱門度, PageRank標示了網頁的重要度

到底哪個比較精準, 就牽涉到幾個問題:

(1)比較熱門的網站是否就比較重要?
(2)link數目多就代表比較重要?
(3)不同階層的使用者, 熱門度如何參考?
(4)廣度網站與深度網站, 熱門度如何參考?

當然上面問題沒有正確答案, 學術研究的網站一般不能跟入口網站比熱門度(AlexaRank與BrowseRank), 而新興網站一般不能與歷史悠久的網站比重要度(PageRank), 但是也可能會有例外 (而且例外還不少)

所以也很難去比較AlexaRank,PageRank,BrowseRank到底哪個好, 後續有更多資料再來分享啦...

標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年8月25日星期一

Pagerank 演算法研究

Larry Page在1996年間發明了Pagerank的演算法, 爾後又與Sergey Brin在Stanford發表了"The Anatomy of a Large-Scale Hypertextual Web Search Engine", 這個Web Search Engine就是現在使用的Google, Pagerank詳細內容到1998年才發表, 並且直到2001年才取得專利

Page Rank公式如下



(以上公式圖形由http://www.sitmo.com/latex/產生)

以上d指damping factor, 其值在0~1, 一般設為0.85
PR(Vi)為Vi這個頁面的PR值
In(Vi)為連進Vi這個頁面的link數目
Out(Vj)為Vj這個頁面連出去的link數目

也就是說如果有3個頁面A,B,C

A如果連到B,C
B如果連到C

如果A的PR=4
則PR(B)=(1-0.85) + 0.85 * 4/2 = 1.85

而PR(C)=(1-0.85) + 0.85 * (4/2 + 1.85) = 3.4225

B,C會平均繼承A的PR值, 但C會單獨繼承B的PR值

Pagerank是一種link-analysis algorithm, 是根據citation analysis而來, 原本使用在學術期刊論文被引用次數的技術

在Pagerank之後, 1999年Kleinberg發表了HITS algorithm(Hyperlink-Induced Topic Search), HITS決定兩個值: authority value & hub value, 並且是在query time計算, 而不是像Pagerank是在indexing time計算, Teoma就是使用HITS (目前被Ask.com收購)

相對於link-analysis algorithm的content-analysis algorithm, 於另外文章再討論

不管是Pagerank或是HITS, 都是iterative ranking algorithm, 非常耗費演算時間及資源, 因此許多研究者提出了不同的方式來加速計算時間:

1999年 Efficient Computation of PageRank(Haveliwala and et al.)

2002年 Pagerank Computation and the Structure of the Web:Experiments and Algorithms(Arasu and et al.)

2002年 I/O Efficient Techniques for Computing PageRank(Chen and et al.)

2003年 Scaling Personalized Web Search(Jeh and et al.)

2003年 Exploiting the Block Structure of the Web for Computing PageRank (Kamvar and et al.)

2003年 Extrapolation Methods for Accelerating PageRank Computations (Kamvar and et al.)

2004年 Parallel PageRank computation on a gigabit PC cluster (Manaskasemsak and et al.)

2006年 Parallel adaptive technique for computing PageRank (Rungsawang and et al.)

2007年 Improvement of Pagerank for Focused Crawler (Yuan and et al.)

但是不管怎麼加速演算法, 其iterative ranking algorithm的特性不會改變, 但可能會加入content-analysis algorithm的一些特性來走向semantic web

而Pagerank公式內的Out(Vj), 使得一些做SEO的人注意到HTML中的nofollow特性, 來進行一些link quality的改善

深入探討:
PageRank Algorithm : 別說你懂PR演算法

相關訊息:
什麼是PageRank Hijack?
善用PageRank指標提升企業競爭力
Google Analytics & PageRank
SERP vs PageRank : PR值與搜尋排前的關係

標籤: , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年6月25日星期三

Google資料中心的秘密



Google提供全球大量的服務,幾乎已經快橫跨整個資訊科技的服務,但是Google資料中心的內部運作一直都是秘而不宣,許多人可能都碰過Google的服務出狀況,但是這些狀況總能在可容忍的範圍內解決,你可能發現你的Gmail的容量一直在改變,是什麼架構讓空間像捏橡皮糖一樣越捏越大?前陣子Google伙伴Jeff Dean在Google I/O會議中稍微揭開了公司基礎設施的神秘面紗。

Google的神秘面紗包括了: (1)軟體 (2)硬體 (3)叢集平行處理機置

Google軟體的三個核心要素:GFS(Google檔案系統)、BigTable和MapReduce演算法。而硬體卻是一般的伺服器、處理器、硬碟、記憶體等等。另一方面伺服器的叢集能在半秒之內回應700至1,000台伺服器的搜尋請求。

根據Google的說法,GFS是"a scalable distributed file system for large distributed data-intensive applications. It provides fault tolerance while running on inexpensive commodity hardware, and it delivers high aggregate performance to a large number of clients". 就是這個GFS的分散式檔案系統,讓Google服務可以隨時長出空間或是切去毀損的部分,而管理這個GFS的機置就是BigTable。目前有超過200個叢集在執行GFS,其中許多都包含數千台主機。

GFS把一塊儲存的資料(通常是64MB),至少放在三台稱為chunkserver的主機內。

如果chunkserver發生故障,Master Server(主伺服器)便負責把資料備份到一個新的地方。至少在儲存層級,主機故障完全由GFS系統處理。

Google到底擁有多少台伺服器?據Dean表示,每個機櫃存放40台伺服器。而根據某項估計,Google目前在全球有36個資料中心,以每個中心有150個機櫃計算,Google的伺服器至少超過20萬台,並且每天都在增加中...下圖就是Google最早期的server rack,當然目前的硬體比這個肯定更驚人了。



Google之所以成為Google,部分原因是他們推翻了電腦界的傳統作法。當所有的超大型資料中心都使用主流伺服器和軟體,Google的資料中心絕大部分是靠本身的技術構建而成。Google把命運操縱在自己手中,共同創辦人Larry Page鼓勵員工"別太相信有什麼不可能的事情"。

要維持如此大規模的運作,也許可以說全世界是卯起來操Google的架構,Google必須對每一台機器抱有一種隨時可犧牲的態度。伺服器製造商喜歡主打他們的高階主機承受故障或當機的能力,但Google寧願把錢投資在容錯軟體上。他們認為擁有兩倍數量但較不可靠的硬體,勝過一半數量但較可靠的硬體。你必須在軟體的層級提供可靠度,如果你有1萬台主機在運作,每天一定會有一些東西掛掉。這個跟我們一般的認知確實有蠻大的差異,我們通常都希望有數量雖少,但功能穩定的機器,而不願意有一大籮筐兩光的機器。

每個新叢集上線的第一年,通常會發生1,000次個別主機的故障,數千次硬碟故障...

一次電力輸送問題,導致500至1,000台主機失效約6小時...

20次機櫃損壞,每次造成40至80台主機下線...

5次機櫃搖晃,導致半數的網路封包在傳送過程中遺失...

整個叢集至少一次重新上線,在兩天之內的任何時間,影響5%的主機...

整個叢集還有一半的機率會過熱,在5分鐘之內讓幾乎所有伺服器當機,並且花上1到2天的時間恢復...

雖然Google用一般硬體組件來組裝其伺服器,但卻不用傳統的封裝,他們要求Intel提供特製的主機板。Google目前在每40台伺服器的機櫃外,包覆一層外殼,而不是每台伺服器有個別的外殼。

Google在2004年開始設計的BigTable,用BigTable為所有資料提供若干結構,目前用在超過70個Google計畫,包括Google Maps、Google Earth、Blogger、Google Print、Orkut和核心搜尋索引。最大的BigTable實用範例管理橫跨數千台主機、約6 PT(petabytes)的資料。

Google在2003寫出第一版的MapReduce,讓該公司有辦法實際發揮那些資料的用處。舉例來說,MapReduce能找出某個特定字彙在Google的搜尋索引中出現的次數、列出所有特定字彙出現的網頁,和連結到某個特定網站的所有網站。

利用MapReduce,Google能用相對迅速的時間,建立一個包含"digital"、"network"和"society"三個字的所有網頁索引。"Dean說:「你必須能夠依序地橫跨數千台主機作業,才能在一個合理的時間內完成這項工作。」

MapReduce軟體在Google內部的應用日漸增加,2004年8月,該軟體執行2.9萬項工作,到2007年9月,已經暴增到220萬項。在這段期間,完成一項工作的平均時間也從634秒降至395秒,而MapReduce的工作產出則從193 terabytes上升到約1.4萬terabytes。Dean說,Google在任何一天都要執行約10萬項MapReduce工作,每一項工作佔用400台伺服器,且需要5到10分鐘完成。

MapReduce就像GFS,是特別設計用來迴避伺服器問題的。Dean表示:「當某台主機故障,主伺服器知道那台機器正在執行什麼工作,將命令其他主機接手那項map工作。你可能影響到100個map工作,但會有100台主機接手那些工作。」

MapReduce的可靠度一度遭到嚴厲的試煉,當時一個1,800台伺服器的叢集正進行維護作業,工作人員一次拔下80台主機的插頭,同時另外1,720台主機必須接下停頓的工作。Dean說:「速度變得有點慢,但工作全部完成。」而在一次2004年的簡報中,一個1,800台叢集的系統,承受了1,600台伺服器同時故障。

所以,Google資料中心的運作似乎如魚得水,一切順利。但該公司還不滿足,列出了一長串待改進的事項。大多數公司都試圖找出如何平順地將工作在伺服器之間轉移,但Google已經超越了那項挑戰,他們要能夠自由、平順,且自動地,將工作在各個資料中心間轉移。

Dean說:「我們下一代的基礎設施要是一個能夠橫跨大區塊主機轉移,而非單一機器的系統。」目前,某些大型的檔案系統具有不同的名稱,如GFS/Oregon和GFS/Atlanta,但他們都是彼此的拷貝。他表示:「我們要一個單一的名稱集。」

Google種種獨創的系統替他們開創了天下,也建立了其他競爭者很難跨過的門檻,但是隨著越來越複雜的環境,Google自己需要解決的問題,肯定挑戰會越來越大。

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月28日星期三

近期語意技術探討(一)


(圖片來源:http://gridinoc.name)

2008年可以說是語意技術發燒的一年, 並且近年來不管是研究單位或是新創公司, 對於語意相關技術的重視與投資可謂不遺餘力, IEEE Intelligent Systems也在今年初刊登了不少關於語意技術的文章, 我們來看看到底語意已經發展到什麼程度 ...

語意技術對於一般使用者是感覺不到的, 您並不知道到底哪個東西應用了語意技術, 頂多您會覺得電腦好像變聰明了, 但是如果運用得不好, 您可能會覺得怎麼電腦這麼笨, 電腦的聰明與愚蠢就完全取決於到底是否正確的運用Semantic Technology(語意技術)、Artifical Intelligence(人工智慧)、Nature Language Processing(自然語言處理)、Ontology(本體論)...等等

在W3C的網站就舉了幾個語意技術的使用案例

例如其中BT(英國電訊)的案例, 根據Forrester研究顯示排名前3500的大公司, 花費在整合的費用是$6.3 million並且其中的31%花在整合外部公司, 而電信類的公司花在整合外部公司的比例高達70%

BT就將Semantic運用在SOA(Service-Oriented-Architecture)上, 讓他們的外部夥伴使用Internet與BT的B2B Gateway聯接, 輕易的自行處理作業支援相關運作, 如此一來減輕了支援成本, 也加速了作業效率

這個技術使用SOA來將整個系統分成Presentation Tier、Service Tier、Data Tier, 透過Service Tier的Semantic Broker去抓取異質系統的資料, 然後呈現在外部公司的系統上或是瀏覽軟體上, 如此一來BT本身的不同系統整合起來了, 外部公司使用各種不同系統也都可以順利的透過這個B2B Gateway來整合

在目前語意技術的運用上, 幾乎離不開Web2.0與SOA, 就其中Markup與Mashup的特性來發揮, Markup讓資料可以分析、交換(如XML、RDF、RuleML), 而Mashup可以讓服務混搭, 因此幾乎所有的技術都繞著Markup與Mashup走, Semantic/Web2.0/SOA幾乎就是Internet三位一體的趨勢

目前在歐洲的語意研究上, 以Neon-ProjectSEKTDIP為主, 各自都發展許多不同的語意技術與工具, 下次再仔細說明囉 ...



標籤: , , , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月15日星期四

語意搜尋的前哨站 : 垂直搜尋


Google的一般搜尋後又推出各類搜尋之際(圖書搜尋, 地圖搜尋, 學術搜尋, 網誌搜尋, 產品搜尋, 新聞搜尋...等), 各家一堆特定目的垂直搜尋也紛紛想要搶下一片江山, 這些搜尋引擎到底存活的機率有多少? 功能如何?

目前廣泛性的搜尋除了Google外, 大抵普遍被使用的就是Yahoo/Microsoft/A9/AltaVista/AllTheWeb/Lycos/Ask.com/Baidu...等等, 在這些廣泛性搜尋引擎與語意搜尋引擎(如Kartoo/izito/ujiko/hakia...等)之間, 垂直搜尋引擎的出現也彌補了目前搜尋不精準的缺點。

以下就來介紹一些功能不差的垂直搜尋及特殊查詢網站...

(1)(垂直搜尋)Kooxoo酷訊網 : 提供中國大陸的工作、房屋、票務、酒店、旅遊、購物等生活內容的搜索服務。這個酷訊網由北京大學計算機工程背景的陳華所創辦, 可以搜尋到的訊息可以說幾乎涵蓋了中國大陸的食衣住行娛樂, 由於表現不凡, 也獲得了Qihoo不少資金的投資。

(2)(垂直搜尋)Jobui/Jobmet : 為求職者提供大量的工作訊息,及中高端人才獵頭服務。這類服務與台灣的104人力銀行不同, 他們沒有自己的資料, 只是提供界面去各人力資源網站抓取資料加以整合。

(3)(垂直搜尋)Krillion產品搜尋 : 這個查詢與Froogle類似, 但資料量不夠多, 面對Google大概存活率不高, 除非資料能夠往精緻化發展。

(4)(垂直搜尋)Spock找人服務 : 這個找人服務與USA People Search類似。

(5)(垂直搜尋)Yoinkd音樂搜尋 : 與百度的MP3搜尋類似, 精準度不錯, 而且資料量也不差。

(6)(特殊查詢)Openrice餐廳搜尋 : 可以搜尋香港各類餐廳, 但不算是垂直搜尋, 因為資料蠻齊全的, 因此也把他列進來。

(7)(整合界面搜尋)oskope視覺搜尋 : 提供搜尋eBay/Amazon/flickr/Fotolia/Yahoo/YouTube等內容的視覺化搜尋, 其功能與Spacetime類似, oskope需要安裝額外的plug-in, 而Spacetime需要安裝額外的軟體, 並且硬體需求也較高。

(8)(垂直搜尋)FindBook翻書客 : 提供各網路書店的書籍比價搜尋, 類似的服務有isoshu, 但是isoshu找的不是書籍的價格, 竟然找的是書的內文, 不知他是如何處理版權問題。

(9)(垂直搜尋)Yousee BBS搜尋 : 提供BBS站內的文章搜尋, 是政治大學資科系團隊製作出來的。

在網路上資料日增的情況下, 各種需求已經無法以單一普遍性搜尋引擎來滿足, 因此專門領域搜尋、垂直搜尋、語意搜尋等需求會越來越高, 並且更符合人性化的界面也是大家所期盼的, 以上這麼多的搜尋網站到底誰能勝出? 還是只是曇花一現? 就看使用者賞不賞臉了!

標籤: , , , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年5月14日星期三

搜尋引擎的下一步:語意搜尋

現在的搜尋引擎雖然精準度已經比以往提高不少, 但是還是常常搜非所尋, 想要找亞馬遜叢林的資料, 輸入Amazon卻都是亞馬遜書店相關訊息, 必須翻到好幾頁以後才陸續出現亞馬遜叢林的資料

因為亞馬遜書店的PageRank值高, 因為亞馬遜書店的流量大, 所以搜尋引擎就以最可能你需要的出現在最前面, 但是偶爾(或是常常?)你要的資料並非最熱門的, 你就得耐心的多翻幾頁, 或者多使用不同的搜尋引擎來找尋 ...

但是, 這種現象已經慢慢在改觀中, 因為許多語意相關的技術已經逐漸純熟 ...



如上面畫面的izito, 當你輸入關鍵字以後, 右邊會出現Topic與domain選項, 當你輸入amazon後, 就可以選擇river或books等選項來確認你所謂的amazon是啥意思, 但是不幸的是...雖然izito可以搜尋中文, 但是對於資料的分類(也就是ontology的建立), 尚無法精確的處理中文網頁, 你如果輸入"五佰", izito自做聰明的分類還是會讓你滿臉豆花 ...

而如下圖顯示的ujiko雖然不允許處理中文資料, 但是允許使用者對搜尋結果做客製化(如搜尋到的結果給他一顆心, 或丟到垃圾桶), 下次搜尋就會以你客製的結果出現, 並且ujiko也提供跟izito類似的topic分類, 並且可以往下再分子類別, 雖然介面稍微複雜些, 但搜尋結果還算不錯



而如下所顯示的kartoo就更厲害啦, 當滑鼠移動到某個link時, 便會顯示這個link在ontology中的關係, 同樣的他的左邊選單也提供topic的選項, 不過kartoo也不支援中文搜尋



當然Semantic Search Engine還不只這些, 下次再來談多些相關網站及這些語意搜尋的技術層面內容 ...

標籤: , , , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2008年3月3日星期一

易經、系統理論與ITIL

ITIL (Information Technology Infrastructure Library)起源於1980年代的英國電腦通訊局(Central Computer and Telecommunications Agency, CCTA), 也就是現在的Office of Government Commerce (OGC), 其目的是要讓IT資源能夠發揮應有的效率及投資上的回報, 也就是讓花在IT上的每一塊錢都能花在刀口上。

最早的ITIL原本叫做GITIM(Government Information Technology Infrastructure Management, 政府資訊科技架構管理), 它跟現在的ITIL當然已經不太相同, 但是精神是一致的, 這套方式在1990年代早期在歐洲開始廣泛的被應用, 並且在2000年被Microsoft採用為MOF(Microsoft Operations Framework)的基本架構。

ITIL V2在2001年出現, 把架構分為兩大塊: Service Support與Service Delivery, 每塊有五個部分, 加上Service Desk與Security Management共有十二個部分。

2007年改版為ITIL V3, 強調生命週期的概念

ITIL V2各模組彼此之間相對孤立、沒有太多聯繫, V3已經開始有了類似系統理論的整體概念(System of Systems), 也許你會說V2怎麼會是相對孤立? CMDB不是在Service Support中扮演一些聯繫的角色嗎?我們看看ITIL V3的架構說明圖如下

整個架構以Service Strategies串聯 (也就是V2的Financial Management)但是V2的Process與Process之間並無整體串聯的管理。仔細研究ITIL V3的本質, 其實跟系統理論是相同的, 甚至包含System of Systems (SOS), 再究其因, 根本中國的易經都已經提出相同的看法。

一般系統論的基本原理是美籍奧地利生物學家貝塔郎菲(Ludwig von Bertranffy)在1925年提出的, 他認為系統的主要特點在於它的整體性、結構性、有序性、目的性及系統與環境的適應性。

從整體與局部、局部與局部、整體與外部環境的相互聯繫中考察對象,以獲得正確的認識及處理問題的最佳方案。Peter M. Senge的第五項修鍊(The Fifth Discipline)提到的啤酒遊戲(The Beer Game), 也是缺乏System Thinking而導致。

系統理論主要有五大部分: 系統, 要素, 聯繫, 功能, 結構, 環境。其實包括的概念可以用『大小宇宙』與『三理四相』來說明。啥叫『大小宇宙』? 就是系統中有系統 (System of Systems), 每個系統間都必須不斷的聯繫, 才能運作正常, 就如同人體一樣, 每個系統都需考慮到物、地、時, 在每個系統中的物件(物)於不同的時間(時)與環境(地), 都會有不同的功能(functions)與任務(tasks), 其子任務就是在不同的物件間聯繫, 這些子任務集合起來就讓這個系統運作起來。

啥叫『三理四相』? 就是物理中的成、住、壞、空, 心理的成、住、異、滅, 身理的生、老、病、死。而每個『相』中又都會有下階層的四相, 也就是又有System of Systems的關係。講到最後 ... ITIL竟然與易經是相通的, 而我們身體中的物理、心理、身理其實都依循ITIL在運作。

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2007年12月20日星期四

物件導向關聯式資料庫

關聯式資料庫管理系統( RDBMS, Relational Database Management System, 如mySQL, MSSQL等)是大家比較熟悉的資料庫系統,以database-table-field-record等概念來集合成資料,以field間的relation來建立table互相的關聯。但是這樣的形態有一個與實際世界的gap,也就是物件的class特性,因此而出現了物件導向的資料庫系統(OODBMS, Object-Oriented Database System, 如Caché)。

RDBMS與OODBMS的拉鋸戰,總是RDBMS勝出,最主要是因為有ER-Model及易懂的SQL等完整而簡易的工具來操作,因此雖然與實際世界有gap,但比較容易學習。

OODBMS是啥?看看以下的展示:
http://www.maddash.net/videos/intersystems/cache_demo/

也可以由這裡去找OODB的資源:
http://odbms.org/

另外的一個理論就是Object-Relational Database,使用RDBMS來建立OO的概念,這種作法就牽涉到Object-Relational Mapping,將物件與關聯式資料庫間做對映。

以上RDBMS、OODBMS、ORDBMS三種技術,到底有哪些優缺點呢?下次再談 ...

標籤: , ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院

2007年3月8日星期四

什麼叫Ontology?

根據wikipedia的解釋:
In philosophy, ontology is the study of being or existence. It seeks to describe or posit the basic categories and relationships of being or existence to define entities and types of entities within its framework. Ontology can be said to study conceptions of reality.

In computer or information sciences, ontology is a data model that represents a set of concepts within a domain and the relationships between those concepts. It is used to reason about the objects within that domain.

在哲學術語上,Ontology指的是一種探討"存在"的一門學問,也就是萬物存在這個宇宙,到底是安命在何處,以及萬物之間的關係為何。所以Ontology又稱之為"存在學"或"本體論"。

用白話來說,就是各種活的、死的東西,到底他是屬於哪個類別,可以歸類在何處,並且這些活的、死的東西之間到底有什麼關係。

電腦與資訊科學上,Ontology指的是資料模型,在各種不同的領域(domain)上,建立individuals (instances), classes (concepts), attributes, 及relations,來描述這個領域上各實體的特性。

如以下例子: Vehical(車輛)可分成Car與Truck,而Car又可分成兩輪車與四輪車。

A partial ontology; The concept Car is partitioned into 2-wheel and 4-wheel

當然,您可能對以上分類可能有不同意見,您也可以建立自己的Ontology。

因此Ontology建立是否完善與客觀就關係著實體描述關係的正確性。

建立這些Ontology目的在哪裡?用什麼來建?自動還是人工?由誰來建?與Ontology相關有哪些需要瞭解的?
後續再來探討。

標籤: ,

繼續閱讀:台灣搜尋引擎優化與行銷研究院