程式之旅: 12月 2011

網頁針對搜索引擎的加註技巧

1.如何確定關鍵詞
2.使用 META 值
3.指引Web robot（網際機器人）為你服務
4.提高排名的幾點技巧5.全球著名搜索引擎介紹

1.如何確定關鍵詞

“關鍵詞（Keywords）”是搜索引擎將站點進行分類的依據，同時也就是我們在查找信息時輸入的那些詞,所以關鍵詞在註冊搜索引擎時至關重要。那麼有什麼辦法能幫助我們選擇正確的關鍵詞呢？

方法一：選幾個主要的搜索引擎（例如：AltaVista，Lycos，Excite 等）；
1）輸入你認為的自己站點的關鍵詞，然後Search。一般情況下，你會得到一個很長的列表；
2）打開前十位的站點，然後查看每一個的META 標籤（打開源文件，META 標籤在<head>...</head> 中）；
3）檢查他們的Keywords，從其中藉鑑你沒有想到的一些詞；
4）最後歸納出自己的關鍵詞。

可以多選幾個詞重複進行這個過程。

方法二：選擇人們最常用的一些搜索詞（亦即站點的關鍵詞），然後進行選擇。網上有很多這樣的資源：
到http://www.searchterms.com/ 看一看，那裡有每個月網上最流行搜索詞的排行榜；
想知道YAHOO 最流行的200個KEYWORDS? 去http://eyescream.com/yahootop200.htm
……這些資源值得去看，但也有很大局限性，例如: YAHOO 前20名KEYWORDS 中，有60%是關於“SEX”的，看來人們最感興趣的還是那神秘的“性”。如果你的網站是關於電腦方面的，似乎蜂馬牛不相及。怎麼辦？需要更廣泛的統計數據，GOTO 搜索引擎中提供了一個這樣的服務“搜索詞使用頻率統計”：
　　*進入 GOTO 站點
　　*點擊左下角 "GetListedonGoTo" 按鈕
　　*點擊上方 "ClientToolKit" 鏈接
*選擇"Tools" 中的"SearchTermSuggestionList"
*在跳出的新窗口中輸入要查詢的關鍵詞
　　*點擊 "FindIt" 查詢

2.使用 META 值

Meta 標籤放在每個網頁的<head>...</head> 中，常見格式如：

<meta name="GENERATOR" content="Microsoft FrontPage 3.0"> 說明編輯工具；
<meta name="KEYWORDS" content="...">說明關鍵詞；
<meta name="DESCRIPTION" content="...">說明主頁描述；

<meta http-equiv="Content-Type" content="text/html; charset=gb_2312-80">和
<meta http-equiv="Content-Language" content="zh-CN">說明所用語言及文字

可見META 有兩種，name 和http-equiv。

name 主要用於描述網頁,對應於content,以便於搜索引擎機器人查找、分類（目前幾乎所有的搜索引擎都使用網上機器人自動查找META 值來給你的網頁分類）。這其中最重要的是DESCRIPTION（你的站點在引擎上的描述）和KEYWORDS（搜索引擎籍以分類的關鍵詞），應該給你的“每一頁”都插入這兩個META 值。當然你也可以不要搜索引擎檢索,可用:
<meta name="ROBOTS" content="all | none | index | noindex | follow | nofollow"> 來確定:
設定為"all" 時文件將被檢索，且頁上鍊接可被查詢;
設定為"none" 則表示文件不被檢索，而且不查詢頁上的鏈接;
　　設定為 "index" 時文件將被檢索;
設定為"follow" 則可查詢頁上的鏈接;
設定為"noindex" 時文件不檢索，但可被查詢鏈接;
設定為"nofollow" 則表示文件不被檢索，但可查詢頁上的鏈接.

http-equiv 顧名思義相當於http 文件頭的作用，可以直接影響網頁的傳輸。比較直接的例子，如:

　　a、自動刷新，並指向新網頁
<meta http-equiv="Refresh" content="10; url=http://newlink"> 10秒後刷新
　　b、網頁間轉換時加入效果
<meta http-equiv="Page-Enter" content="revealTrans(duration=10,transition=50)">
<meta http-equiv="Page-Exit" content="revealTrans(duration=20,transition=6)">
加在一個網頁中，進出時有一些特殊效果，這個功能即FrontPage98的Format/PageTransition. 不過注意所加網頁不能是一個Frame頁;
　　c、強製網頁不被存入Cache中
<meta http-equiv="pragma" content="no-cache">
<meta http-equiv="expires" content="wed,26Feb199708:21:57GMT">
大家可以到http://www.internet.com/ 上看看，它的首頁當你斷線後，就無法在cache 中再調出。（本身是關於建站很棒的站點)
　　d、定義指向窗口
<meta http-equiv="window-target" content="_top">
可以防止網頁被別人作為一個Frame調用.

　　以下舉幾例很有用的META值設置：
<meta name="robots" content="ALL"> 可以告訴搜索ROBOTS 查找站點中所有內容；
<meta name="revisit-after" content="7days">，則ROBOTS 會在7天后再次前來搜索，這對於定期更新的站點非常有用；
<meta http-equiv="pragma" content="no-cache">，網頁內容就不能被放在CACHE 中離線瀏覽，每次訪問都會強制刷新；
　　……

3.指引Web robot（網際機器人）為你服務

有時你會莫名其妙地發現你的主頁的內容在一個搜索引擎中被索引，即使你從未與他們有過任何联系。其實這正是Web Robot的功勞。 Web Robot其實是一些程序，它可以穿越大量Internet網址的超文本結構，遞歸地檢索網絡站點所有的內容。這些程序有時被叫“蜘蛛（Spider）”，“網上流浪漢（WebWanderer）”，“網絡蠕蟲（webworms）”或Webcrawler。一些Internet 網上知名的搜索引擎站點（SearchEngines）都有專門的Web Robot 程序來完成信息的採集，例如Lycos，Webcrawler，Altavista 等，以及中文搜索引擎站點例如北極星，網易，GOYOYO 等。
WebRobot 就像一個不速之客，不管你是否在意，它都會忠於自己主人的職責，任勞任怨、不知疲倦地奔波於萬維網的空間，當然也會光臨你的主頁，檢索主頁內容並生成它所需要的記錄格式。或許有的主頁內容你樂於世人皆知，但有的內容你卻不願被洞察、索引。你可以用以下方法佈置下路標，告訴Web Robot 應該怎麼去檢索你的主頁，哪些可以檢索，哪些不可以訪問。

　　a.RobotsExclusionProtocol 協議

網絡站點的管理員可以在站點上建立一個專門格式的文件，來指出站點上的哪一部分可以被robot 訪問,這個文件放在站點的根目錄下，即http://.../robots.txt 。當Robot 訪問一個Web 站點時，比如http://www.sti.net.cn/，它先去檢查文件http://www.sti.net.cn/robots.txt。如果這個文件存在，它便會按照這樣的記錄格式去分析：

　　User-agent:*
　　Disallow:/cgi-bin/
　　Disallow:/tmp/
　　Disallow:/~joe/

以確定它是否應該檢索站點的文件。在一個站點上只能有一個"/robots.txt" 文件，而且文件名的每個字母要求全部是小寫。在Robot 的記錄格式中每一個單獨的"Disallow" 行表示你不希望Robot 訪問的URL，每個URL 必須單獨占一行，不能出現"Disallow:/cgi-bin//tmp/" 這樣的病句。同時在一個記錄中不能出現空行，這是因為空行是多個記錄分割的標誌。
User-agent 行指出的是Robot 或其他代理的名稱。在User-agent 行，'*' 表示一個特殊的含義---所有的robot。

　　下面是幾個 robot.txt 的例子：

在整個服務器上拒絕所有的robots：
　　User-agent:*
　　Disallow:/

允許所有的robots 訪問整個站點：
　　User-agent:*
　　Disallow:
或者產生一個空的"/robots.txt" 文件。

服務器的部分內容允許所有的robot 訪問
　　User-agent:*
　　Disallow:/cgi-bin/
　　Disallow:/tmp/
　　Disallow:/private/

　　拒絕某一個專門的 robot：
　　User-agent:BadBot
　　Disallow:/

　　只允許某一個 robot光顧：
　　User-agent:WebCrawler
　　Disallow:
　　User-agent:*
　　Disallow:/

　　b、RobotsMETAtag

一個網頁作者可以使用專門的HTMLMETAtag，來指出某一個網頁是否可以被索引、分析或鏈接。這些方法適合於大多數的Web Robot，至於是否在軟件中實施了這些方法，還依賴於Robot 的開發者，並非可以保證對任何Robot 都靈驗。如果你迫切需要保護自己內容，則應考慮採用諸如增加密碼等其他保護方法。
RobotsMETAtag 指令使用逗號隔開，可以使用的指令包括[NO]INDEX 和[NO]FOLLOW。 INDEX 指令指出一個索引性robot 是否可以對本頁進行索引；FOLLOW指令指出robot 是否可以跟踪本頁的鏈接。缺省的情況是 INDEX 和 FOLLOW。例如：
　　<meta name="robots" content="index,follow">
<meta name="robots" content="noindex,follow">
<meta name="robots" content="index,nofollow">
<meta name="robots" content="noindex,nofollow">

c.提高排名的幾點技巧

用關鍵字的複數形式，（如，用"books" 來代替"book", 那麼，當有人查詢book 或者books 時，你的站點都會呈現在他面前）

關鍵字的大寫和小寫多種拼寫方式都用上。（如：books,Books,BOOKS）同一個單詞的三種以上的拼寫方式並不會起到多大作用，儘管通常的錯誤拼寫倒能奏效。

　　用你選定的關鍵字的組合方式。人們經常使用包含2或2個以上關鍵字的短語來搜索。（如："storagefacilities", "STORAGEFACILITIES" 為了真正找准你的目標市場，加上"self,"SELF" 和"你的城市/州" 等單詞。那些不需要你的產品和服務的訪問者即便再多，也沒什麼價值。

　　必須使用 META 值。許多搜索引擎都是根據這些META 值為你的站點做索引的。 META 值位於你頁面HTML 中的<head> 和</head> 之間，並不會在你的頁面中顯示出來。為了更精確的使用這些 META 值。可以找一個排名最高的站點的源文件來做些參考分析。

使用你10到20個最好的關鍵字的組合。關鍵字豐富的META 內容通常都是你站點排名的決定性因素。
提示：如果可能，盡量在每一段的開頭或者搜索短語較靠前的位置使用你最具代表性的關鍵字。

用關鍵字來填滿你圖像鏈接中的ALT 值。

你站點中的每一頁都應該單獨登錄到搜索引擎，而不僅僅是登錄了首頁就結束了。
提示：許多搜索引擎都會定期對你的站點重新檢索，如果站點上沒有變化你的排名可就會下降了，所以，保持你的站點常新。

為你的每一個主要的關鍵字創造或定制一個獨立的頁面，並為每個主要的搜索引擎單獨設計。這會花上些時間，但是，一旦你做好了，將會令人不可置信的提高你的排名。
提示：確保每個頁面都能直接鏈接到首頁以及其它一些相關頁面。
警告！過去很多人投機取巧，濫用關鍵字來取得更高的排名。就是將自己的關鍵字一再重複使用，並改變文字顏色使之

適應頁面背景色。現在如果一旦發現你這麼做了，大多數搜索引擎都會採取懲罰措施。