robots.txt是位於網站根目錄下的文字檔,作用於web搜尋引擎的搜索程式(也稱為web蜘蛛)。 指示搜尋引擎應該獲取該網站的哪些內容。 例如,可以使用robots.txt呼籲搜尋引擎不要獲取特定的目錄。 htaccess是Apache http伺服器的設定檔,用於管理對該伺服器的訪問限制或連接行為。 例如,在. htaccess中,可以設置無法訪問網站的源,以及打開哪個模式的網站時應該傳輸到其他網站。
很多人誤解了robots.txt和. htaccess檔的使用方法,特此整理資料進行說明。 關於robots.txt和. htaccess檔,最簡單,您需要知道的是
1.robots.txt應位於www根目錄下, htaccess檔應位於非www根目錄下(遵循Apache安裝設置)。
2.robots.txt的目的是通過控訴搜尋引擎的爬蟲程式,來抓住哪個,不抓住哪個。
3.robots.txt的作用只是無稽之談,即使搜尋引擎的爬蟲程式被忽略也沒用。
4.htaccess檔與Apache web伺服器軟體一起工作,其他類型的伺服器軟體不一定使用相同的方法。 例如,在Windows伺服器上,可以使用web.config保存應用程式集成設置,然後轉換. htaccess設置和web.config。
5.htaccess.txt的目的是處理進入網站的所有連接的許可權和方法。
6.htaccess.txt的作用不是通知屬性,而是在連接後根據. htaccess檔中的語法進行處理。
7. robots.txt和. htaccess檔有不同的語法。
關於robots.txt
例如可以看到雅虎的robots.txt的樣子http://tw.yahoo.com/robots.tx。 因為每個人都能看到網站上的“obots.txt檔”,所以如果有內部使用的目錄,並且沒有密碼保護,就不要把他列在“obots.txt”裡。 即使有密碼保護,實際上也是安全隱患,最好不要將內部檔放在公開的伺服器上。以下是http://tw.yahoo.com/robots.tx的內容。
使用者代理: *
Disallow:/*
Disallow: /mobile/*
您將看到設置為不希望捕獲http://tw.yahoo.com/mobile/的內容的內容。 由於此內容是專用於移動設備的網頁內容,因此不希望使用普通搜索機進行捕獲。
那麼robots.txt應該怎麼設定呢?
1 .在不需要特別限制的情況下,大多數robots.txt的內容如下。
使用者代理: *
Disallow:
如果不允許爬蟲連接,則為。
使用者代理: *
Disallow: /
如果不允許爬蟲程式獲取特定的目錄,則可能會出現以下情況:
使用者代理: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
disallow : /private/
關於. htaccess
以下是關於. htaccess比較重要的項目。
1.htaccess檔是在Apache啟動後必須讀取的檔,其位置正在查看Apache設置。
2 .有些設置可以放在httpd.conf檔下,但每次Apache啟動時都會讀取httpd.conf,而每次連接時都會讀取. hta ccess
我去讀取。
3.htaccess檔中的幾個聲明必須一起載入特定模組。 例如,要進行URL的301位址轉換,必須安裝m0d_。
rewrite模組可以在. htaccess中聲明相關的地址。
你遷居的時候,可以聲明如下。
RewriteEngine on
RewriteCond %{HTTP—HOST} Adns.com.tw [nocase]
RewriteRule ” (. *) http://www.dns.com.tw/$l
[last,redirect=301]
0 Comments