国产精品chinese,色综合天天综合精品网国产在线,成午夜免费视频在线观看,清纯女学生被强行糟蹋小说

    <td id="ojr13"><tr id="ojr13"><label id="ojr13"></label></tr></td>
        • <source id="ojr13"></source>
            <td id="ojr13"><ins id="ojr13"><label id="ojr13"></label></ins></td>

            Article / 文章中心

            阿里云虛擬主機(jī)被搜索引擎爬蟲訪問耗費(fèi)大量流量解決方法

            發(fā)布時(shí)間:2018-11-08 點(diǎn)擊數(shù):1676

            問題場景:

            客戶使用虛擬主機(jī),網(wǎng)站被搜索引擎爬蟲訪問耗費(fèi)大量流量和帶寬,如何處理。

            解決方法:

            可以通過在站點(diǎn)根目錄下創(chuàng)建 Robots.txt,Robots.txt 文件是網(wǎng)站的一個(gè)文件,搜索引擎蜘蛛抓取網(wǎng)站首先就是抓取這個(gè)文件,根據(jù)里面的內(nèi)容來決定對網(wǎng)站文件訪問的范圍。它能夠保護(hù)我們的一些文件不暴露在搜索引擎之下,從而有效的控制蜘蛛的爬取路徑。

            注:Robot.txt協(xié)議不是強(qiáng)制協(xié)議,部分搜索引擎或者偽裝成搜索引擎的爬蟲不會(huì)遵守該協(xié)議,對于不遵守該協(xié)議的情況,以下方法無效。

            1. 首先,先了解一下目前搜索引擎和其對應(yīng)的 User-Agent,如下:

            搜索引擎         User-Agent

            AltaVista        Scooter

            baidu            Baiduspider

            Infoseek         Infoseek

            Hotbot           Slurp

            AOL Search       Slurp

            Excite           ArchitextSpider

            Google           Googlebot

            Goto             Slurp

            Lycos            Lycos

            MSN              Slurp

            Netscape         Googlebot

            NorthernLight    Gulliver

            WebCrawler       ArchitextSpider

            Iwon             Slurp

            Fast             Fast

            DirectHit        Grabber

            Yahoo Web Pages  Googlebot

            LooksmartWebPages Slurp

             

            2. Robots.tx t樣例代碼:

            1. 禁止所有搜索引擎訪問網(wǎng)站的任何部分

            User-agent:

            Disallow: /

            2. 允許所有的搜索引擎訪問網(wǎng)站的任何部分

            User-agent:

            Disallow:

            3. 僅禁止Baiduspider訪問您的網(wǎng)站

            User-agent: Baiduspider

            Disallow: /

            4. 僅允許Baiduspider訪問您的網(wǎng)站

            User-agent: Baiduspider

            Disallow:

            5. 禁止spider訪問特定目錄

            User-agent: *

            Disallow: /cgi-bin/

            Disallow: /tmp/

            Disallow: /data/

             

            注意事項(xiàng):

            三個(gè)目錄要分別寫。

            請注意最后要帶斜杠。

            帶斜杠與不帶斜杠的區(qū)別。

             

            6. 允許訪問特定目錄中的部分url

            實(shí)現(xiàn)a目錄下只有b.htm允許訪問

            User-agent: *

            Allow: /a/b.htm

            Disallow: /a/

            如有其它疑問,即可咨詢阿里云代理商-北京優(yōu)勝智連小編,會(huì)為你免費(fèi)提供24小時(shí)不間斷的技術(shù)和售后服務(wù)。