前天看到一個帖子說, 在 Google 和 Bing 能搜到微信公眾號的文章了。怎麼可能。嚯,要這樣下去,在百度里搜微信文章是不是也快了?想必很多網友應該都挺期待這件事的。畢竟有時候搜資料,在百度和微信之間切來切去還挺麻煩的。誰想到還沒樂呵夠,騰訊馬上就闢謠了:
是公眾號的 robots 協議出現漏洞,讓搜索平台的爬蟲爬到了,現在已經修復了。
嗐,搞半天白高興一場。
不過,今天還是想就這個 robots 協議和大家探討一下。
因為說起來你可能不信,我們在百度里前搜不到公眾號文章,后搜不到淘寶商品,都是因為 robots 協議。
robots 協議其實很簡單,就是一個放在網站根目錄的文本,它寫明了搜索引擎可以/不可以收錄哪些信息。
微信公眾號的 robots 協議 ▼
有人可能會說,原來就是這幾行字害得互聯網不能互聯了?
不不,這鍋 robots 協議可不背。
robots 協議原本只是幫助搜索引擎更高效地收錄信息,只不過現在人們用着用着逐漸變了味。
這事還得從上世紀 90 年代初期說起。
在搜索引擎誕生之前,人們要查資料,只能一個個進入相關網頁,效率非常低下。
後來有了搜索引擎,搜索引擎通過釋放網絡爬蟲( 也可以叫蜘蛛 ),抓取各個網頁里的信息,並把這些信息收錄起來供大家查詢,這才極大提高了人們的效率。
但是,那會爬蟲就跟小黑胖一樣,抓取信息來完全不挑食。
不管是沒用的垃圾信息,還是網站重要的內部數據,不分青紅皂白地一頓亂抓,全都要。
這種粗暴的抓法不僅降低了用戶搜到有用信息的效率,還會讓網頁的重要數據泄露,服務器過載無法運行。
所以在 1994 年初,荷蘭有位網絡工程師提出了 robots 協議。
就好比賓館房間門上掛着的“ 請勿打擾 ”,“ 歡迎打掃 ”牌子,告訴阿姨哪些房間是可以打掃的。
每個網站的根目錄下也擺着一份 robots 協議,協議里告訴爬蟲:哪些東西你可以抓,哪些東西你不能抓。
雖說這個 robots 協議目前還沒被任何國際組織採納,沒有制約性,只能算個君子協議:你不聽,就不是個正人君子。
但它畢竟為了幫助搜索爬蟲 更有效地抓取對用戶有用的信息,更好促進信息共享。
所以在國外不管是早期的 altavista 還是後來的 Google 、必應,大家也都遵守着這一套協議。
同樣 2012 年 11 月中國互聯網協會發布了《 互聯網搜索引擎服務自律公約 》,也規定了:
搜索引擎要遵守網站的 robots 協議,但前提是 這 個 robots 協議是合理的。
這個公約對 12 家發起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、網易、新浪等。
圖源百度百科 ▼
如今絕大多數 搜索引擎的爬蟲在訪問網站時,第一件事就先讀下網站的 robots 協議。
在了解哪些信息是可以抓取之後,才會行動。
比如淘寶的 robots 協議,雖然只有簡單的 4 行字,但寫明了: 百度爬蟲 ( Baiduspider ) 不允許 ( Disallow ) 抓取任何內容 ( / ) 。
百度爬蟲過來看到協議后,就算心裡難受,也只能啥也不碰馬上離開。
那可能有人說,這既然是君子協議,會不會有人不當“ 君子 ”呢?
當然有,robots 協議只相當於一個告知書,爬蟲 ( 背後的人 )可以不聽你的。
和大家說兩個違背 robots 協議的例子。
第一個例子是 BE 和 eBay 的糾紛。
BE 是一個提供拍賣信息的聚合網站。它利用爬蟲抓取 eBay 等拍賣網站的商品信息,然後放在自己網站上賺取流量。
儘管 eBay 早已寫好了 robots 協議,告訴 BE 爬蟲不準抓取任何內容。
但 BE 認為這類拍賣信息都是大眾上傳的,eBay 設置 robots 協議不讓自己抓取,不合理啊。
後來法院經過多方調查取證, 認為 ebay 網站上內容屬於私有財產,它用 robots 協議保護私有財產是合理的。
最後認定 BE 侵權。
想必大家能看出來,法院判定結果並不是單純看有沒有違背robots 協議,最主要還得看這個 robots 協議合不合理。
同樣,還有個例子也證明了這點。
大部分人都知道 3Q 大戰,但可能沒聽過 360 和百度的“ 3B 大戰 ”。
2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內容 ( 百度知道,貼吧 )並以快照的形式提供給用戶。
但是,百度的 robots 協議寫明了只有部分搜索引擎可以抓取,當中沒包括 360 搜索。
也就是說 360 違背了百度 robots 協議。
圖源百度百科 ▼
後來百度想了一個法子,只要在 360 搜索中搜到百度相關網站,點擊后就會跳轉到百度搜索引擎網站。
再到後來他們鬧上了法庭。
這件事去年才算正式結案,判決書大概有一萬多字吧,可看了好一會。
不管是 360 把百度快照提供給用戶,還是百度的跳轉措施,這些操作法院都進行了相應的判決,但是跟我們文章沒太大關係。
只在這裡說下: 對於 360 搜索違背百度 robots 協議的抓取行為,是怎麼判定的。
首先 360 在 2012 年 8 月違背 robots 協議是有不合理在先,但是同年 11 月發布了《 自律條約 》。
條約可是規定了 robots 協議限制搜索引擎 得有正當理由 :比如為了保護敏感信息、公眾利益或者維持網站正常運行。
但百度限制 360 搜索抓取的內容,既不是重要敏感信息,被抓取了也不會讓百度不能運行了或者損害了公共利益。 。
這就可以判定百度沒有正當理由拒絕 360 抓取, 360 的抓取行為也並非不正當競爭行為。
所以啊, 不是寫了 robots 協議就一定在理,你這個協議首先得合理才行。
但關鍵是,這個合理的界限有時候不是很好定。
比如現在不少互聯網公司用 robots 協議阻止搜索引擎收錄,限制了信息分享。
你說他們是在合理設置 robots 也沒錯,畢竟是為了保護自己的數據權益。
但這是不是和互聯網的初衷背道而馳了呢。
就拿自己經歷來講。
之前寫個反詐騙的文章,百度查了大半天資料不夠,差點放棄。後來在微信里搜,才在一家公眾號文章上找到相關資料。最後要找視頻作為動圖素材,我又跑去短視頻平台。
要知道曾幾何時,我們明明可以很輕易的查詢到信息,現在因為各大網站的 robots 協議變成了如此困難。
更諷刺的是, robots 協議原本做出來只是為了提高爬蟲效率,更好地促進信息流動的。
這是不是有點變味了。