就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

前天看到一個帖子說, 在 Google 和 Bing 能搜到微信公眾號的文章了。怎麼可能。嚯,要這樣下去,在百度里搜微信文章是不是也快了?想必很多網友應該都挺期待這件事的。畢竟有時候搜資料,在百度和微信之間切來切去還挺麻煩的。誰想到還沒樂呵夠,騰訊馬上就闢謠了:

是公眾號的 robots 協議出現漏洞,讓搜索平台的爬蟲爬到了,現在已經修復了。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

嗐,搞半天白高興一場。

不過,今天還是想就這個 robots 協議和大家探討一下。

因為說起來你可能不信,我們在百度里前搜不到公眾號文章,后搜不到淘寶商品,都是因為 robots 協議。

robots 協議其實很簡單,就是一個放在網站根目錄的文本,它寫明了搜索引擎可以/不可以收錄哪些信息。

微信公眾號的 robots 協議 ▼

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

有人可能會說,原來就是這幾行字害得互聯網不能互聯了?

不不,這鍋 robots 協議可不背。

robots 協議原本只是幫助搜索引擎更高效地收錄信息,只不過現在人們用着用着逐漸變了味。

這事還得從上世紀 90 年代初期說起。

在搜索引擎誕生之前,人們要查資料,只能一個個進入相關網頁,效率非常低下。

後來有了搜索引擎,搜索引擎通過釋放網絡爬蟲( 也可以叫蜘蛛 ),抓取各個網頁里的信息,並把這些信息收錄起來供大家查詢,這才極大提高了人們的效率。

但是,那會爬蟲就跟小黑胖一樣,抓取信息來完全不挑食。

不管是沒用的垃圾信息,還是網站重要的內部數據,不分青紅皂白地一頓亂抓,全都要。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

這種粗暴的抓法不僅降低了用戶搜到有用信息的效率,還會讓網頁的重要數據泄露,服務器過載無法運行。

所以在 1994 年初,荷蘭有位網絡工程師提出了 robots 協議。

就好比賓館房間門上掛着的“ 請勿打擾 ”,“ 歡迎打掃 ”牌子,告訴阿姨哪些房間是可以打掃的。

每個網站的根目錄下也擺着一份 robots 協議,協議里告訴爬蟲:哪些東西你可以抓,哪些東西你不能抓。

雖說這個 robots 協議目前還沒被任何國際組織採納,沒有制約性,只能算個君子協議:你不聽,就不是個正人君子。

但它畢竟為了幫助搜索爬蟲 更有效地抓取對用戶有用的信息,更好促進信息共享。

所以在國外不管是早期的 altavista 還是後來的 Google 、必應,大家也都遵守着這一套協議。

同樣 2012 年 11 月中國互聯網協會發布了《 互聯網搜索引擎服務自律公約 》,也規定了:

搜索引擎要遵守網站的 robots 協議,但前提是 robots 協議是合理的。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

這個公約對 12 家發起單位生效,成員包括百度、騰訊、奇虎 360、搜狗、網易、新浪等。

圖源百度百科 ▼

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

如今絕大多數 搜索引擎的爬蟲在訪問網站時,第一件事就先讀下網站的 robots 協議。

在了解哪些信息是可以抓取之後,才會行動。

比如淘寶的 robots 協議,雖然只有簡單的 4 行字,但寫明了: 百度爬蟲 ( Baiduspider ) 不允許 ( Disallow ) 抓取任何內容 ( / )

百度爬蟲過來看到協議后,就算心裡難受,也只能啥也不碰馬上離開。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

那可能有人說,這既然是君子協議,會不會有人不當“ 君子 ”呢?

當然有,robots 協議只相當於一個告知書,爬蟲 ( 背後的人 )可以不聽你的。

和大家說兩個違背 robots 協議的例子。

第一個例子是 BE 和 eBay 的糾紛。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

BE 是一個提供拍賣信息的聚合網站。它利用爬蟲抓取 eBay 等拍賣網站的商品信息,然後放在自己網站上賺取流量。

儘管 eBay 早已寫好了 robots 協議,告訴 BE 爬蟲不準抓取任何內容。

但 BE 認為這類拍賣信息都是大眾上傳的,eBay 設置 robots 協議不讓自己抓取,不合理啊。

後來法院經過多方調查取證, 認為 ebay 網站上內容屬於私有財產,它用 robots 協議保護私有財產是合理的。

最後認定 BE 侵權。

想必大家能看出來,法院判定結果並不是單純看有沒有違背robots 協議,最主要還得看這個 robots 協議合不合理。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

同樣,還有個例子也證明了這點。

大部分人都知道 3Q 大戰,但可能沒聽過 360 和百度的“ 3B 大戰 ”。

2012 年 8 月 360 搜索剛上線,它抓取了百度旗下的內容 ( 百度知道,貼吧 )並以快照的形式提供給用戶。

但是,百度的 robots 協議寫明了只有部分搜索引擎可以抓取,當中沒包括 360 搜索。

也就是說 360 違背了百度 robots 協議。

圖源百度百科 ▼

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

後來百度想了一個法子,只要在 360 搜索中搜到百度相關網站,點擊后就會跳轉到百度搜索引擎網站。

再到後來他們鬧上了法庭。

這件事去年才算正式結案,判決書大概有一萬多字吧,可看了好一會。

不管是 360 把百度快照提供給用戶,還是百度的跳轉措施,這些操作法院都進行了相應的判決,但是跟我們文章沒太大關係。

只在這裡說下: 對於 360 搜索違背百度 robots 協議的抓取行為,是怎麼判定的。

首先 360 在 2012 年 8 月違背 robots 協議是有不合理在先,但是同年 11 月發布了《 自律條約 》。

條約可是規定了 robots 協議限制搜索引擎 得有正當理由 :比如為了保護敏感信息、公眾利益或者維持網站正常運行。

但百度限制 360 搜索抓取的內容,既不是重要敏感信息,被抓取了也不會讓百度不能運行了或者損害了公共利益。 。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

這就可以判定百度沒有正當理由拒絕 360 抓取, 360 的抓取行為也並非不正當競爭行為。

就因為微信誤刪了幾行字 公眾號文章能被別家搜到了?

所以啊, 不是寫了 robots 協議就一定在理,你這個協議首先得合理才行。

但關鍵是,這個合理的界限有時候不是很好定。

比如現在不少互聯網公司用 robots 協議阻止搜索引擎收錄,限制了信息分享。

你說他們是在合理設置 robots 也沒錯,畢竟是為了保護自己的數據權益。

但這是不是和互聯網的初衷背道而馳了呢。

就拿自己經歷來講。

之前寫個反詐騙的文章,百度查了大半天資料不夠,差點放棄。後來在微信里搜,才在一家公眾號文章上找到相關資料。最後要找視頻作為動圖素材,我又跑去短視頻平台。

要知道曾幾何時,我們明明可以很輕易的查詢到信息,現在因為各大網站的 robots 協議變成了如此困難。

更諷刺的是, robots 協議原本做出來只是為了提高爬蟲效率,更好地促進信息流動的。

這是不是有點變味了。

(0)
上一篇 2021-10-24 16:00
下一篇 2021-10-24 16:00

相关推荐