将本站设为首页
收藏心态官网,记住:www.xtxyjx.net
账号:
密码:

心态书屋:看啥都有、更新最快

心态书屋:www.xtxyjx.net

如果你觉得好,恳请收藏

您当前的位置:心态书屋 -> 此生应无憾 -> 第279章 未雨绸缪

第279章 未雨绸缪

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

盛在国内面对的搜索引擎除了自家的寻知,就剩下百度,未来可能会有360搜索引擎,如果自己没来得及彻底剿灭周教主的话。

不论是百度搜索引擎还是360搜素引擎,在陆道升看来都不是什么好鸟,提前防范一下很有必要。

要提供搜索引擎服务,需要解决数据的搜集和数据的组织两个大问题。

其中数据的搜集即指的是使用爬虫来对互联网网站内容进行爬取,搜集到自家的后台中。

数据的组织即如何将爬取下的海量数据进行处理,以使得用户能通过搜索快速获得高相关性的结果。

陆道升要提前做好针对准备的就是百度的数据搜集过程,即通过反爬虫机制来限制百度对嘉盛旗下网站的内容爬取。

这并不是对百度的进攻性策略,而是一种自保的防御手段。

前世曾爆出国内某搜索引擎大量采用快照的形式来承接用户的点击跳转,大量屏蔽了用户对原网站的访问的事件。

快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。

但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。

也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。

这么干不是不行,可以采取robots协议实现。

简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署xt文件,告知搜索引擎的爬虫哪些内容不应被爬取。

即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。

但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。

中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。

如果网站的拥有者还希望网站能被人们访问到的话,就只能乖乖接受搜索引擎的爬取,并祈祷搜索引擎公司足够讲道理,不过分使用快照等方式进行截流。

其实robots协议里存在白名单的机制,看上去嘉盛可以只允许自家的搜索引的爬虫


  本章未完,请点击下一页继续阅读!

看了《此生应无憾》的书友还喜欢看

小说世界的路人重生了
作者:Loeva
简介: 在这个小说世界里薛绿只是不起眼的路人每日旁观着主角们的爱恨情仇有一天,世界崩溃重来路...
更新时间:2026-03-04 21:00:00
最新章节:第三百一十一章 新发现
我在唐朝当神仙
作者:青木有信
简介: “弟子李白,愿随仙人学仙问道,真心不悔!”

“丹丘生,孟夫...
更新时间:2026-03-04 21:00:00
最新章节:第555章 岑参开始打听(+3)
儒道至上?我在异界背唐诗!
作者:张亦安
简介: 汉语言专业大学生词宋穿越异界,来到了一个儒道之上的奇特世界,在这里,只有文人才能掌控...
更新时间:2026-03-04 21:13:28
最新章节:第 1876 章 帝子危
咸鱼娇妾太撩人,禁欲太子沦陷了
作者:冬瓜是瓜
简介: 沈知穿成了太子府里的一名侍妾,还绑定了一个重生系统,只要攻略太子成为他此生的挚爱,任...
更新时间:2026-03-04 20:58:00
最新章节:第158章 :撤兵
喀什的云朵
作者:乱世TICH
简介: 一场追逐诗和远方的

“逃离”,却让陈风邂逅了生命中最美丽的...
更新时间:2026-03-04 20:36:01
最新章节:第一百三十章 红色玫瑰
有帝族背景还开挂,我无敌了!
作者:不太勇敢
简介: 【爽文+无敌+专干天命之子+行事无所顾忌】

帝族一怒,浮尸...
更新时间:2026-03-04 21:02:08
最新章节:第一卷 第1469章 欢迎进入地狱,被盯上了