将本站设为首页
收藏心态官网,记住:www.xtxyjx.net
账号:
密码:

心态书屋:看啥都有、更新最快

心态书屋:www.xtxyjx.net

如果你觉得好,恳请收藏

您当前的位置:心态书屋 -> 此生应无憾 -> 第279章 未雨绸缪

第279章 未雨绸缪

温馨提示:如果本章属于内容错误等情况,请点击下面的按钮发送报告,我们会在一分钟内纠正,谢谢

盛在国内面对的搜索引擎除了自家的寻知,就剩下百度,未来可能会有360搜索引擎,如果自己没来得及彻底剿灭周教主的话。

不论是百度搜索引擎还是360搜素引擎,在陆道升看来都不是什么好鸟,提前防范一下很有必要。

要提供搜索引擎服务,需要解决数据的搜集和数据的组织两个大问题。

其中数据的搜集即指的是使用爬虫来对互联网网站内容进行爬取,搜集到自家的后台中。

数据的组织即如何将爬取下的海量数据进行处理,以使得用户能通过搜索快速获得高相关性的结果。

陆道升要提前做好针对准备的就是百度的数据搜集过程,即通过反爬虫机制来限制百度对嘉盛旗下网站的内容爬取。

这并不是对百度的进攻性策略,而是一种自保的防御手段。

前世曾爆出国内某搜索引擎大量采用快照的形式来承接用户的点击跳转,大量屏蔽了用户对原网站的访问的事件。

快照本来是搜索引擎为了应对一些网络连接或是网站失效等问题,将网站内容缓存在搜索引擎服务器上提供给用户,以保障用户搜索体验的方式。

但是刻意的滥用,就会变成对原网站的剥削吸血,用了你的内容还不给你流量,把流量带来的各类收益(例如业务推广、广告收入等)全部拦截。

也许有人会问,那既然这样,能不能就不让搜索引擎爬取网站内容,这样就没有快照,用户也只能来到网站进行访问。

这么干不是不行,可以采取robots协议实现。

简单来说,在搜索行业里存在一种robots协议,按照协议规范在网站的目录下部署xt文件,告知搜索引擎的爬虫哪些内容不应被爬取。

即便有robots协议,爬虫还是可以爬取网站内容,但是搜索引擎服务却不能将爬取到的内容进行展现,否则就可以直接去法院把搜索引擎公司告得灰头土脸。

但由于在PC互联网时代的中后期,搜索引擎就是最大的互联网流量入口,拥有互联网上最强大的话语权。

中小网站如果拒绝搜索引擎的爬取,其实和自绝于互联网没啥两样。

如果网站的拥有者还希望网站能被人们访问到的话,就只能乖乖接受搜索引擎的爬取,并祈祷搜索引擎公司足够讲道理,不过分使用快照等方式进行截流。

其实robots协议里存在白名单的机制,看上去嘉盛可以只允许自家的搜索引的爬虫


  本章未完,请点击下一页继续阅读!

看了《此生应无憾》的书友还喜欢看

四合院:截胡秦京茹后,我躺平了
作者:半山三叔
简介: 穿越四合院,陈飞只想躺平过日子。谁知绑定

“躺平人生系统”...
更新时间:2026-03-04 21:11:15
最新章节:第160章 二叔出现问题了
万人迷美人训狗手册【快穿】
作者:藻蓝椰子
简介: 【多男主+沉浸式+苏爽撩】\n桑泠是个坏女人,天使的长相纯黑的心。

更新时间:2026-03-04 21:03:28
最新章节:第723章 堂姐重生回来抢我人生46
我的心动老板娘
作者:火烧风
简介: 和穷人谈钱,和富人谈感情,不信邪的我被践踏的遍体鳞伤...直到老板娘出现,我才发现我...
更新时间:2026-03-04 21:05:00
最新章节:第一千五百四十七章 意外
柴刀流漫画大师
作者:神奇柠檬茶
简介: “哈?渣男?你们自愿的凭什么说我是渣男?”……坂本健重生东京,一周目,把现实当成恋爱...
更新时间:2026-03-04 20:33:31
最新章节:第273章 炎热夏日
怨我五年无所出,嫁你叔父我生一窝
作者:凯蒂
简介: 【先婚后爱+打脸虐渣+双洁+年上+甜宠+追妻火葬场】

除夕...
更新时间:2026-03-04 11:46:34
最新章节:端阳宴
开局被女总裁逼婚,婚后宠翻天
作者:宋魂
简介: 本书又名《女总裁与鬼手神医》,风趣幽默,也不乏人情世故、爱情与哲理。
更新时间:2026-03-04 21:26:36
最新章节:第六百六十三章、缅甸难题,我来解决