扒一扒搜索结果镜像站套路

公众号开一期专题,扒各种SEO黑套路。

上礼拜录了一期从5118搜罗黑帽站点,并现场扒套路的视频,由于站点内容太过火爆,上传哔哩哔哩被警告了,新生UP主的道路不能就此打断,后面得老实一些。

有一类程序,不知道准确的应该叫啥,你要是搜索引擎的深度使用者,应该都见过,融合了小偷程序、繁殖程序、蜘蛛池的特点,我们姑且叫“搜索结果镜像站”

比如曾经红极一时的“火端搜索”,还有seowhy吴星同学开发的一套百度F系参数的工具,都被各种黑SEO玩坏了,搞出许多收录近亿的站点。

典型的网站界面长这样:

我们拍脑门,想一下这类程序的原理。

一般首页会有一堆词:

这些词一定是随机的,从mysql中调取的,但mysql里可能没有对应的内容,也可能有对应的内容。

当请求其中一个关键词的链接,程序会去mysql中找这个词对应的内容是否存在

--> 如果不存在,则去指定网站(比如百度搜索、头条搜索...),抓取该词的搜索结果,或其他内容(如相关搜索词)

经过一系列处理(删除广告、冗余代码、格式化、删除特征符......)后,写入mysql,再调出对应的内容

--> 如果存在,则调出对应的内容

之后跳转到列表页:

比如点击的关键词是“seo”,那么列表页展现的都是某个网站关于“seo”的搜索结果

相关词,也是关于“seo”的相关词。那么这些相关词在mysql里有对应的内容吗?也没有,也需要通过请求触发去抓取对应的内容,之后在入库。

所以,这个程序,说它是镜像镜像,因为确实是抓取了其他站点的内容,然后展现在自己的站点上,代码层面会有变更,但正文是一样的

说他是繁殖程序,因为每入库一个关键词,都会同时生成N个相关词,入库的关键词越多,页面量越大,几何倍增长

说他是蜘蛛池程序,因为spider在每个页面都会发现新的相关词链接

再次拍脑门,除了以上还需要其他功能:

1)对爬虫性能有一定要求,如果频繁请求未入库的关键词链接,可能会被采集源网站封掉,需要做防ban措施

2)关键词入库前,需要过滤不符合社会主义核心价值观的词汇,以防止被相关部门找上

3)采集源的源码可能会更改,导致关键词内容采集失效,造成大量空页面。所以需要设置实时监控,第一时间更新爬虫代码。对已入库,但无内容的关键词,进行update

4)内容重复。比如抓百度的搜索结果,让百度去抓,理论上效果应该受限,内容源优先选择把baiduspider禁掉的,或者baiduspider抓不到的(比如APP)


关注公众号,免费刷快排。
转载请说明出处
奇点seo » 扒一扒搜索结果镜像站套路

发表评论

欢迎 访客 发表评论

让流量从这里暴涨!

查看演示 官网购买