扒一扒搜索结果镜像站套路-奇点seo

当前位置：谷歌seo SEO知识扒一扒搜索结果镜像站套路

公众号开一期专题，扒各种SEO黑套路。

上礼拜录了一期从5118搜罗黑帽站点，并现场扒套路的视频，由于站点内容太过火爆，上传哔哩哔哩被警告了，新生UP主的道路不能就此打断，后面得老实一些。

有一类程序，不知道准确的应该叫啥，你要是搜索引擎的深度使用者，应该都见过，融合了小偷程序、繁殖程序、蜘蛛池的特点，我们姑且叫“搜索结果镜像站”

比如曾经红极一时的“火端搜索”，还有seowhy吴星同学开发的一套百度F系参数的工具，都被各种黑SEO玩坏了，搞出许多收录近亿的站点。

典型的网站界面长这样：

我们拍脑门，想一下这类程序的原理。

一般首页会有一堆词：

这些词一定是随机的，从mysql中调取的，但mysql里可能没有对应的内容，也可能有对应的内容。

当请求其中一个关键词的链接，程序会去mysql中找这个词对应的内容是否存在

--> 如果不存在，则去指定网站（比如百度搜索、头条搜索...），抓取该词的搜索结果，或其他内容（如相关搜索词）

经过一系列处理（删除广告、冗余代码、格式化、删除特征符......）后，写入mysql，再调出对应的内容

--> 如果存在，则调出对应的内容

之后跳转到列表页：

比如点击的关键词是“seo”，那么列表页展现的都是某个网站关于“seo”的搜索结果

相关词，也是关于“seo”的相关词。那么这些相关词在mysql里有对应的内容吗？也没有，也需要通过请求触发去抓取对应的内容，之后在入库。

所以，这个程序，说它是镜像镜像，因为确实是抓取了其他站点的内容，然后展现在自己的站点上，代码层面会有变更，但正文是一样的

说他是繁殖程序，因为每入库一个关键词，都会同时生成N个相关词，入库的关键词越多，页面量越大，几何倍增长

说他是蜘蛛池程序，因为spider在每个页面都会发现新的相关词链接

再次拍脑门，除了以上还需要其他功能：

1）对爬虫性能有一定要求，如果频繁请求未入库的关键词链接，可能会被采集源网站封掉，需要做防ban措施

2）关键词入库前，需要过滤不符合社会主义核心价值观的词汇，以防止被相关部门找上

3）采集源的源码可能会更改，导致关键词内容采集失效，造成大量空页面。所以需要设置实时监控，第一时间更新爬虫代码。对已入库，但无内容的关键词，进行update

4）内容重复。比如抓百度的搜索结果，让百度去抓，理论上效果应该受限，内容源优先选择把baiduspider禁掉的，或者baiduspider抓不到的（比如APP）

关注公众号，免费刷快排。

转载请说明出处
奇点seo » 扒一扒搜索结果镜像站套路

分享到：

扒一扒搜索结果镜像站套路