公众号开一期专题,扒各种SEO黑套路。
上礼拜录了一期从5118搜罗黑帽站点,并现场扒套路的视频,由于站点内容太过火爆,上传哔哩哔哩被警告了,新生UP主的道路不能就此打断,后面得老实一些。
有一类程序,不知道准确的应该叫啥,你要是搜索引擎的深度使用者,应该都见过,融合了小偷程序、繁殖程序、蜘蛛池的特点,我们姑且叫“搜索结果镜像站”
比如曾经红极一时的“火端搜索”,还有seowhy吴星同学开发的一套百度F系参数的工具,都被各种黑SEO玩坏了,搞出许多收录近亿的站点。
典型的网站界面长这样:
我们拍脑门,想一下这类程序的原理。
一般首页会有一堆词:
这些词一定是随机的,从mysql中调取的,但mysql里可能没有对应的内容,也可能有对应的内容。
当请求其中一个关键词的链接,程序会去mysql中找这个词对应的内容是否存在
--> 如果不存在,则去指定网站(比如百度搜索、头条搜索...),抓取该词的搜索结果,或其他内容(如相关搜索词)
经过一系列处理(删除广告、冗余代码、格式化、删除特征符......)后,写入mysql,再调出对应的内容
--> 如果存在,则调出对应的内容
之后跳转到列表页:
比如点击的关键词是“seo”,那么列表页展现的都是某个网站关于“seo”的搜索结果
相关词,也是关于“seo”的相关词。那么这些相关词在mysql里有对应的内容吗?也没有,也需要通过请求触发去抓取对应的内容,之后在入库。
所以,这个程序,说它是镜像镜像,因为确实是抓取了其他站点的内容,然后展现在自己的站点上,代码层面会有变更,但正文是一样的
说他是繁殖程序,因为每入库一个关键词,都会同时生成N个相关词,入库的关键词越多,页面量越大,几何倍增长
说他是蜘蛛池程序,因为spider在每个页面都会发现新的相关词链接
再次拍脑门,除了以上还需要其他功能:
1)对爬虫性能有一定要求,如果频繁请求未入库的关键词链接,可能会被采集源网站封掉,需要做防ban措施
2)关键词入库前,需要过滤不符合社会主义核心价值观的词汇,以防止被相关部门找上
3)采集源的源码可能会更改,导致关键词内容采集失效,造成大量空页面。所以需要设置实时监控,第一时间更新爬虫代码。对已入库,但无内容的关键词,进行update
4)内容重复。比如抓百度的搜索结果,让百度去抓,理论上效果应该受限,内容源优先选择把baiduspider禁掉的,或者baiduspider抓不到的(比如APP)
关注公众号,免费刷快排。
奇点seo » 扒一扒搜索结果镜像站套路