记录Scrapy的一些坑-奇点seo

当前位置：谷歌seo SEO知识记录Scrapy的一些坑

最近友情转载了两篇文章，发现一个神奇的事情，存在不小比例的人，分不清公众号的原创和转载

最近在搞一套抓自媒体的增量爬虫，包含UC、头条、百家、企鹅、搜狐、微信.....还有一些港台媒体，每天凌晨自动抓前一天的内容

规模较大，需求是最低成本的解决爬虫自动化的问题。

经过一番折腾，暂时不考虑云服务器抓取，因为不划算。

自媒体内容，经常出现一篇文章配10个左右图片，所以每天下载图片约为几十G，文本内容2G左右，合计一天需要几十G的下载量，图片存储七牛，还有几十G的上传量，1M带宽服务器理论下载速度125/kb，完全不够用。

多个spider同时开启，内存和CPU消耗也大。所以云服务器怎么着也得“4核10M带宽8G内存”这种配置才带得动吧，一年费用1万上下。还不如买个笔记本放家里跑，家里带宽还500M的...

所以拿了一台二手联想win7，4G内存的笔记本当爬虫机。用scrapy做的爬虫，过程中遇到如下几个坑：

1）内存占用

同时运行3个spider，出现内存溢出程序崩溃的情况。win7启动时，4G内存已经用去2G，运行不到20分钟，剩余2G内存被scrapy快速吃掉。

因为同时运行3个spider，scrapy的设计为了保证运行速度，抓取url存在request，而request又写在内存，时间一长，抓取url多，这点内存就爆了。

解决方法是：

scrapy crawl dayu -s JOBDIR=F:myspiderdayu

启动scrapy加上JOBDIR参数，将request写在硬盘而非内存。

其实加上JOBDIR内存也在涨，只不过较之前增长缓慢很多，可能除了request，还存在不同parse间传递meta持续累积没有释放，导致吃内存，只不过传递的都是一个很短的字符串、分类id啥的，占用几个字节，忽略了。

2）执行顺序

抓多个自媒体，需要使用队列来控制不同spider抓取的先后顺序。我当然想同时抓，谁叫二手笔记本配置渣，带不动呢。

试了几个scrapy管理框架，scrapydweb啥的，没整明白。还不如shell控制来的方便，适合小白

win7似乎能用bat吊起cmd执行shell脚本，如果能实现，则可以设置定时任务，每天0点1分0秒，执行这个bat，笔记本保持24小时开机，自动化，美滋滋

3）setting设置

不同spider需要不同的爬取规则，比如有的开5线程，有的开3线程，有的需要代理，有的不需要，有的需要数据写入远程mysql，有的需要写入本地文件

settings.py中的规则，是全局规则，假设有5个spider，其中只有1个需要代理，如果5个spider都继承setting.py的设置，则运行5个spider都会调用代理，那么钱就白花了。

解决是在spider自定义setting规则，来覆盖掉setting.py中的规则。

4）headers和cookie

不同spider可能需要不同的headers，因为有些抓取目标对headers是有单独的格式的，也需要在spider中自定义headers，而不通过setting.py或middlewares.py来设置

此外，在scrapy中headers里面加入cookie是无效的，cookie需要单独传参

5）MYSQL_CHARSET

setting.py的MYSQL_CHARSET设置utf8mb4，要不emjoy等特殊符号写不进去。

关注公众号，免费刷快排。

转载请说明出处
奇点seo » 记录Scrapy的一些坑

分享到：

记录Scrapy的一些坑