scrapy_redis分布式爬虫配置详情
配置scrapy_redis要先安装
pip install scrapy_redis
爬虫文件引入
from scrapy_redis.spiders from RedisSpider from scrapy_redis.spiders from RedisCrawlSpider #CrawlSpider模块 引入
爬虫类继承
class xxxSpider(RedisSpider):
配置redis_key
class MvSpider(RedisSpider): name = 'lg' allowed_domains = ['lagou.com'] # start_urls = ['https://www.lagou.com'] # 这个key是为了后面在redis中控制爬虫启动的,爬虫的第一个url就是在redis通过这个发送出去的 redis_key = "xxx:start_urls" #配置redis后就会去redis当中读取这个xxx名字的start_urls
配置文件配置
""" # Scrapy_redis相关配置 # 确保request存储到redis中 SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 确保所有爬虫共享相同的去重指纹 DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 设置redis为item pipeline 数据爬出来都会放在这个pipeline上共享 ITEM_PIPELINES = { 'scrapy_redis.pipelines.RedisPipeline': 300, } # 在redis中保持scrapy_redis用到的队列,不会qingli8redis中的队列,从而可以实现暂停和回复功能 SCHEDULER_PERSIST = True # 设置连续redis服务器信息 redis服务器 爬虫服务器1 爬虫服务器2 REDIS_HOST = '127.0.0.1' #redis服务器IP地址 REDIS_PORT = 6379 """
启动redis服务器1的redis
连接进入redis-cli 127.0.0.1:6379> #也就是这个位置然后下一步
进入爬虫服务器运行scrapy爬虫
scrapy runspider xxx.py #记住 这里不是爬虫的name了,而是爬虫文件名字
上一步执行完会爬虫等待
3.进入redis服务器redis-cli界面 输入
lpush xxx:start_urls #这里的list key就是上面设置的redis_key
最后就可以进入redis查看数据
- 版权申明:此文如未标注转载均为本站原创,自由转载请表明出处《龙行博客》。
- 本文网址:https://www.liaotaoo.cn/298.html
- 上篇文章:scrapy将windows安装所需包转移到centos7
- 下篇文章:centos7配置redis开机自启动