龙行博客

走路看风景,经历看人生,岁月留痕迹,人生留轨迹,17的历史,18的豪情,时间的匆忙,人生的风景,放开心胸往前走,成功再远行,放开理想往前走,梦想再行动。
现在位置:首页 > 编程语言 > Python > scrapy_redis分布式爬虫配置详情

scrapy_redis分布式爬虫配置详情

龙行    Python    2019-9-4    55    0评论    本文已被百度收录点击查看详情

配置scrapy_redis要先安装

pip install scrapy_redis

爬虫文件引入

from scrapy_redis.spiders from RedisSpider
from scrapy_redis.spiders from RedisCrawlSpider   #CrawlSpider模块 引入

爬虫类继承

class xxxSpider(RedisSpider):

配置redis_key

class MvSpider(RedisSpider):
    name = 'lg'
    allowed_domains = ['lagou.com']
    # start_urls = ['https://www.lagou.com']
    # 这个key是为了后面在redis中控制爬虫启动的,爬虫的第一个url就是在redis通过这个发送出去的
    redis_key = "xxx:start_urls"    #配置redis后就会去redis当中读取这个xxx名字的start_urls

配置文件配置

"""
    # Scrapy_redis相关配置
    # 确保request存储到redis中
    SCHEDULER = "scrapy_redis.scheduler.Scheduler"
    
    # 确保所有爬虫共享相同的去重指纹
    DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
    
    # 设置redis为item pipeline 数据爬出来都会放在这个pipeline上共享
    ITEM_PIPELINES = {
       'scrapy_redis.pipelines.RedisPipeline': 300,  
    }
    
    # 在redis中保持scrapy_redis用到的队列,不会qingli8redis中的队列,从而可以实现暂停和回复功能
    SCHEDULER_PERSIST = True
    
    # 设置连续redis服务器信息   redis服务器   爬虫服务器1  爬虫服务器2
    REDIS_HOST = '127.0.0.1' #redis服务器IP地址
    REDIS_PORT = 6379
"""

启动redis服务器1的redis

  1. 连接进入redis-cli     127.0.0.1:6379>   #也就是这个位置然后下一步

  2. 进入爬虫服务器运行scrapy爬虫

scrapy runspider xxx.py    #记住 这里不是爬虫的name了,而是爬虫文件名字

上一步执行完会爬虫等待

  3.进入redis服务器redis-cli界面 输入

lpush xxx:start_urls       #这里的list key就是上面设置的redis_key

最后就可以进入redis查看数据

评论一下 分享本文 赞助站长

赞助站长X

扫码赞助站长
联系站长
龙行博客
  • 版权申明:此文如未标注转载均为本站原创,自由转载请表明出处《龙行博客》。
  • 本文网址:https://www.liaotaoo.cn/298.html
  • 上篇文章:scrapy将windows安装所需包转移到centos7
  • 下篇文章:centos7配置redis开机自启动
  • python3 scrapy
挤眼 亲亲 咆哮 开心 想想 可怜 糗大了 委屈 哈哈 小声点 右哼哼 左哼哼 疑问 坏笑 赚钱啦 悲伤 耍酷 勾引 厉害 握手 耶 嘻嘻 害羞 鼓掌 馋嘴 抓狂 抱抱 围观 威武 给力
提交评论

清空信息
关闭评论
快捷导航
联系博主
在线壁纸
给我留言
光羽影视
音乐欣赏
返回顶部