-
Django数据迁移
Python 09-17 2674浏览 0评论django版本2.2.x版本,py版本为3.7版本创建django项目django-admin startproject mysite主要文件:manage.py Django项目里面的工具,通过它可以调用django shell和数据库等settings.py 项目默认设置,数据库信息,调试以及其它共组偶变量urls.py&nbs
-
推荐一个好用的ip代理池
Python 09-10 3114浏览 0评论地址: https://github.com/Germey/ProxyPoolProxyPool此代理池在获取IP的时候使用了pop方法一次性使用,如果是想多次可用可以移步优化后的代理池:https://github.com/Python3WebSpider/ProxyPool,推荐使用。安装安装Python至少Python3.5以上安装Redis安装好之后将Redis服务开启配置代理池cd&nb
-
scrapy请求与响应
Python 09-06 2160浏览 0评论Request对象:一个Request对象代表着一个HTTP请求,通常在Spider类中产生,然后传递给下载器,最后返回一个响应类原型:class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8', priority=0,
-
scrapy内置图片和文件下载
Python 09-06 3175浏览 0评论前面的文章写过一个图片下载,打宝石看到了更好的那肯定要记录下item Pipeline提供了一些可以重用的Pipeline,其中有filesPipeline和imagesPipeline,他们都实现了以下特性:避免重新下载最近已经下载过的数据指定存储的位置和方式此外,imagesPipeline还提供了二位的特性:将所有下载的图片转换成通用的格式(jpg)和模式(rgb)粗略图生成检测图像的宽/高
-
python:cookie转字典
Python 09-05 2852浏览 0评论class transCookie: def __init__(self, cookie): self.cookie = cookie
-
scrapy将windows安装所需包转移到centos7
Python 09-04 2204浏览 0评论写爬虫都是在windows上面,如果要转移到linux上面去跑,那windows安装过的包就得重新一条一条再去安装一遍,特别麻烦,所以我们现在用一下方式:windows上面cmd进入项目文件下面执行pip freeze > requirements.txt上面这串命令会在dangqi8an项目下面生成一个.txt文件,里面包含当前项目所有所用到的包,如下然后进入
-
scrapy_redis分布式爬虫配置详情
Python 09-04 2487浏览 0评论配置scrapy_redis要先安装pip install scrapy_redis爬虫文件引入from scrapy_redis.spiders from RedisSpider from scrapy_redis.spiders from RedisCrawlSpider #Cr
-
scrapy爬取mzitu美女图片
Python 08-31 2752浏览 0评论scrapy爬取的美女图片,demo保存下吧先设置itemitems.py# -*- coding: utf-8 -*- # Define here the models for your scraped items # # See document
-
scrapy使用快代理独享代理池
Python 08-29 2729浏览 0评论import base64 class IPProxyDownloadMiddleware(object): def process_request(self, request, spider): p
-
scrapy实现ip代理池
Python 08-29 3030浏览 0评论需要在ip代理网站爬取有用的ip保存在数据库中import requests from scrapy.selector import Selector import pymysql conn = pymysql.connect(host = '127.0.0.1', use
-
scrapy设置ip代理池
Python 08-28 2628浏览 0评论如果想稳定还是去什么快代理或者class IpDownloadMiddleware(object): # 随便写的 PROXIES_S = [ "0.0
-
scrapy设置随机请求头
Python 08-28 3091浏览 0评论为了更好的伪装浏览器,不被干掉,所以我们的设置随机请求头,免得被服务器发现干掉中间件# 好用的请求头网站 import random class UserAgentDownloadMiddleWare(object): USER_AGENTS =&n
-
scrapy发送post请求
08-28 2521浏览 0评论有时候我们在执行任务的时候需要发送post请求(比如模拟登陆),那么这时候就需要使用到Request的子类FromRequest来实现,如果想要爬虫在一开始的时候就发送post请求,那么就需要在爬虫类中重写start_requests(self)方法,并且不再抵用start_urls里面的url,如果不重写start_requests(self)那么爬虫会自动获取start_urls里面的url,
-
scrapy通过Pipeline讲数据保存成json文件
Python 08-28 2626浏览 0评论使用Pipe之前数据必须经过item编写管道from scrapy.exporters import JsonItemExporter # from scrapy.exporters import JsonLinesItemExporter class JsonPipeline(object):
-
scrapy拼接url
Python 08-28 2354浏览 0评论做个记录先引入parsefrom urllib import parse然后再下一页的时候或者其它地方使用scrapy.Request(url=parse.urljoin(response.url, next_url), callback=self.parse)