高级深入--day37

手机App抓包爬虫

1. items.py


class DouyuspiderItem(scrapy.Item):
    name = scrapy.Field()# 存储照片的名字
    imagesUrls = scrapy.Field()# 照片的url路径
    imagesPath = scrapy.Field()# 照片保存在本地的路径

2. spiders/douyu.py


import scrapy
import json
from douyuSpider.items import DouyuspiderItem
 
class DouyuSpider(scrapy.Spider):
    name = "douyu"
    allowd_domains = ["http://capi.douyucdn.cn"]
 
    offset = 0
    url = "http://capi.douyucdn.cn/api/v1/getVerticalRoom?limit=20&offset="
    start_urls = [url + str(offset)]
 
  def parse(self, response):
      # 返回从json里获取 data段数据集合
      data = json.loads(response.text)["data"]
 
      for each in data:
          item = DouyuspiderItem()
          item["name"] = each["nickname"]
          item["imagesUrls"] = each["vertical_src"]
 
          yield item
 
      self.offset += 20
      yield scrapy.Request(self.url + str(self.offset), callback = self.parse)

3. 设置setting.py


 
ITEM_PIPELINES = {'douyuSpider.pipelines.ImagesPipeline': 1}
 
# Images 的存放位置，之后会在pipelines.py里调用
IMAGES_STORE = "/Users/Power/lesson_python/douyuSpider/Images"
 
# user-agent
USER_AGENT = 'DYZB/2.290 (iPhone; iOS 9.3.4; Scale/2.00)'

4. pipelines.py


import scrapy
import os
from scrapy.pipelines.images import ImagesPipeline
from scrapy.utils.project import get_project_settings
 
class ImagesPipeline(ImagesPipeline):
    IMAGES_STORE = get_project_settings().get("IMAGES_STORE")
 
    def get_media_requests(self, item, info):
        image_url = item["imagesUrls"]
        yield scrapy.Request(image_url)
 
    def item_completed(self, results, item, info):
        # 固定写法，获取图片路径，同时判断这个路径是否正确，如果正确，就放到 image_path里，ImagesPipeline源码剖析可见
        image_path = [x["path"] for ok, x in results if ok]
 
        os.rename(self.IMAGES_STORE + "/" + image_path[0], self.IMAGES_STORE + "/" + item["name"] + ".jpg")
        item["imagesPath"] = self.IMAGES_STORE + "/" + item["name"]
 
        return item
 
#get_media_requests的作用就是为每一个图片链接生成一个Request对象，这个方法的输出将作为item_completed的输入中的results，results是一个元组，每个元组包括(success, imageinfoorfailure)。如果success=true，imageinfoor_failure是一个字典，包括url/path/checksum三个key。

在项目根目录下新建main.py文件,用于调试


from scrapy import cmdline
cmdline.execute('scrapy crawl douyu'.split())

执行程序

py2 main.py

相关阅读:
地球重力场模型EGM2008使用教程及软件
跟我学c++中级篇——类型擦除
大学四年庸庸碌碌，我弯道超车上了软件测试
【Python • 项目实战】pytesseract+pyqt实现图片识别软件小项目——（一）创建项目和画界面
面向6G的大规模MIMO通信感知一体化：现状与展望
2021CCPC新疆省赛题解BDEFGHIJK
【每日一题】768. 最多能完成排序的块 II
C++ 11智能指针详解和使用
构建全面预算体系，加强企业风险管理
RT-Thread Hoist_Motor PID

原文地址：https://blog.csdn.net/qq_41813416/article/details/133932587