Wang's blog Wang's blog
首页
  • 前端文章

    • HTML教程
    • CSS
    • JavaScript
  • 前端框架

    • Vue
    • React
    • VuePress
    • Electron
  • 后端技术

    • Npm
    • Node
    • TypeScript
  • 编程规范

    • 规范
  • 我的笔记
  • Git
  • GitHub
  • VSCode
  • Mac工具
  • 数据库
  • Google
  • 服务器
  • Python爬虫
  • 前端教程
更多
收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Wang Mings

跟随大神,成为大神!
首页
  • 前端文章

    • HTML教程
    • CSS
    • JavaScript
  • 前端框架

    • Vue
    • React
    • VuePress
    • Electron
  • 后端技术

    • Npm
    • Node
    • TypeScript
  • 编程规范

    • 规范
  • 我的笔记
  • Git
  • GitHub
  • VSCode
  • Mac工具
  • 数据库
  • Google
  • 服务器
  • Python爬虫
  • 前端教程
更多
收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • Python爬虫

    • 爬虫的基础知识

    • 请求的发送方法

    • 数据提取方法

    • 高性能爬虫

    • selenium

    • 反爬以及解决方案

    • MONGODB数据库

    • scrapy框架

    • scrapy_redis

    • 爬虫的部署

      • scrapyd的使用
        • scrapyd的使用
          • 学习目标:
          • 1\. scrapyd的介绍
          • 2\. scrapyd的安装
          • 3\. 启动scrapyd服务
          • 4\. scrapy项目部署
          • 4.1 配置需要部署的项目
          • 4.2 部署项目到scrapyd
          • 4.3 管理scrapy项目
          • 5\. 了解scrapyd的其他webapi
          • 小结
      • pycharm发布代码
      • crontab实现定时任务
      • 小结
    • 爬虫框架开发分析

    • 框架雏形实现

    • 框架功能完善

    • 框架功能升级

    • 项目实战

    • pywin32介绍

  • 前端教程

  • 教程
  • Python爬虫
  • 爬虫的部署
wangmings
2022-07-19
目录

scrapyd的使用

# scrapyd的使用

# 学习目标:

1.了解 scrapyd的使用流程 了解


# 1. scrapyd的介绍

scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们

# 2. scrapyd的安装

scrapyd服务: pip3 install scrapyd

scrapyd客户端: pip3 install scrapyd-client

# 3. 启动scrapyd服务

  1. 在scrapy项目路径下 启动scrapyd的命令:sudo scrapyd 或 scrapyd

  2. 启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面

  • 点击job可以查看任务监控界面

# 4. scrapy项目部署

# 4.1 配置需要部署的项目

编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中,就配置该项目的该文件)

 [deploy:部署名(部署名可以自行定义)]
 url = http://localhost:6800/
 project = 项目名(创建爬虫项目时使用的名称) 
1
2
3

# 4.2 部署项目到scrapyd

同样在scrapy项目路径下执行:

scrapyd-deploy \-p 项目名称

部署成功之后就可以看到部署的项目

# 4.3 管理scrapy项目

  • 启动项目:curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name

  • 关闭爬虫:curl http://localhost:6800/cancel.json -d project=project_name -d job=jobid

# 5. 了解scrapyd的其他webapi

  • curl http://localhost:6800/listprojects.json (opens new window) (列出项目)
  • curl http://localhost:6800/listspiders.json?project=myspider (opens new window) (列出爬虫)
  • curl http://localhost:6800/listjobs.json?project=myspider (opens new window) (列出job)
  • curl http://localhost:6800/cancel.json (opens new window) -d project=myspider -d job=tencent (终止爬虫,该功能会有延时或不能终止爬虫的情况,此时可用kill -9杀进程的方式中止)
  • scrapyd还有其他webapi,百度搜索了解更多

# 小结

  1. 在scrapy项目路径下执行sudo scrapyd或scrapyd,启动scrapyd服务;或以后台进程方式启动nohup scrapyd > scrapyd.log 2>&1 &
  2. 部署scrapy爬虫项目scrapyd-deploy -p myspider
  3. 启动爬虫项目中的一个爬虫curl http://localhost:6800/schedule.json -d project=myspider -d spider=tencent
编辑 (opens new window)
小结
pycharm发布代码

← 小结 pycharm发布代码→

最近更新
01
theme-vdoing-blog博客静态编译问题
09-16
02
搜索引擎
07-19
03
友情链接
07-19
更多文章>
Theme by Vdoing | Copyright © 2019-2022 Evan Xu | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式