Wang's blog Wang's blog
首页
  • 前端文章

    • HTML教程
    • CSS
    • JavaScript
  • 前端框架

    • Vue
    • React
    • VuePress
    • Electron
  • 后端技术

    • Npm
    • Node
    • TypeScript
  • 编程规范

    • 规范
  • 我的笔记
  • Git
  • GitHub
  • VSCode
  • Mac工具
  • 数据库
  • Google
  • 服务器
  • Python爬虫
  • 前端教程
更多
收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Wang Mings

跟随大神,成为大神!
首页
  • 前端文章

    • HTML教程
    • CSS
    • JavaScript
  • 前端框架

    • Vue
    • React
    • VuePress
    • Electron
  • 后端技术

    • Npm
    • Node
    • TypeScript
  • 编程规范

    • 规范
  • 我的笔记
  • Git
  • GitHub
  • VSCode
  • Mac工具
  • 数据库
  • Google
  • 服务器
  • Python爬虫
  • 前端教程
更多
收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • Python爬虫

    • 爬虫的基础知识

    • 请求的发送方法

    • 数据提取方法

      • 数据提取的概念和数据分类
        • 数据提取之json
        • 数据提取之正则
        • 数据提取之xpath
        • 数据提取之lxml
        • 数据提取之beautifulsoup
        • 小结
      • 高性能爬虫

      • selenium

      • 反爬以及解决方案

      • MONGODB数据库

      • scrapy框架

      • scrapy_redis

      • 爬虫的部署

      • 爬虫框架开发分析

      • 框架雏形实现

      • 框架功能完善

      • 框架功能升级

      • 项目实战

      • pywin32介绍

    • 前端教程

    • 教程
    • Python爬虫
    • 数据提取方法
    wangmings
    2022-07-19
    目录

    数据提取的概念和数据分类

    # 数据提取的概念和数据的分类

    # 学习目标

    了解 爬虫的数据的分类


    # 1 爬虫中数据的分类

    在爬虫爬取的数据中有很多不同类型的数据,我们需要了解数据的不同类型来又规律的提取和解析数据.

    • 结构化数据:json,xml等
      • 处理方式:直接转化为python类型
    • 非结构化数据:HTML
      • 处理方式:正则表达式、xpath

    下面以今日头条的首页为例,介绍结构化数据和非结构化数据

    • 结构化数据例子:

    • 非结构化数据:

    • XML数据:
    <bookstore>
    <book category="COOKING">
      <title lang="en">Everyday Italian<!--</span-->title> 
      <author>Giada De Laurentiis<!--</span-->author> 
      <year>2005<!--</span-->year> 
      <price>30.00<!--</span-->price> 
    <!--</span-->book>
    <book category="CHILDREN">
      <title lang="en">Harry Potter<!--</span-->title> 
      <author>J K. Rowling<!--</span-->author> 
      <year>2005<!--</span-->year> 
      <price>29.99<!--</span-->price> 
    <!--</span-->book>
    <book category="WEB">
      <title lang="en">Learning XML<!--</span-->title> 
      <author>Erik T. Ray<!--</span-->author> 
      <year>2003<!--</span-->year> 
      <price>39.95<!--</span-->price> 
    <!--</span-->book>
    <!--</span-->bookstore> 
    
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20

    从上面可以看出,xml数据也是结构非常明显的


    # 小结

    1. 爬虫中数据分类之结构化数据: json,xml
    2. 爬虫中数据分类之非结构化数据:Html,字符串
    3. 结构化数据处理的方式有:jsonpath,xpath,转换python类型处理,bs4
    4. 非结构化数据处理方式有:正则表达式,xpath,bs4
    编辑 (opens new window)
    小结
    数据提取之json

    ← 小结 数据提取之json→

    最近更新
    01
    theme-vdoing-blog博客静态编译问题
    09-16
    02
    搜索引擎
    07-19
    03
    友情链接
    07-19
    更多文章>
    Theme by Vdoing | Copyright © 2019-2022 Evan Xu | MIT License
    • 跟随系统
    • 浅色模式
    • 深色模式
    • 阅读模式