博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Web Scraping with Python读书笔记及思考
阅读量:5912 次
发布时间:2019-06-19

本文共 454 字,大约阅读时间需要 1 分钟。

Web Scraping with Python读书笔记

标签(空格分隔): web scraping ,python


做数据抓取一定一定要明确:抓取\解析数据不是目的,目的是对数据的利用

一般的数据抓取结构如下:

概要

一个简单的web数据抓取的流程就像下面的图一样

673170-20160803163146340-843644952.png

HTML获取

分析工具

  • Firefox
  • Firebug

工具包

  • urllib
  • urllib2
  • Requests
  • phantomjs

反反爬虫策略

  • 动态设置User-Agent
  • Cookie的使用
  • 时间延迟/动态延迟设置
  • 使用Google/Baidu Cache
  • 使用IP代理池

调度策略

HTML解析(数据清晰)

工具包

  • lxml(XPath)
  • CSS选择器
  • BeautifulSoup
  • pyquery
  • 正则表达式

数据存储

工具/格式

  • JSON结构化纯文本
  • XML结构化纯文本
  • MySQL关系型数据库
  • MongoDB非关系型数据库

转载于:https://www.cnblogs.com/taceywong/p/5733595.html

你可能感兴趣的文章
使用MySQL yum源安装MySQL
查看>>
iOS8中使用CoreLocation定位
查看>>
R语言处理Time series
查看>>
mvn package时设置了maven.test.skip=true依旧执行单元测试
查看>>
Java学习笔记(一)背景知识
查看>>
PAT 1118 Birds in Forest [一般]
查看>>
Adapting to views using css or js
查看>>
020PHP基础知识——函数(三)
查看>>
构造函数&&继承8.1
查看>>
Codeforces 923 A. Primal Sport
查看>>
selenium 关于富文本的处理
查看>>
我的lamp常用安装配置
查看>>
跨域问题通用解决方案
查看>>
判断IP连接数前五,并自动加入防火墙
查看>>
Group分组及其扩展总结(四)
查看>>
[转+整理]linux shell 将字符串分割成数组
查看>>
# WinForm关闭窗体确认
查看>>
疑惑:八卦掌趟泥步到底怎样走才正确?
查看>>
java的折半查询
查看>>
Linux(RHEL7.0)下安装nginx-1.10.2
查看>>