Web Scraping with Python读书笔记及思考

阅读量：5912 次

发布时间：2019-06-19

本文共 454 字，大约阅读时间需要 1 分钟。

Web Scraping with Python读书笔记

标签（空格分隔）： web scraping ,python

做数据抓取一定一定要明确:抓取\解析数据不是目的,目的是对数据的利用

一般的数据抓取结构如下:

概要

一个简单的web数据抓取的流程就像下面的图一样

HTML获取

分析工具

Firefox

Firebug

工具包

urllib

urllib2

Requests

phantomjs

反反爬虫策略

动态设置User-Agent

Cookie的使用

时间延迟/动态延迟设置

使用Google/Baidu Cache

使用IP代理池

调度策略

HTML解析(数据清晰)

工具包

lxml(XPath)

CSS选择器

BeautifulSoup

pyquery

正则表达式

数据存储

工具/格式

JSON结构化纯文本

XML结构化纯文本

MySQL关系型数据库

MongoDB非关系型数据库

转载于:https://www.cnblogs.com/taceywong/p/5733595.html

你可能感兴趣的文章

使用MySQL yum源安装MySQL

查看>>

iOS8中使用CoreLocation定位

查看>>

R语言处理Time series

查看>>

mvn package时设置了maven.test.skip=true依旧执行单元测试

查看>>

Java学习笔记（一）背景知识

查看>>

PAT 1118 Birds in Forest [一般]

查看>>

Adapting to views using css or js

Codeforces 923 A. Primal Sport

[转+整理]linux shell 将字符串分割成数组

Linux（RHEL7.0）下安装nginx-1.10.2

查看>>