大部分人学 Python 都是作为第二语言来学的, 所以既然已经有了其它语言的基础, 我就推荐 2 个小而美的教程, 百页左右, 不啰嗦
先看完这 2 个教程其一, 就可以开始写 Python 了... 遇到不明确的地方再去详细了解, 比如 generator
, yield
等
w3school 是入门基础, 要用爬虫获取数据, 必须先了解 HTML 的结构
要写一个爬虫, 可以用一些基本的库, 也可以用爬虫框架 :
最核心的就是这 2 个模块, 其它的数据存储, 定时任务, 多线程等都是锦上添花
不错的教程 Python爬虫利器一之Requests库的用法 Python爬虫利器二之Beautiful Soup的用法 Scrapy笔记11- 模拟登录 Scrapy随机更换User-Agent和实现IP代理池
由于公司原因, 我接触的是 Scrapy
Scrapy 是一个相对成熟的框架, 多线程, 并发数, 中间件, 超时, 自定义 header, UA, 数据库存储, Log, 部署 等等都有成熟的解决方案和示例, 这也是我选择使用它的原因.
不错的教程 scrapy爬虫框架教程(一)-- Scrapy入门 利用Scrapy爬取所有知乎用户详细信息并存至MongoDB(附视频和源码)
在 Scrapy 官网 可以看到, 官方的部署指南,
Selenium : web的自动测试工具, 模拟点击按钮, 滚动页面等 PhantomJS : 没有界面的浏览器
mLab : 云 MongoDB 服务
文章是我爬取 V2EX 的学习整理
我的 V2 爬虫 : V2EX_Crawler