Python网络爬虫实战(第2版)

作者:胡松涛

出版:清华大学出版社

年代:2018 更多图书信息

电子纸书:¥47.4 定价: ¥79 纸质书最低¥67.2起,点此购买

图书简介

本书从Python 3.6.4的安装开始,详细讲解了Python从简单程序延伸到Python网络爬虫的全过程。本书从实战出发,根据不同的需求选取不同的爬虫,有针对性地讲解了几种Python网络爬虫。
本书共10章,涵盖的内容有Python3.6语言的基本语法、Python常用IDE的使用、Python第三方模块的导入使用、Python爬虫常用模块、Scrapy爬虫、Beautiful Soup爬虫、Mechanize模拟浏览器和Selenium模拟浏览器、Pyspider爬虫框架、爬虫与反爬虫。本书所有源代码已上传网盘供读者下载。
本书内容丰富,实例典型,实用性强。适合Python网络爬虫初学者、Python数据分析与挖掘技术初学者,以及高等院校和培训学校相关专业的师生阅读。

(展开)

目录

第1章 Python环境配置...................................................................................................... 1
1.1 Python 简介................................................................................................................................ 1
1.1.1 Python的历史由来........................................................................................................ 1
1.1.2 Python的现状................................................................................................................ 2
1.1.3 Python的应用................................................................................................................ 2
1.2 Python 3.6.4 开发环境配置........................................................................................................ 4
1.2.1 Windows 下安装Python ............................................................................................... 4
1.2.2 Windows 下安装配置pip.............................................................................................. 9
1.2.3 Linux下安装Python ................................................................................................... 10
1.2.4 Linux下安装配置pip ................................................................................................. 13
1.2.5 永远的hello world....................................................................................................... 16
1.3 本章小结.................................................................................................................................. 21
第2章 Python基础........................................................................................................... 22
2.1 Python 变量类型....................................................................................................................... 22
2.1.1 数字.............................................................................................................................. 22
2.1.2 字符串.......................................................................................................................... 25
2.1.3 列表.............................................................................................................................. 29
2.1.4 元组.............................................................................................................................. 34
2.1.5 字典.............................................................................................................................. 37
2.2 Python 语句............................................................................................................................... 41
2.2.1 条件语句——if else .................................................................................................... 41
2.2.2 有限循环——for ......................................................................................................... 42
2.2.3 无限循环——while ..................................................................................................... 44
2.2.4 中断循环——continue、break ................................................................................... 46
2.2.5 异常处理——try except .............................................................................................. 48
2.2.6 导入模块——import ................................................................................................... 52
2.3 函数和类.................................................................................................................................. 56
2.3.1 函数.............................................................................................................................. 56
2.3.2 类................................................................................................................................. 62
2.4 Python 内置函数....................................................................................................................... 68
2.4.1 常用内置函数.............................................................................................................. 68
2.4.2 高级内置函数.............................................................................................................. 69
2.5 Python 代码格式....................................................................................................................... 74
2.5.1 Python代码缩进.......................................................................................................... 74
2.5.2 Python命名规则.......................................................................................................... 75
2.5.3 Python代码注释.......................................................................................................... 76
2.6 Python 调试............................................................................................................................... 79
2.6.1 Windows 下IDLE调试............................................................................................... 79
2.6.2 Linux下pdb调试........................................................................................................ 82
2.7 本章小结.................................................................................................................................. 87
第3章 简单的Python 脚本............................................................................................... 88
3.1 九九乘法表............................................................................................................................... 88
3.1.1 Project分析.................................................................................................................. 88
3.1.2 Project实施.................................................................................................................. 88
3.2 斐波那契数列........................................................................................................................... 90
3.2.1 Project分析.................................................................................................................. 90
3.2.2 Project实施.................................................................................................................. 90
3.3 概率计算.................................................................................................................................. 91
3.3.1 Project分析.................................................................................................................. 91
3.3.2 Project实施.................................................................................................................. 92
3.4 读写文件.................................................................................................................................. 93
3.4.1 Project分析.................................................................................................................. 93
3.4.2 Project实施.................................................................................................................. 94
3.5 类的继承与重载....................................................................................................................... 96
3.5.1 Project 1 分析............................................................................................................... 96
3.5.2 Project 1 实施............................................................................................................... 98
3.5.3 Project 2 分析............................................................................................................. 100
3.5.4 Project 2 实施............................................................................................................. 101
3.6 多线程.................................................................................................................................... 107
3.6.1 Project 1 分析............................................................................................................. 107
3.6.2 Project 1 实施............................................................................................................. 109
3.6.3 Project 2 分析............................................................................................................. 112
3.6.4 Project 2 实施............................................................................................................. 115
3.7 本章小结................................................................................................................................ 117
第4章 Python爬虫常用模块........................................................................................... 118
4.1 网络爬虫技术核心................................................................................................................. 118
4.1.1 网络爬虫实现原理.................................................................................................... 118
4.1.2 爬行策略.................................................................................................................... 119
4.1.3 身份识别.................................................................................................................... 119
4.2 Python 3 标准库之urllib.request 模块................................................................................... 120
4.2.1 urllib.request 请求返回网页...................................................................................... 120
4.2.2 urllib.request 使用代理访问网页.............................................................................. 122
4.2.3 urllib.request 修改header .......................................................................................... 125
4.3 Python 3 标准库之logging模块............................................................................................ 129
4.3.1 简述logging模块...................................................................................................... 129
4.3.2 自定义模块myLog.................................................................................................... 133
4.4 re 模块(正则表达式)......................................................................................................... 135
4.4.1 re 模块(正则表达式操作).................................................................................... 136
4.4.2 re 模块实战................................................................................................................ 137
4.5 其他有用模块......................................................................................................................... 139
4.5.1 sys 模块(系统参数获取)...................................................................................... 139
4.5.2 time 模块(获取时间信息).................................................................................... 141
4.6 本章小结................................................................................................................................ 144
第5章 Scrapy爬虫框架.................................................................................................. 145
5.1 安装Scrapy ............................................................................................................................. 145
5.1.1 Windows 下安装Scrapy环境................................................................................... 145
5.1.2 Linux下安装Scrapy ................................................................................................. 146
5.1.3 vim编辑器................................................................................................................. 147
5.2 Scrapy选择器XPath和CSS................................................................................................. 148
5.2.1 XPath选择器............................................................................................................. 148
5.2.2 CSS 选择器................................................................................................................ 151
5.2.3 其他选择器................................................................................................................ 152
5.3 Scrapy爬虫实战一:今日影视............................................................................................. 153
5.3.1 创建Scrapy项目....................................................................................................... 153
5.3.2 Scrapy文件介绍........................................................................................................ 155
5.3.3 Scrapy爬虫编写........................................................................................................ 157
5.4 Scrapy爬虫实战二:天气预报............................................................................................. 164
5.4.1 项目准备.................................................................................................................... 165
5.4.2 创建编辑Scrapy 爬虫............................................................................................... 166
5.4.3 数据存储到json ........................................................................................................ 173
5.4.4 数据存储到MySQL.................................................................................................. 175
5.5 Scrapy爬虫实战三:获取代理............................................................................................. 182
5.5.1 项目准备.................................................................................................................... 182
5.5.2 创建编辑Scrapy 爬虫............................................................................................... 183
5.5.3 多个Spider................................................................................................................. 188
5.5.4 处理Spider数据........................................................................................................ 192
5.6 Scrapy爬虫实战四:糗事百科............................................................................................. 194
5.6.1 目标分析.................................................................................................................... 195
5.6.2 创建编辑Scrapy 爬虫............................................................................................... 195
5.6.3 Scrapy项目中间件——添加headers....................................................................... 196
5.6.4 Scrapy项目中间件——添加proxy.......................................................................... 200
5.7 Scrapy爬虫实战五:爬虫攻防............................................................................................. 202
5.7.1 创建一般爬虫............................................................................................................ 202
5.7.2 封锁间隔时间破解.................................................................................................... 206
5.7.3 封锁Cookies破解..................................................................................................... 206
5.7.4 封锁User-Agent破解............................................................................................... 207
5.7.5 封锁IP破解............................................................................................................... 212
5.8 本章小结................................................................................................................................ 215
第6章 Beautiful Soup 爬虫............................................................................................. 216
6.1 安装Beautiful Soup环境....................................................................................................... 216
6.1.1 Windows 下安装Beautiful Soup............................................................................... 216
6.1.2 Linux下安装Beautiful Soup .................................................................................... 217
6.1.3 最强大的IDE——Eclipse......................................................................................... 218
6.2 Beautiful Soup解析器............................................................................................................ 227
6.2.1 bs4 解析器选择.......................................................................................................... 227
6.2.2 lxml解析器安装........................................................................................................ 227
6.2.3 使用bs4 过滤器......................................................................................................... 229
6.3 bs4 爬虫实战一:获取百度贴吧内容................................................................................... 234
6.3.1 目标分析.................................................................................................................... 234
6.3.2 项目实施.................................................................................................................... 236
6.3.3 代码分析.................................................................................................................... 243
6.3.4 Eclipse调试............................................................................................................... 244
6.4 bs4 爬虫实战二:获取双色球中奖信息............................................................................... 245
6.4.1 目标分析.................................................................................................................... 246
6.4.2 项目实施.................................................................................................................... 248
6.4.3 保存结果到Excel ...................................................................................................... 251
6.4.4 代码分析.................................................................................................................... 256
6.5 bs4 爬虫实战三:获取起点小说信息................................................................................... 257
6.5.1 目标分析.................................................................................................................... 257
6.5.2 项目实施.................................................................................................................... 259
6.5.3 保存结果到MySQL.................................................................................................. 261
6.5.4 代码分析.................................................................................................................... 265
6.6 bs4 爬虫实战四:获取电影信息........................................................................................... 266
6.6.1 目标分析.................................................................................................................... 266
6.6.2 项目实施.................................................................................................................... 267
6.6.3 bs4 反爬虫.................................................................................................................. 270
6.6.4 代码分析.................................................................................................................... 273
6.7 bs4 爬虫实战五:获取音悦台榜单....................................................................................... 273
6.7.1 目标分析.................................................................................................................... 273
6.7.2 项目实施.................................................................................................................... 274
6.7.3 代码分析.................................................................................................................... 279
6.8 本章小结................................................................................................................................ 280
第7章 Mechanize 模拟浏览器........................................................................................ 281
7.1 安装Mechanize模块.............................................................................................................. 281
7.1.1 Windows 下安装Mechanize ..................................................................................... 281
7.1.2 Linux下安装Mechanize ........................................................................................... 282
7.2 Mechanize 测试...................................................................................................................... 283
7.2.1 Mechanize 百度.......................................................................................................... 283
7.2.2 Mechanize 光猫F460 ................................................................................................ 286
7.3 Mechanize实站一:获取Modem 信息................................................................................ 290
7.3.1 获取F460 数据.......................................................................................................... 290
7.3.2 代码分析.................................................................................................................... 293
7.4 Mechanize实战二:获取音悦台公告................................................................................... 293
7.4.1 登录原理.................................................................................................................... 293
7.4.2 获取Cookie的方法................................................................................................... 294
7.4.3 获取Cookie................................................................................................................ 298
7.4.4 使用Cookie登录获取数据....................................................................................... 302
7.5 本章小结................................................................................................................................ 305
第8章 Selenium 模拟浏览器.......................................................................................... 306
8.1 安装Selenium模块................................................................................................................ 306
8.1.1 Windows 下安装Selenium模块............................................................................... 306
8.1.2 Linux下安装Selenium模块.................................................................................... 307
8.2 浏览器选择............................................................................................................................. 307
8.2.1 Webdriver支持列表.................................................................................................. 307
8.2.2 Windows 下安装PhantomJS..................................................................................... 308
8.2.3 Linux下安装PhantomJS........................................................................................... 310
8.3 Selenium&PhantomJS抓取数据............................................................................................ 312
8.3.1 获取百度搜索结果.................................................................................................... 312
8.3.2 获取搜索结果............................................................................................................ 314
8.3.3 获取有效数据位置.................................................................................................... 317
8.3.4 从位置中获取有效数据............................................................................................ 319
8.4 Selenium&PhantomJS实战一:获取代理............................................................................ 319
8.4.1 准备环境.................................................................................................................... 320
8.4.2 爬虫代码.................................................................................................................... 321
8.4.3 代码解释.................................................................................................................... 324
8.5 Selenium&PhantomJS实战二:漫画爬虫............................................................................ 324
8.5.1 准备环境.................................................................................................................... 325
8.5.2 爬虫代码.................................................................................................................... 326
8.5.3 代码解释.................................................................................................................... 329
8.6 本章小结................................................................................................................................ 329
第9章 Pyspider 爬虫框架............................................................................................... 330
9.1 安装Pyspider .......................................................................................................................... 330
9.1.1 Windows 下安装Pyspider......................................................................................... 330
9.1.2 Linux下安装Pyspider............................................................................................... 331
9.1.3 选择器pyquery 测试................................................................................................. 333
9.2 Pyspider 实战一:Youku 影视排行...................................................................................... 335
9.2.1 创建项目.................................................................................................................... 336
9.2.2 爬虫编写.................................................................................................................... 338
9.3 Pyspider 实战二:电影下载.................................................................................................. 346
9.3.1 项目分析.................................................................................................................... 346
9.3.2 爬虫编写.................................................................................................................... 349
9.3.3 爬虫运行、调试........................................................................................................ 355
9.3.4 删除项目.................................................................................................................... 360
9.4 Pyspider 实战三:音悦台MusicTop..................................................................................... 363
9.4.1 项目分析.................................................................................................................... 363
9.4.2 爬虫编写.................................................................................................................... 364
9.5 本章小结................................................................................................................................ 369
第10章 爬虫与反爬虫..................................................................................................... 370
10.1 防止爬虫IP被禁.................................................................................................................. 370
10.1.1 反爬虫在行动.......................................................................................................... 370
10.1.2 爬虫的应对.............................................................................................................. 373
10.2 在爬虫中使用Cookies ......................................................................................................... 377
10.2.1 通过Cookies 反爬虫............................................................................................... 377
10.2.2 带Cookies的爬虫................................................................................................... 378
10.2.3 动态加载反爬虫...................................................................................................... 381
10.2.4 使用浏览器获取数据.............................................................................................. 381
10.3 本章小结............................................................................................................................... 381
(展开)

书页展示

更多图书信息
数据来源于网络,如有问题,请反馈至此邮箱:service@bookask.com

作者:胡松涛
出版:清华大学出版社

ISBN:9787302510086

出版日期:2018-10-01

清华大学出版社

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。作为来自一流大学的出版单位,清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。目前,清华版教材已在全国一百多所院校得到广泛使用。高品质、多层次的计算机图书是清华大学出版社的一大品牌支柱。20世纪80年代末,在席卷全球的信息化浪潮中,清华大学出版社快速切入计算机图书市场,逐渐成为并一直保持这一市场的领先地位,为发展中国计算机教育做出了巨大贡献。

(展开)

使用移动设备
扫描二维码下载客户端

注:目前仅提供安卓客户端下载

Copyright ©2020  BookAsk 书问  |  京ICP证160134号   |  

京公网安备 11010802026432号

  |  出版物经营许可证新出发京零字第海150168号   |  营业执照:91110108318038279C   |  网站地图   |  关于我们   |  合作伙伴   |  商务合作   |  友情链接