机器学习:算法背后的理论与优化

作者:史春奇、卜晶祎、施智平

出版:清华大学出版社

年代:2019 更多图书信息

电子纸书:¥45.54 定价: ¥69 纸质书最低¥47.6起,点此购买

图书简介

以机器学习为核心的人工智能已经成为新一代生产力发展的主要驱动因素。新的技术正在向各行各业
渗透,大有变革各个领域的趋势。传统产业向智慧产业的升级迫使原行业从业人员逐渐转型,市场上对相
关学习材料的需求也日益高涨。帮助广大学习者更好地理解和掌握机器学习,是编写本书的目的。
本书针对机器学习领域中最常见的一类问题——有监督学习,从入门、进阶、深化三个层面由浅入深
地进行了讲解。三个层面包括基础入门算法、核心理论及理论背后的数学优化。入门部分用以逻辑回归为
代表的广义线性模型为出发点,引入书中所有涉及的知识点;进阶部分的核心理论涵盖了经验风险最小、
结构风险最小、正则化及统一的分类边界理论;深化部分的数学优化则主要包括最大熵原理、拉格朗日对
偶等理论在数学上的推导,以及对模型求解的主流最优化方法的探讨等。
本书由浅入深,从个别到普便,从自然算法到优化算法,从各个角度深入剖析了机器学习,力求帮助
读者循序渐进地掌握机器学习的概念、算法和优化理论。

(展开)

目录

第1 章线性回归与逻辑回归. 1
1.1 线性回归. 1
1.1.1 函数关系与统计关系.1
1.1.2 统计与机器学习. 2
1.2 最小二乘法与高斯-马尔可夫定理. 5
1.2.1 最小二乘法. . 5
1.2.2 高斯-马尔可夫定理. . 6
1.3 从线性回归到逻辑回归. 8
1.4 最大似然估计求解逻辑回归. . 9
1.5 最小二乘与最大似然. . 11
1.5.1 逻辑回归与伯努利分布. 11
1.5.2 线性回归与正态分布. 12
1.6 小结. 13
参考文献. 13
第2 章广义线性模型. 15
2.1 广义线性模型概述.15
2.1.1 广义线性模型的定义. 15
2.1.2 链接函数与指数分布簇. 17
2.2 广义线性模型求解.20
2.3 最大似然估计Ⅰ:Fisher 信息. 21
2.4 最大似然估计Ⅱ:KL 散度与Bregman 散度. 23
2.4.1 KL 散度. . 23
2.4.2 Bregman 散度. . 25
2.5 小结. 26
X
参考文献. 26
第3 章经验风险最小. 28
3.1 经验风险与泛化误差概述. .28
3.1.1 经验风险. 30
3.1.2 泛化误差. 30
3.1.3 欠拟合和过拟合. . 34
3.1.4 VC 维. . 37
3.2 经验风险最小的算法. . 40
3.3 分类边界. . 42
3.3.1 分类算法的损失函数. 42
3.3.2 分类算法的边界. . 45
3.4 小结. 48
参考文献. 48
第4 章结构风险最小. 49
4.1 经验风险最小和过拟合. . 49
4.2 结构风险最小和正则化. . 51
4.2.1 从空间角度理解SRM 52
4.2.2 从贝叶斯观点理解SRM 54
4.3 回归的正则化. 55
4.3.1 L2 正则化和岭回归. 56
4.3.2 L1 正则化和Lasso 回归. . 57
4.3.3 L1、L2 组合正则化和ElasticNet 回归. . 58
4.4 分类的正则化. 60
4.4.1 支持向量机和L2 正则化. 60
4.4.2 XGBoost 和树正则化. 62
4.4.3 神经网络和DropOut 正则化. 65
4.4.4 正则化的优缺点. . 66
4.5 小结. 67
参考文献. 67
第5 章贝叶斯统计与熵.68
5.1 统计学习的基础:参数估计. .68
5.1.1 矩估计. .68
XI
5.1.2 最大似然估计.69
5.1.3 最小二乘法. 71
5.2 概率分布与三大统计思维. .72
5.2.1 频率派和正态分布. . 72
5.2.2 经验派和正态分布. . 75
5.2.3 贝叶斯派和正态分布. 76
5.2.4 贝叶斯统计和熵的关系. 79
5.3 信息熵的理解. 79
5.3.1 信息熵简史. 79
5.3.2 信息熵定义. 80
5.3.3 期望编码长度解释. . 81
5.3.4 不确定性公理化解释. 81
5.3.5 基于熵的度量.84
5.4 最大熵原理. . 86
5.4.1 最大熵的直观理解. . 86
5.4.2 最大熵解释自然指数分布簇. . 87
5.4.3 最大熵解释最大似然估计.89
5.5 小结. 90
参考文献. 90
第6 章基于熵的Softmax. .92
6.1 二项分布和多项分布. . 92
6.2 Logistic 回归和Softmax 回归. .93
6.2.1 广义线性模型的解释. 93
6.2.2 Softmax 回归. 94
6.2.3 最大熵原理与Softmax 回归的等价性.96
6.3 最大熵条件下的Log-Linear 101
6.4 多分类界面.103
6.4.1 感知机和多分类感知机. . 104
6.4.2 多分类感知机和结构感知机. 105
6.5 概率图模型里面的Log-Linear 106
6.6 深度学习里面的Softmax 层. . 108
6.7 小结. . 109
XII
参考文献. . 109
第7 章拉格朗日乘子法. 111
7.1 凸共轭. .111
7.1.1 凸共轭的定义. 111
7.1.2 凸共轭定理. . 113
7.2 拉格朗日对偶. . 114
7.2.1 拉格朗日对偶概述.115
7.2.2 Salter 条件. . 117
7.2.3 KKT 条件. 118
7.3 Fenchel 对偶. .120
7.4 增广拉格朗日乘子法. 123
7.4.1 近端. 123
7.4.2 增广拉格朗日乘子法和对偶上升算法. .126
7.5 交替方向乘子法. . 129
7.5.1 对偶分解. . 130
7.5.2 交替方向乘子法概述. . 131
7.6 小结. . 131
参考文献. . 132
第8 章随机梯度下降法. 134
8.1 随机梯度下降法概述. 134
8.1.1 机器学习场景. 134
8.1.2 随机梯度下降法的定义. . 135
8.1.3 随机梯度下降法收敛性分析. 136
8.1.4 收敛性证明. . 139
8.2 随机梯度下降法进阶Ⅰ:方差缩减. 140
8.2.1 方差缩减的效果. 141
8.2.2 方差缩减的实现. 143
8.3 随机梯度下降法进阶Ⅱ:加速与适应. 145
8.3.1 加速. 146
8.3.2 适应. 148
8.3.3 加速£ 适应. 151
8.4 随机梯度下降法的并行实现. . 156
XIII
8.5 小结. . 160
参考文献. . 161
第9 章常见的最优化方法. 163
9.1 最速下降算法. . 163
9.1.1 l2 范数与梯度下降法. . 164
9.1.2 l1 范数与坐标下降算法. . 165
9.1.3 二次范数与牛顿法.166
9.2 步长的设定.168
9.2.1 Armijo-Goldstein 准则. 169
9.2.2 Wolfe-Powell 准则. 170
9.2.3 回溯线搜索. . 171
9.3 收敛性分析.171
9.3.1 收敛速率. . 172
9.3.2 对目标函数的一些假设. . 173
9.4 一阶算法:梯度下降法. 177
9.5 二阶算法:牛顿法及其衍生算法. .178
9.5.1 牛顿法与梯度下降法的对比. 179
9.5.2 拟牛顿法. . 180
9.5.3 从二次范数的角度看牛顿法. 182
9.6 小结. . 183
参考文献. . 185
(展开)

书页展示

更多图书信息
数据来源于网络,如有问题,请反馈至此邮箱:service@bookask.com

作者:史春奇、卜晶祎、施智平
出版:清华大学出版社

ISBN:9787302517184

出版日期:2019-07-01

清华大学出版社

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。作为来自一流大学的出版单位,清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。目前,清华版教材已在全国一百多所院校得到广泛使用。高品质、多层次的计算机图书是清华大学出版社的一大品牌支柱。20世纪80年代末,在席卷全球的信息化浪潮中,清华大学出版社快速切入计算机图书市场,逐渐成为并一直保持这一市场的领先地位,为发展中国计算机教育做出了巨大贡献。

(展开)

作者信息

史春奇、卜晶祎、施智平

施智平:工学博士,教授,博士生导师,首都师范大学信息工程学院院长,电子系统可靠性技术北京市重点实验室主任。研究领域包括形式化验证,机器视觉,人工智能

(展开)
Copyright ©2021  BookAsk 书问  |  京ICP证160134号   |  

京公网安备 11010802026432号

  |  出版物经营许可证新出发京零字第海150168号   |  营业执照:91110108318038279C   |  网站地图   |  关于我们   |  合作伙伴   |  商务合作   |  友情链接