SQL机器学习库MADlib技术解析

作者:王雪迎

出版:清华大学出版社

年代:2019 更多图书信息

电子纸书:¥51.35 定价: ¥79 纸质书最低¥59.7起,点此购买

图书简介

MADlib是一套SQL中的大数据机器学习库。通常SQL查询能发现数据最明显的模式和趋势,但要想获取数据中最为有用的信息,需要的则是一套牢固扎根于数学和应用数学的技能,这就是机器学习。如果将SQL的简单易用与MADlib机器学习的复杂算法结合起来,就能实现简单的机器学习功能。
本书分为11章,从MADlib的基本概念、MADlib的架构、支持的模型类型与功能入手,详细解析MADlib各种模型的具体用法,包括数据类型、矩阵分解、数据转换、数据探索、主成分分析、回归、时间序列分析、分类、聚类、关联规则、图算法、模型评估等。每种模型将从背景知识、函数语法、应用示例三方面进行 说明。
本书适合MADlib机器学习的初学者、想学习MADlib机器学习的DBA以及从事数据分析与挖掘的高级技术人员阅读,也适合高等院校与培训学校相关专业的师生教学参考。

(展开)

目录

目 录

第1章 MADlib基础 1
1.1 基本概念 1
1.1.1 MADlib是什么 1
1.1.2 MADlib的设计思想 2
1.1.3 MADlib的工作原理 3
1.1.4 MADlib的执行流程 4
1.1.5 MADlib架构 5
1.2 MADlib的功能 6
1.2.1 MADlib支持的模型类型 6
1.2.2 MADlib的主要功能模块 7
1.3 MADlib的安装与卸载 9
1.3.1 确定安装平台 9
1.3.2 下载MADlib二进制压缩包 10
1.3.3 安装MADlib 10
1.3.4 卸载MADlib 12
1.4 小结 13
第2章 数据类型 14
2.1 向量 14
2.1.1 MADlib中的向量操作函数 15
2.1.2 稀疏向量 23
2.2 矩阵 30
2.2.1 矩阵定义 31
2.2.2 MADlib中的矩阵表示 31
2.2.3 MADlib中的矩阵运算函数 32
2.3 小结 49
第3章 数据转换 50
3.1 邻近度 50
3.1.1 MADlib的邻近度相关函数 50
3.1.2 距离度量的中心化和标准化 57
3.1.3 选取正确的邻近度度量 58
3.2 矩阵分解 59
3.2.1 低秩矩阵分解 59
3.2.2 奇异值分解 70
3.3 透视表 87
3.4 分类变量编码 97
3.5 小结 110
第4章 数据探索 111
4.1 描述性统计 111
4.1.1 皮尔森相关 111
4.1.2 汇总统计 117
4.2 概率统计 125
4.2.1 概率 125
4.2.2 统计推论 133
4.3 主成分分析 147
4.3.1 背景知识 147
4.3.2 MADlib的PCA相关函数 149
4.3.3 MADlib的PCA应用示例 155
4.4 小结 160
第5章 回归 161
5.1 线性回归 161
5.1.1 背景知识 161
5.1.2 MADlib的线性回归相关函数 164
5.1.3 线性回归示例 166
5.2 非线性回归 171
5.2.1 背景知识 171
5.2.2 MADlib的非线性回归相关
函数 172
5.2.3 非线性回归示例 175
5.3 逻辑回归 179
5.3.1 背景知识 179
5.3.2 MADlib的逻辑回归相关函数 180
5.3.3 逻辑回归示例 182
5.4 多类回归 187
5.4.1 背景知识 187
5.4.2 MADlib的多类回归相关函数 190
5.4.3 多类回归示例 192
5.5 序数回归 196
5.5.1 背景知识 196
5.5.2 MADlib的序数回归相关函数 197
5.5.3 序数回归示例 200
5.6 弹性网络回归 202
5.6.1 背景知识 202
5.6.2 MADlib的弹性网络回归相关
函数 204
5.6.3 弹性网络回归示例 209
5.7 小结 221
第6章 时间序列分析 222
6.1 背景知识 222
6.1.1 时间序列分析方法 222
6.1.2 ARIMA模型 223
6.2 MADlib中ARIMA相关函数 225
6.3 时间序列分析示例 228
6.4 小结 232
第7章 分类 233
7.1 K近邻 233
7.1.1 背景知识 233
7.1.2 MADlib中K近邻函数 235
7.1.3 K近邻示例 236
7.2 朴素贝叶斯 240
7.2.1 背景知识 240
7.2.2 MADlib中朴素贝叶斯分类
相关函数 242
7.2.3 朴素贝叶斯分类示例 244
7.3 支持向量机 249
7.3.1 背景知识 249
7.3.2 MADlib的支持向量机相关
函数 252
7.3.3 支持向量机示例 258
7.4 决策树 264
7.4.1 背景知识 264
7.4.2 MADlib的决策树相关函数 267
7.4.3 决策树示例 272
7.5 随机森林 281
7.5.1 背景知识 281
7.5.2 MADlib的随机森林相关函数 282

7.5.3 随机森林示例 287
7.6 小结 293
第8章 聚类 294
8.1 背景知识 294
8.1.1 聚类的概念 294
8.1.2 k-means方法 295
8.2 MADlib的k-means相关函数 297
8.2.1 训练函数 298
8.2.2 簇分配函数 300
8.2.3 轮廓系数函数 301
8.3 k-means示例 301
8.4 小结 307
第9章 关联规则 308
9.1 背景知识 308
9.1.1 基本概念 308
9.1.2 Apriori算法 311
9.2 MADlib的Apriori算法函数 312
9.3 Apriori应用示例 313
9.4 小结 319
第10章 图算法 320
10.1 背景知识 320
10.1.1 基本概念 320
10.1.2 常见图算法 321
10.1.3 单源最短路径 323
10.2 MADlib的单源最短路径相关函数 324
10.3 单源最短路径示例 325
10.4 小结 327
第11章 模型评估 328
11.1 交叉验证 328
11.1.1 背景知识 328
11.1.2 MADlib的交叉验证相关
函数 331
11.1.3 交叉验证示例 333
11.2 预测度量 336
11.3 小结 342
(展开)

书页展示

更多图书信息
数据来源于网络,如有问题,请反馈至此邮箱:service@bookask.com

作者:王雪迎
出版:清华大学出版社

ISBN:9787302518945

出版日期:2019-02-01

清华大学出版社

清华大学出版社

清华大学出版社成立于1980年6月,是由教育部主管、清华大学主办的综合出版单位。植根于“清华”这座久负盛名的高等学府,秉承清华人“自强不息,厚德载物”的人文精神,清华大学出版社在短短二十多年的时间里,迅速成长起来。作为来自一流大学的出版单位,清华大学出版社始终坚持弘扬科技文化产业、服务科教兴国战略的出版方向,把出版高等学校教学用书和科技图书作为主要任务,并为促进学术交流、繁荣出版事业设立了多项出版基金,逐渐形成了以出版高水平的教材和学术专著为主的鲜明特色,在教育出版领域树立了强势品牌。目前,清华版教材已在全国一百多所院校得到广泛使用。高品质、多层次的计算机图书是清华大学出版社的一大品牌支柱。20世纪80年代末,在席卷全球的信息化浪潮中,清华大学出版社快速切入计算机图书市场,逐渐成为并一直保持这一市场的领先地位,为发展中国计算机教育做出了巨大贡献。

(展开)

使用移动设备
扫描二维码下载客户端

注:目前仅提供安卓客户端下载

Copyright ©2020  BookAsk 书问  |  京ICP证160134号   |  

京公网安备 11010802026432号

  |  出版物经营许可证新出发京零字第海150168号   |  营业执照:91110108318038279C   |  网站地图   |  关于我们   |  合作伙伴   |  商务合作   |  友情链接