全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
![全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店精美图片](https://img3m4.ddimg.cn/2/20/11596997414-1_h_1698923018.jpg)
全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店电子书下载地址
- 文件名
- [epub 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 epub格式电子书
- [azw3 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 azw3格式电子书
- [pdf 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 pdf格式电子书
- [txt 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 txt格式电子书
- [mobi 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 mobi格式电子书
- [word 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 word格式电子书
- [kindle 下载] 全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店 kindle格式电子书
寄语:
正版图书保证质量 七天无理由退货让您购物无忧
内容简介:
本书涵盖数据分析与数据挖掘的基础知识、必备工具和有效实践方法,能让读者充分掌握数据分析与数据挖掘的基本技能。 本书共分为15章,主要内容包括大数据获取、数据预处理、探索性数据分析、用Sklearn估计器分类、主流数据分析库、大数据的数据库类型、数据仓库/商业智能、数据聚合与分组运算、数据挖掘工具、挖掘建模、模型评估、社会媒体挖掘、图挖掘分类、基于深度学习的验证码识别、基于深度学习的文本分类挖掘实现。 本书采用理论与实践相结合的方式,利用Python语言的强大功能,以*小的编程代价进行数据的提取、处理、分析和挖掘,既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。
书籍目录:
目 录
TOC o "1-3" h z u HYPERLINK l "_Toc64713578" 第1章 HYPERLINK l "_Toc64713579" 大数据采集 PAGEREF _Toc64713579 h 1
HYPERLINK l "_Toc64713580" 1.1 大数据分类 PAGEREF _Toc64713580 h 1
HYPERLINK l "_Toc64713581" 1.2 大数据采集方法 PAGEREF _Toc64713581 h 2
HYPERLINK l "_Toc64713582" 1.3 Python爬虫 PAGEREF _Toc64713582 h 3
HYPERLINK l "_Toc64713583" 1.3.1 审查元素 PAGEREF _Toc64713583 h 4
HYPERLINK l "_Toc64713584" 1.3.2 认识网页结构 PAGEREF _Toc64713584 h 5
HYPERLINK l "_Toc64713585" 1.3.3 认识robots.txt的文档 PAGEREF _Toc64713585 h 6
HYPERLINK l "_Toc64713586" 1.3.4 爬虫的基本原理 PAGEREF _Toc64713586 h 11
HYPERLINK l "_Toc64713587" 1.3.5 Python爬虫架构 PAGEREF _Toc64713587 h 11
HYPERLINK l "_Toc64713588" 1.3.6 用GET方式抓取数据 PAGEREF _Toc64713588 h 12
HYPERLINK l "_Toc64713589" 1.3.7 用POST方式抓取数据 PAGEREF _Toc64713589 h 15
HYPERLINK l "_Toc64713590" 1.3.8 用Beautiful Soup解析网页 PAGEREF _Toc64713590 h 17
HYPERLINK l "_Toc64713591" 1.3.9 Python爬虫案例 PAGEREF _Toc64713591 h 19
HYPERLINK l "_Toc64713592" 1.4 本章小结 PAGEREF _Toc64713592 h 25
HYPERLINK l "_Toc64713593" 第2章 HYPERLINK l "_Toc64713594" 数据预处理 PAGEREF _Toc64713594 h 26
HYPERLINK l "_Toc64713595" 2.1 数据清洗 PAGEREF _Toc64713595 h 26
HYPERLINK l "_Toc64713596" 2.1.1 缺失值处理 PAGEREF _Toc64713596 h 27
HYPERLINK l "_Toc64713597" 2.1.2 异常值处理 PAGEREF _Toc64713597 h 28
HYPERLINK l "_Toc64713598" 2.2 数据集成 PAGEREF _Toc64713598 h 30
HYPERLINK l "_Toc64713599" 2.3 数据转换 PAGEREF _Toc64713599 h 32
HYPERLINK l "_Toc64713600" 2.4 数据规约 PAGEREF _Toc64713600 h 34
HYPERLINK l "_Toc64713601" 2.5 Python主要数据预处理函数 PAGEREF _Toc64713601 h 35
HYPERLINK l "_Toc64713602" 2.6 本章小结 PAGEREF _Toc64713602 h 37
HYPERLINK l "_Toc64713603" 第3章 HYPERLINK l "_Toc64713604" 探索数据分析 PAGEREF _Toc64713604 h 38
HYPERLINK l "_Toc64713605" 3.1 异常值分析 PAGEREF _Toc64713605 h 38
HYPERLINK l "_Toc64713606" 3.2 缺失值分析 PAGEREF _Toc64713606 h 41
HYPERLINK l "_Toc64713607" 3.3 分布分析 PAGEREF _Toc64713607 h 43
HYPERLINK l "_Toc64713608" 3.4 相关分析 PAGEREF _Toc64713608 h 46
HYPERLINK l "_Toc64713609" 3.5 对比分析 PAGEREF _Toc64713609 h 48
HYPERLINK l "_Toc64713610" 3.6 统计量分析 PAGEREF _Toc64713610 h 48
HYPERLINK l "_Toc64713611" 3.7 周期分析 PAGEREF _Toc64713611 h 51
HYPERLINK l "_Toc64713612" 3.8 贡献度分析 PAGEREF _Toc64713612 h 51
HYPERLINK l "_Toc64713613" 3.9 Python主要数据探索函数 PAGEREF _Toc64713613 h 52
HYPERLINK l "_Toc64713614" 3.10 本章小结 PAGEREF _Toc64713614 h 53
HYPERLINK l "_Toc64713615" 第4章 HYPERLINK l "_Toc64713616" Sklearn估计器 PAGEREF _Toc64713616 h 54
HYPERLINK l "_Toc64713617" 4.1 Sklearn概述 PAGEREF _Toc64713617 h 54
HYPERLINK l "_Toc64713618" 4.2 使用Sklearn估计器分类 PAGEREF _Toc64713618 h 58
HYPERLINK l "_Toc64713619" 4.2.1 k近邻算法 PAGEREF _Toc64713619 h 59
HYPERLINK l "_Toc647136" 4.2.2 管道机制 PAGEREF _Toc647136 h 63
HYPERLINK l "_Toc64713621" 4.2.3 Sklearn比较分类器 PAGEREF _Toc64713621 h 65
HYPERLINK l "_Toc64713622" 4.3 本章小结 PAGEREF _Toc64713622 h 69
HYPERLINK l "_Toc64713623" 第5章 HYPERLINK l "_Toc64713624" 主流数据分析库 PAGEREF _Toc64713624 h 70
HYPERLINK l "_Toc64713625" 5.1 NumPy PAGEREF _Toc64713625 h 70
HYPERLINK l "_Toc64713626" 5.2 Pandas PAGEREF _Toc64713626 h 75
HYPERLINK l "_Toc64713627" 5.2.1 Pandas系列 PAGEREF _Toc64713627 h 76
HYPERLINK l "_Toc64713628" 5.2.2 Pandas数据帧 PAGEREF _Toc64713628 h 78
HYPERLINK l "_Toc64713629" 5.2.3 Pandas面板 PAGEREF _Toc64713629 h 84
HYPERLINK l "_Toc64713630" 5.3 SciPy PAGEREF _Toc64713630 h 86
HYPERLINK l "_Toc64713631" 5.4 Matplotlib PAGEREF _Toc64713631 h 90
HYPERLINK l "_Toc64713632" 5.5 本章小结 PAGEREF _Toc64713632 h 93
HYPERLINK l "_Toc64713633" 第6章 HYPERLINK l "_Toc64713634" 大数据:数据库类型 PAGEREF _Toc64713634 h 94
HYPERLINK l "_Toc64713635" 6.1 关系型数据库 PAGEREF _Toc64713635 h 94
HYPERLINK l "_Toc64713636" 6.2 关系型数据库与非关系型数据库的关系 PAGEREF _Toc64713636 h 95
HYPERLINK l "_Toc64713637" 6.3 SQLite PAGEREF _Toc64713637 h 96
HYPERLINK l "_Toc64713638" 6.3.1 SQLite安装与配置 PAGEREF _Toc64713638 h 96
HYPERLINK l "_Toc64713639" 6.3.2 SQLite命令 PAGEREF _Toc64713639 h 97
HYPERLINK l "_Toc64713640" 6.3.3 SQLite语法 PAGEREF _Toc64713640 h 99
HYPERLINK l "_Toc64713641" 6.3.4 SQLite - Python PAGEREF _Toc64713641 h 104
HYPERLINK l "_Toc64713642" 6.4 MySQL PAGEREF _Toc64713642 h 111
HYPERLINK l "_Toc64713643" 6.4.1 MySQL安装 PAGEREF _Toc64713643 h 111
HYPERLINK l "_Toc64713644" 6.4.2 MySQL管理 PAGEREF _Toc64713644 h 114
HYPERLINK l "_Toc64713645" 6.4.3 MySQL PHP语法 PAGEREF _Toc64713645 h 116
HYPERLINK l "_Toc64713646" 6.4.4 PHP脚本连接MySQL PAGEREF _Toc64713646 h 116
HYPERLINK l "_Toc64713647" 6.4.5 Python操作MySQL数据库 PAGEREF _Toc64713647 h 117
HYPERLINK l "_Toc64713648" 6.5 NoSQL数据库 PAGEREF _Toc64713648 h 123
HYPERLINK l "_Toc64713649" 6.5.1 NoSQL概述 PAGEREF _Toc64713649 h 123
HYPERLINK l "_Toc64713650" 6.5.2 列存储数据库 PAGEREF _Toc64713650 h 125
HYPERLINK l "_Toc64713651" 6.5.3 文档存储数据库 PAGEREF _Toc64713651 h 134
HYPERLINK l "_Toc64713652" 6.5.4 键值存储数据库 PAGEREF _Toc64713652 h 143
HYPERLINK l "_Toc64713653" 6.5.5 图存储数据库 PAGEREF _Toc64713653 h 153
HYPERLINK l "_Toc64713654" 6.5.6 对象存储数据库 PAGEREF _Toc64713654 h 155
HYPERLINK l "_Toc64713655" 6.5.7 XML数据库 PAGEREF _Toc64713655 h 155
HYPERLINK l "_Toc64713656" 6.6 本章小结 PAGEREF _Toc64713656 h 157
HYPERLINK l "_Toc64713657" 第7章 HYPERLINK l "_Toc64713658" 数据仓库/商业智能 PAGEREF _Toc64713658 h 158
HYPERLINK l "_Toc64713659" 7.1 数据仓库和商业智能简介 PAGEREF _Toc64713659 h 158
HYPERLINK l "_Toc64713660" 7.2 数据仓库架构 PAGEREF _Toc64713660 h 159
HYPERLINK l "_Toc64713661" 7.3 OLAP PAGEREF _Toc64713661 h 160
HYPERLINK l "_Toc64713662" 7.4 数据集市 PAGEREF _Toc64713662 h 161
HYPERLINK l "_Toc64713663" 7.5 商业智能 PAGEREF _Toc64713663 h 162
HYPERLINK l "_Toc64713664" 7.6 本章小结 PAGEREF _Toc64713664 h 163
HYPERLINK l "_Toc64713665" 第8章 HYPERLINK l "_Toc64713666" 数据聚合与分组运算 PAGEREF _Toc64713666 h 164
HYPERLINK l "_Toc64713667" 8.1 GroupBy技术 PAGEREF _Toc64713667 h 164
HYPERLINK l "_Toc64713668" 8.1.1 通过函行分组 PAGEREF _Toc64713668 h 165
HYPERLINK l "_Toc64713670" 8.1.2 对分行迭代 PAGEREF _Toc64713670 h 167
HYPERLINK l "_Toc64713672" 8.1.3 选取一个或一组列 PAGEREF _Toc64713672 h 170
HYPERLINK l "_Toc64713674" 8.1.4 通过字典或Serie行分组 PAGEREF _Toc64713674 h 171
HYPERLINK l "_Toc64713675" 8.1.5 通过函行分组 PAGEREF _Toc64713675 h 172
HYPERLINK l "_Toc64713676" 8.1.6 根据索引级别分组 PAGEREF _Toc64713676 h 173
HYPERLINK l "_Toc64713677" 8.2 数据聚合 PAGEREF _Toc64713677 h 174
HYPERLINK l "_Toc64713678" 8.2.1 面向列的多函数应用 PAGEREF _Toc64713678 h 174
HYPERLINK l "_Toc64713679" 8.2.2 以无索引的方式返回聚合数据 PAGEREF _Toc64713679 h 177
HYPERLINK l "_Toc64713680" 8.2.3 分组级运算和转换 PAGEREF _Toc64713680 h 178
HYPERLINK l "_Toc64713681" 8.3 透视表和交叉表 PAGEREF _Toc64713681 h 181
HYPERLINK l "_Toc64713682" 8.4 本章小结 PAGEREF _Toc64713682 h 183
HYPERLINK l "_Toc64713683" 第9章 HYPERLINK l "_Toc64713684" 数据挖掘工具 PAGEREF _Toc64713684 h 184
HYPERLINK l "_Toc64713685" 9.1 数据挖掘工具分类 PAGEREF _Toc64713685 h 184
HYPERLINK l "_Toc64713686" 9.2 数据挖掘经典算法 PAGEREF _Toc64713686 h 185
HYPERLINK l "_Toc64713687" 9.3 免费数据挖掘工具 PAGEREF _Toc64713687 h 186
HYPERLINK l "_Toc64713688" 9.4 Git和GitHub项目数据挖掘工具 PAGEREF _Toc64713688 h 188
HYPERLINK l "_Toc64713689" 9.5 Python数据挖掘工具 PAGEREF _Toc64713689 h 190
HYPERLINK l "_Toc64713690" 9.5.1 Gensim PAGEREF _Toc64713690 h 190
HYPERLINK l "_Toc64713691" 9.5.2 TensorFlow PAGEREF _Toc64713691 h 194
HYPERLINK l "_Toc64713692" 9.5.3 Keras PAGEREF _Toc64713692 h 197
HYPERLINK l "_Toc64713693" 9.6 本章小结 PAGEREF _Toc64713693 h 197
HYPERLINK l "_Toc64713694" 第10章 HYPERLINK l "_Toc64713695" 挖掘建模 PAGEREF _Toc64713695 h 198
HYPERLINK l "_Toc64713696" 10.1 数据挖掘建模的一般过程 PAGEREF _Toc64713696 h 198
HYPERLINK l "_Toc64713697" 10.2 分类与预测 PAGEREF _Toc64713697 h 199
HYPERLINK l "_Toc64713698" 10.3 聚类分析 PAGEREF _Toc64713698 h 0
HYPERLINK l "_Toc64713699" 10.4 关联分析 PAGEREF _Toc64713699 h 1
HYPERLINK l "_Toc64713700" 10.5 时序模式 PAGEREF _Toc64713700 h 2
HYPERLINK l "_Toc64713701" 10.6 离群点检测 PAGEREF _Toc64713701 h 3
HYPERLINK l "_Toc64713702" 10.7 本章小结 PAGEREF _Toc64713702 h 4
HYPERLINK l "_Toc64713703" 第11章 HYPERLINK l "_Toc64713704" 模型评估 PAGEREF _Toc64713704 h 5
HYPERLINK l "_Toc64713705" 11.1 验证 PAGEREF _Toc64713705 h 5
HYPERLINK l "_Toc64713706" 11.2 交叉验证 PAGEREF _Toc64713706 h 6
HYPERLINK l "_Toc64713707" 11.3 自助法 PAGEREF _Toc64713707 h 6
HYPERLINK l "_Toc64713708" 11.4 回归评估指标 PAGEREF _Toc64713708 h 7
HYPERLINK l "_Toc64713709" 11.5 分类评估指标 PAGEREF _Toc64713709 h 7
HYPERLINK l "_Toc64713710" 11.6 ROC曲线 PAGEREF _Toc64713710 h 8
HYPERLINK l "_Toc64713711" 11.7 本章小结 PAGEREF _Toc64713711 h 210
HYPERLINK l "_Toc64713712" 第12章 HYPERLINK l "_Toc64713713" 社会媒体挖掘 PAGEREF _Toc64713713 h 211
HYPERLINK l "_Toc64713714" 12.1 社会媒体与社会媒体数据 PAGEREF _Toc64713714 h 211
HYPERLINK l "_Toc64713715" 12.2 中国社会媒体核心用户数据分析 PAGEREF _Toc64713715 h 212
HYPERLINK l "_Toc64713716" 12.3 社会媒体挖掘技术与研究热点 PAGEREF _Toc64713716 h 213
HYPERLINK l "_Toc64713717" 12.4 社会媒体挖掘流程 PAGEREF _Toc64713717 h 214
HYPERLINK l "_Toc64713718" 12.5 Twitter情感分析 PAGEREF _Toc64713718 h 216
HYPERLINK l "_Toc64713719" 12.6 本章小结 PAGEREF _Toc64713719 h 221
HYPERLINK l "_Toc647137" 第13章 HYPERLINK l "_Toc64713721" 图挖掘分类 PAGEREF _Toc64713721 h 222
HYPERLINK l "_Toc64713722" 13.1 图挖掘概述 PAGEREF _Toc64713722 h 222
HYPERLINK l "_Toc64713723" 13.2 图挖掘技术基础 PAGEREF _Toc64713723 h 224
HYPERLINK l "_Toc64713724" 13.3 网络度量 PAGEREF _Toc64713724 h 226
HYPERLINK l "_Toc64713725" 13.4 网络模型 PAGEREF _Toc64713725 h 229
HYPERLINK l "_Toc64713726" 13.5 图挖掘与知识推理 PAGEREF _Toc64713726 h 230
HYPERLINK l "_Toc64713727" 13.6 图挖掘算法简介 PAGEREF _Toc64713727 h 231
HYPERLINK l "_Toc64713728" 13.7 社区检测 PAGEREF _Toc64713728 h 232
HYPERLINK l "_Toc64713729" 13.7.1 模块度 PAGEREF _Toc64713729 h 233
HYPERLINK l "_Toc64713730" 13.7.2 社区发现算法 PAGEREF _Toc64713730 h 234
HYPERLINK l "_Toc64713731" 13.8 频繁子图挖掘算法gSpan的实现 PAGEREF _Toc64713731 h 237
HYPERLINK l "_Toc64713732" 13.9 基于work行社交网络分析 PAGEREF _Toc64713732 h 239
HYPERLINK l "_Toc64713733" 13.10 本章小结 PAGEREF _Toc64713733 h 245
HYPERLINK l "_Toc64713734" 第14章 HYPERLINK l "_Toc64713735" 基于深度学证码识别 PAGEREF _Toc64713735 h 246
HYPERLINK l "_Toc64713736" 14.1 获取图片验证码 PAGEREF _Toc64713736 h 246
HYPERLINK l "_Toc64713737" 14.2 验证码图片预处理 PAGEREF _Toc64713737 h 248
HYPERLINK l "_Toc64713738" 14.3 依赖TensorFlow的深度学码识别 PAGEREF _Toc64713738 h 255
HYPERLINK l "_Toc64713739" 14.4 本章小结 PAGEREF _Toc64713739 h 259
HYPERLINK l "_Toc64713740" 第15章 HYPERLINK l "_Toc64713741" 基于深度学本分类挖掘实现 PAGEREF _Toc64713741 h 260
HYPERLINK l "_Toc64713742" 15.1 文本分类概念 PAGEREF _Toc64713742 h 260
HYPERLINK l "_Toc64713743" 15.2 文本分类挖掘算法概述 PAGEREF _Toc64713743 h 261
HYPERLINK l "_Toc64713744" 15.3 基于传统机器学本分类 PAGEREF _Toc64713744 h 262
HYPERLINK l "_Toc64713745" 15.4 基于深度学本分类 PAGEREF _Toc64713745 h 263
HYPERLINK l "_Toc64713746" 15.4.1 FastText文本分类模型算法实现 PAGEREF _Toc64713746 h 264
HYPERLINK l "_Toc64713747" 15.4.2 TextN文本分类模型算法实现 PAGEREF _Toc64713747 h 268
HYPERLINK l "_Toc64713748" 15.4.3 Bert深度双向Transformer构建语言理解预训练模型 PAGEREF _Toc64713748 h 271
HYPERLINK l "_Toc64713749" 15.4.4 TextRNN文本分类 PAGEREF _Toc64713749 h 273
HYPERLINK l "_Toc64713750" 15.4.5 RN文本分类 PAGEREF _Toc64713750 h 275
HYPERLINK l "_Toc64713751" 15.4.6 Hierarchical Attention Network文本分类 PAGEREF _Toc64713751 h 278
HYPERLINK l "_Toc64713752" 15.4.7 seq2seq with attention文本分类 PAGEREF _Toc64713752 h 281
HYPERLINK l "_Toc64713753" 15.4.8 Transformer文本分类 PAGEREF _Toc64713753 h 283
HYPERLINK l "_Toc64713754" 15.4.9 Dynamic Memory Network文本分类 PAGEREF _Toc64713754 h 289
HYPERLINK l "_Toc64713755" 15.4.10 Recurrent Entity Network文本分类 PAGEREF _Toc64713755 h 292
HYPERLINK l "_Toc64713756" 15.4.11 Boosting文本分类 PAGEREF _Toc64713756 h 294
HYPERLINK l "_Toc64713757" 15.4.12 BiLstmTextRelation文本分析 PAGEREF _Toc64713757 h 294
HYPERLINK l "_Toc64713758" 15.4.13 twoNTextRelation文本分类 PAGEREF _Toc64713758 h 297
HYPERLINK l "_Toc64713759" 15.5 本章小结 PAGEREF _Toc64713759 h 297
HYPERLINK l "_Toc64713760" 参考文献 PAGEREF _Toc64713760 h 298
作者介绍:
邓立国,东北大学计算机应用博士毕业。2005年开始在沈阳师范大学软件学院、教育技术学院任教,主要研究方向:数据挖掘、知识工程、大数据处理、云计算、分布式计算等。以作者发表学术论文30多篇(26篇EI),主编教材 1 部,主持科研课题6项,经费10余万元,多次获得校级科研优秀奖,作为九三社员提出的智慧城市提案被市政府采纳,研究成果被教育厅等单位采用。
出版社信息:
暂无出版社相关信息,正在全力查找中!
书籍摘录:
大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。大数括
RFID
数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。数据源的特点是种类多、类型繁杂、数据量大和产生的速度快,传统的数据采集方法无法胜任。因而,大数据采集技术面临着许多技术挑战,既要保证数据采集的可靠和,还要避免重复数据。
1.pan>
大数据分类传统的数据采集来源单一,且存储、管理和分析数据量相对较小,大多采用关系型数据库和并行数据仓库处理。在大数据体系中,传统数据分为业务数据和行业数据,传统数据体系中没有考虑过的新数据源,这些新数据括内容数据、线上行为数据和线下行为数据
3
大类。大数据采集与传统数据采集有很大的区别。
1.
大数据分
5
类业务数据:消费者数据、客户关系数据、库存数据、账目数据等。行业数据:车流量数据、能耗数据、
PM2.5
数据等。内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。线上行为数据:页面数据、交互数据、表单数据、会话数据、反馈数据等。线下行为数据:车辆位置和轨迹、用户位置和轨迹、动物位置和轨迹等。
Python
数据分析与挖掘实战
2.
大数据主要有
4
个来源。企业系统:客户关系管理系统、企业资源计划系统、库存系统、销售系统等。。机器系统:智能仪表、工业设备传感器、智能设备、监控系统等。
·
互联网系统:电商系统、服务行业业务系统、监管系统等。。社交系统:、
00
、微博、博客、新闻网站、朋友圈等。
3.
机器系统产生的数据可分为两大类。通过智能仪表和传感器获取行业数据。例如,公路卡口设备获取车流量数据、智能电表获取用电量等。。通过各类监控设备获取人、动物和物体的位置和轨迹信息。石联网系统会产生相关的业务数据和线上行为数据,例如,用户的反馈和评价信息、用户购买的产品和品牌信息等。社交系统会产生大量的内容数据,如博客与照片,以及线上行为数据等。
4.
线上线下数据区别。数据源区别:传统数据采集的数据源单一,是从传统企业的客户关系管理系统、企业资源计划系统及相关业务系统中获取数据,而大数据采集系统还需要从社交系统、互联网系统及各种类型的机器设备上获取数据。
·
数据量区别:互联网系统和机器系统产生的数据量要远远大于企业系统的数据量。
·
数据结构区别:传统数据采集的数据是结构化的数据,而大数据采集系统需要采集大量的、音频、照片等非结构化数据,以及网页、博客、日志等半结构化数据。
·
数据产生速度区别:传统数据采集的数据几乎都是由人操作生成的,远远慢于机器生成数据的效率。因此,传统数据采集的方法和大数据采集的方法也有根本区别。
1.2
大数据采集方法数据采集的方法几乎取决于数据源的特,毕竟数据源是整个大数据平台蓄水的上游,数据采集不过是获取水源的管道。在数据仓库的语境下,
ETL
基本上是数据采集的代表括数据的提取(
Extract)
、转换
(Transform)
和加载
(Load)
。在转换的过程中,需要针对具体的业务场景对数行治理,例行非法数据监测与过滤、格式转换与数据规范化、数据替换、保证数据完整等。在大数据平台下,数据源具有更复杂的多样,数据采集的形式也变得更加复杂而多样,当然业务场景也可能变得迥然不同。大数据的采集是指利用多个数据库或存储系统来接收发自客户端(
Web
、
App
或者传感器等)的数据。例如,电商会使用传统的关系型数据库
MySQL
和
Oracle
等来存储每一笔事务数
……
在线阅读/听书/购买/PDF下载地址:
原文赏析:
暂无原文赏析,正在全力查找中!
其它内容:
编辑推荐
本书以数据分析与挖掘五大环节(数据采集、数据预处理、探索分析、挖掘建模、模型评估)为轴线,配以分析用的数据与源代码,系统地介绍数据分析与挖掘建模领域的科学知识、专业工具、完整流程以及编程技巧,让你能够快速胜任数据分析师岗位。
书摘插图
书籍介绍
本书涵盖数据分析与数据挖掘的基础知识、必备工具和有效实践方法,能让读者充分掌握数据分析与数据挖掘的基本技能。 本书共分为15章,主要内容包括大数据获取、数据预处理、探索性数据分析、用Sklearn估计器分类、主流数据分析库、大数据的数据库类型、数据仓库/商业智能、数据聚合与分组运算、数据挖掘工具、挖掘建模、模型评估、社会媒体挖掘、图挖掘分类、基于深度学习的验证码识别、基于深度学习的文本分类挖掘实现。 本书采用理论与实践相结合的方式,利用Python语言的强大功能,以*小的编程代价进行数据的提取、处理、分析和挖掘,既适合Python数据分析与数据挖掘初学者、大数据从业人员阅读,也适合高等院校和培训机构大数据与人工智能相关专业的师生教学参考。
网站评分
书籍多样性:3分
书籍信息完全性:9分
网站更新速度:7分
使用便利性:6分
书籍清晰度:7分
书籍格式兼容性:7分
是否包含广告:8分
加载速度:5分
安全性:4分
稳定性:7分
搜索功能:4分
下载便捷性:9分
下载点评
- 值得购买(455+)
- 全格式(518+)
- txt(356+)
- 赚了(100+)
- 愉快的找书体验(638+)
- 无多页(521+)
- 值得下载(256+)
- 无颠倒(533+)
- 内容完整(295+)
- 博大精深(605+)
下载评价
- 网友 扈***洁: ( 2025-01-28 08:12:41 )
还不错啊,挺好
- 网友 寿***芳: ( 2025-01-08 20:08:16 )
可以在线转化哦
- 网友 曾***玉: ( 2025-01-26 22:32:02 )
直接选择epub/azw3/mobi就可以了,然后导入微信读书,体验百分百!!!
- 网友 家***丝: ( 2025-01-30 17:59:50 )
好6666666
- 网友 方***旋: ( 2025-01-09 04:54:50 )
真的很好,里面很多小说都能搜到,但就是收费的太多了
- 网友 游***钰: ( 2025-01-22 03:50:17 )
用了才知道好用,推荐!太好用了
- 网友 常***翠: ( 2025-01-11 03:28:42 )
哈哈哈哈哈哈
- 网友 芮***枫: ( 2025-01-26 07:27:43 )
有点意思的网站,赞一个真心好好好 哈哈
- 网友 马***偲: ( 2025-01-12 06:11:45 )
好 很好 非常好 无比的好 史上最好的
- 网友 相***儿: ( 2025-01-24 19:46:44 )
你要的这里都能找到哦!!!
- 网友 权***波: ( 2025-01-05 06:43:54 )
收费就是好,还可以多种搜索,实在不行直接留言,24小时没发到你邮箱自动退款的!
- 网友 苍***如: ( 2025-01-13 17:12:38 )
什么格式都有的呀。
- 网友 瞿***香: ( 2025-01-15 09:16:56 )
非常好就是加载有点儿慢。
- 网友 菱***兰: ( 2025-01-09 02:54:27 )
特好。有好多书
- 网友 国***芳: ( 2025-01-19 15:58:57 )
五星好评
喜欢"全新正版图书 Python数据分析与挖掘实战邓立国清华大学出版社9787302577874 软件工具程序设计本科及以上人天图书专营店"的人也看了
网络信息论 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
新高中数学同步全刷:高考大一轮 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
华图GCT2014(硕士研究生考试)复习指南:英语(2014年最新版) 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
急诊医生书籍手册全两册 实用急诊手册+急诊用药速览 急诊科医生手册急诊临床医师药师工具书诊断要点治疗方案常见急症诊断治疗 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
小白兔刘御著经典童话故事书小学一年级下册课外书人教版语文教材同步阅读书籍5-6-7岁儿童带拼音经典文学故事书北方妇女儿童出版社 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 2013普通高等学校专升本招生考试应试专用教材 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 孟子譯注 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 仁爱版八年级下册英语课本科普版初中八下英语课本初二8八年级下册英语书教科书英语八年级下册 科学普及出版社八年级下册英语书 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 旅游研究方法 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 生物工程实验技术 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 国际陆路货运代理与多式联运理论与实务 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 冲击波英语专业四级 英语专业4级阅读 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 中国战胜农村贫困 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 编辑人的世界 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
- 受贿罪司法适用研究 下载 pdf 百度网盘 epub 免费 2025 电子书 mobi 在线
书籍真实打分
故事情节:7分
人物塑造:5分
主题深度:9分
文字风格:3分
语言运用:6分
文笔流畅:3分
思想传递:8分
知识深度:7分
知识广度:5分
实用性:6分
章节划分:9分
结构布局:8分
新颖与独特:6分
情感共鸣:3分
引人入胜:3分
现实相关:7分
沉浸感:8分
事实准确性:8分
文化贡献:7分