大数据可视化平台数据治理方案
资源简介
>
大数据可视化平台
数据治理方案
目 录
1 概述 1
2 面临的挑战 1
2.1 数据采集 10
2.2 数据清洗 10
2.3 数据存储 13
2.4 数据采集 13
2.4.1 半结构化数据的采集 13
2.4.2 非结构化文本数据中信息的抽取 19
2.5 数据清洗和数据质量的保证 19
2.5.1 数据质量的概念及分类 19
2.5.2 数据清洗的原理 25
2.5.3 单数据源中的数据清洗 27
2.6 数据的集成和融合 62
2.6.1 多数据源集成问题的分类 63
2.6.2 数据标准化的研究 67
2.6.3 数据集成的流程 69
2.6.4 多数据源中重复实体的清理 69
2.6.5 数据不一致性问题的研究 73
2.7 数据的存储和处理 73
2.7.1 并行和分布式处理理论 73
2.7.2 并行RDBMS 81
2.7.3 Hadoop 84
2.7.4 Hadoop扩展和优化 93
2.7.5 NoSQL 102
2.7.6 查询优化 200
2.8 大数据中的数据挖掘 202
2.8.1 传统数据挖
加载中...
本文档仅能预览20页