Hadoop系列之一：大数据存储及处理平台产生的背景

程序猿 • 2025年12月2日 21:16:31 • 用户投稿 • 阅读 1

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structured data)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的rdbms为这些提供实现保证。相应地，香港服务器租用，非结构化数据(unstructured data)就是指那些没有一个预定义的数据模型或不适于存储在rdbms中的数据，这些数据没有额外的描述信息(元数据)因此无法推断这些信息的真实意义，比如文本文件。半结构化数据(semi-structured data)有着特定的结构，但每个记录的结构未必完全相同，因此，无法为这些数据记录提供预定义的schema，其元数据只有在数据创建时才能获取，通常都与数据交相存储从而实现自我描述(self-describing)，如xml文件。

话袋AI笔记

话袋AI笔记, 像聊天一样随时随地记录每一个想法，打造属于你的个人知识库，成为你的外挂大脑

195 查看详情

现今，如搜索引擎类公司的网络爬虫爬行而来的web页面或社交类站点产生的用户访问日志都属半结构化或非结构化数据，传统的关系型数据库管理系统对这类数据的存储及处理能力有限，于是处理这类数据的需求就催生了一种新的数据库系统，即大数据管理系统(Big Data System)或NoSQL。这场声势浩大的数据库管理系统革新运动以Google、Amazon、Yahoo!、Facebook等先锋为主导展开的。这些组织或者由自己的业务生成海量数据，或从互联网上自由获取海量数据，但对这些海量数据进行存储、分析和处理都无一例外地成为支撑其业务的核心需求。初期，他们都采用了当时主流的数据管理技术来满足类似需求，但也都在各自的应用中遇到了规模扩展、存储性能等各方面的限制。尽管数据管理并非他们的核心业务，但数据处理却成支撑其业务运作基本组成部分，因此他们各自注入大量的技术实力依据业务需求进行新技术研发。

尽管许多公司都对他们的研究成果采取了保密措施，Google却选择了将他们的成功经验公之于众。2003年，Google公开发表了论文“The Google File System”，系统阐述了采取商用硬件计算机集群存储海量数据的分布式文件系统GFS的实现；GFS采取“数据块”管理文件数据，并在集群中多个节点上存储同一个数据块的副本以实现冗余功能；GFS设计用来支持大规模、数据密集型、分布式应用程序的运行；此外，它还为流式数据读取进行了优化，因此特别适用于存储之后读取数据并对之做出处理类的操作。这之后的第二年，Google又公开发表了另一篇论文“MapReduce: Simplified

Data Processing on Large Clusters”，定义了一个编程模型及其运行框架，提供了于集群中的多个节点上自动并行、容错及可处理数百TB规模的数据集数据处理平台；MapReduce是GFS集群的组成部分，它是一个编程框架，能够让用户编写的代码分布式运行于GFS集群中的多个节点上尽可能通过本地数据访问完成数据的并行处理操作。MapReduce与GFS一同构成了大数据存储及并行处理平台，Google的搜索索引的建立也正是基于此平台得以高效运行。与此同时，美国空间，Amazon也公开其购物车实现的基础组件Dynamo。

Google的MapReduce及GFS提供了海量数据存储及并行处理平台，但GFS并不支持对数据进行随机或实时访问，且仅适用于存储少量的、体积巨大大的文件，对海量小数据文件的管理有此力不从心。故此，Google开始寻找一种能够充分发挥GFS的高可用性及海量存储能力，又能支持类似邮件或分析系统等交互式应用的数据管理解决方案。这种数据存储要能够有效管理海量数据片断，又可以透明地将这些小数据片合并成为适合存储于GFS的大文件，也要内生地支持排序索引以在数据检索时最小程度地触发磁盘IO操作，还要能够存储网络爬行而来的海量数据并将其提供给MapReduce及时、快速构建搜索索引。针对这些需求，传统的RDBMS系统的管理能力已难以为继，因此Google的工程师发明了一种新的处理系统，这种系统移除了关系型数据库系统的众多特性而提供一种仅支持CRUD(Create、Read、Update和Delete)操作的简单API，以及一个实现范围或全表遍历的scan功能。2006年，Google将这些研究成果通过“Bigtable: A Distributed Storage System for Structured Data”论文公之于众。

任何对MapReduce、GFS及Bigtable技术感兴的朋友都应该认真读一读Google贡献给全人类的这三篇传世之作。它们也是开源系统Hadoop、HBase等得以构建的理论基石，Hadoop的核心组件为MapReduce和HDFS，其中Hadoop的MapReduce是Google的MapReduce技术的开源实现，HDFS是GFS的开源实现，HBase是Bigtable的开源实现。因此，网站空间，这三篇论文也是深入学习Hadoop、HBase等的基础性材料。

参考资料：

Introduction to Database Systems

Hadoop Operations

Hadoop The Definitive Guide 3rd edtion

HBase The Definitive Guide

HBase in Action

本文出自 “马哥教育” 博客，转载请与作者联系！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1083306.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

VSCode怎么运行Python脚本_VSCode执行和调试Python代码的方法教程

上一篇 2025年12月2日 21:16:30

再战星途《决战》新区“豪情壮志”今日开启

下一篇 2025年12月2日 21:16:31

好文分享

如何用html5_使用HTML5新特性开发网页应用【应用】

需掌握HTML5五大核心特性：一、语义化标签（如header、main、article）提升结构与可访问性；二、Canvas API实现动态绘图与动画；三、localStorage进行客户端持久化存储；四、Geolocation API获取用户地理位置；五、Web Workers执行后台线程任务。 …

程序猿
2025年12月23日
0000
好文分享

构建可持久化任务列表：JavaScript前端实现与常见问题解析

本教程旨在指导开发者如何使用纯JavaScript实现一个基本的待办事项（To-Do List）应用，并解决任务持久化存储问题。文章将详细阐述任务添加逻辑、前端输入框的实时显示机制，以及利用浏览器`localStorage`实现数据保存与加载的方法，同时提供优化建议，确保用户体验和数据完整性。理解…

程序猿
2025年12月23日
0000
好文分享

HTML5WebWorkers怎么用_HTML5WebWorkers后台线程的使用方法与实例

Web Workers是HTML5的多线程机制，通过创建后台线程执行耗时任务，避免阻塞UI线程。1. 创建worker.js文件，编写耗时计算逻辑并监听消息；2. 主页面使用new Worker()加载Worker，通过postMessage发送数据，onmessage接收结果，实现主线程与Work…

程序猿
2025年12月23日
0000
好文分享

Angular应用中动态管理响应式背景图片：从TypeScript到CSS

本教程旨在解决在Angular应用中从TypeScript动态设置CSS背景图片URL的需求。由于CSS文件无法直接引用TypeScript变量，文章将详细介绍如何利用Angular的属性绑定机制，特别是`[ngStyle]`或`[style.background-image]`，将动态图片路径应用…

程序猿
2025年12月23日
0000
好文分享

HTML表单数据怎么传递_HTML表单数据通过getpost传递的原理与区别

答案：GET通过URL传递数据，适合非敏感、小量信息；POST将数据放在请求体中，更安全且支持大数据量和文件上传。 HTML表单数据通过 GET 和 POST 两种方式传递，它们在工作原理、数据传输方式和使用场景上有明显区别。理解这些差异有助于正确选择适合的提交方式。 GET 方法传递数据的原理当…

程序猿
2025年12月23日
0000
好文分享

html5使用web workers运行复杂算法 html5将耗时任务移至后台的实践

Web Workers是HTML5的多线程API，允许JavaScript在后台线程执行耗时任务，避免阻塞主线程。通过new Worker()创建子线程，利用postMessage和onmessage实现主线程与Worker间通信，适用于大数据处理、加密、图像分析等场景。Worker不能操作DOM或…

程序猿
2025年12月23日
0000
好文分享

使用 jQuery 实现表格内容分段显示

本文介绍了如何使用 jQuery 实现表格内容的分段显示效果，即先显示表格的一部分内容，然后逐渐显示剩余部分。通过 `fadeIn()` 和 `fadeOut()` 方法，结合 `setInterval()` 或 `setTimeout()` 函数，可以轻松实现这种动态展示效果，提升用户体验。文章提…

程序猿
2025年12月23日
0000
好文分享

Mac nginx反向代理，CSS加载快到让你尖叫！

Nginx通过启用Gzip压缩、配置静态缓存、开启sendfile及调整worker进程数显著提升CSS等静态资源加载速度，具体包括：1. 启用Gzip并设置压缩级别；2. 为CSS文件设置1年过期时间；3. 开启sendfile和tcp_nopush；4. 根据CPU核心数设置worker_pro…

程序猿
2025年12月23日
0000
好文分享

HTML5代码如何管理客户端存储 HTML5代码中IndexedDB的增删改查

IndexedDB通过增删改查操作实现浏览器端大量结构化数据存储。首先打开数据库并创建对象仓库；接着使用事务添加数据；然后可按主键查询或遍历所有数据；支持获取记录后更新字段；还能根据主键删除指定数据，适用于离线应用与大数据处理场景。 HTML5 提供了多种客户端存储方式，其中 IndexedDB 是…

程序猿
2025年12月23日
0000
好文分享

前台html如何显示_前端HTML页面显示与渲染优化方法

优化前端HTML渲染需缩短关键渲染路径，内联核心CSS、移除冗余代码、延迟非关键JS；预加载重要资源；简化DOM结构；压缩合并文件；使用高效CSS选择器；懒加载非首屏内容。如果您在开发前端页面时发现HTML内容显示缓慢或渲染效果不理想，可能是由于资源加载顺序、DOM结构复杂或CSS阻塞等问题导致。…

程序猿
2025年12月23日
1000
好文分享

怎么使用HTML在线分页组件_HTML在线分页组件使用方法与数据分页方案

答案：使用HTML在线分页需结合前端结构与后端数据控制，通过基础HTML构建分页按钮，CSS美化样式，JavaScript实现前端动态分页，或以后端接口支持大数据分页，配合现成组件库提升效率。使用HTML在线分页组件，核心在于结合前端结构与后端数据控制，实现用户友好、高效加载的分页功能。虽然HTM…

程序猿
2025年12月23日
1000
好文分享

JavaScript实现API数据搜索与动态表格展示

本教程旨在指导如何使用javascript从api获取数据，并在网页表格中动态展示。核心内容包括数据全局存储、利用`array.prototype.filter()`方法实现高效的数据搜索功能，并根据用户输入实时更新表格内容，同时强调代码结构优化和大小写不敏感的搜索实现。在现代前端应用中，从API…

程序猿
2025年12月23日
0000
好文分享

HTML5代码如何创建Web Worker HTML5代码多线程编程的实践方案

Web Worker 是 HTML5 提供的一种让 JavaScript 在后台线程中运行的机制，避免耗时操作阻塞页面渲染。通过 Web Worker，可以实现多线程编程，提升网页性能。创建 Web Worker 的基本步骤要使用 Web Worker，需将需要在后台执行的代码放入一个独立的 J…

程序猿
2025年12月23日
0000
好文分享

html5使用web workers进行多线程计算 html5使用后台任务优化性能

Web Workers是HTML5的多线程机制，可在后台线程运行JS代码，通过postMessage通信，避免阻塞主线程，适用于复杂计算等任务。 HTML5 的 Web Workers 允许在后台线程中运行 JavaScript 代码，避免阻塞主线程，从而提升页面响应速度和整体性能。尤其适用于执行复…

程序猿
2025年12月23日
0000
好文分享

HTML数据如何构建数据集 HTML数据标注与整理的完整流程

答案是构建HTML数据集需经历采集、解析、清洗、标注和整合五步。首先明确目标并用requests或selenium采集HTML；接着用BeautifulSoup或Selenium解析提取结构化数据；然后清洗噪声、统一格式、去重处理；若用于机器学习，需定义标签体系并进行手动或半自动标注；最后导出为CS…

程序猿
2025年12月23日
0000
好文分享

html5文件如何与Web Workers配合 html5文件后台处理的性能优化

通过Web Workers将耗时任务移至后台线程，可避免阻塞UI并提升性能。首先创建worker.js文件存放后台逻辑，确保可访问；在HTML中用new Worker(‘worker.js’)实例化Worker；通过postMessage和onmessage实现主线程与Wor…

程序猿
2025年12月23日
0000
好文分享

html5使用web workers处理大量数据 html5使用非UI线程防止页面卡顿

Web Workers是HTML5的多线程技术，可在后台线程运行JS代码，避免主线程阻塞。它适用于处理大文件、复杂计算等耗时任务，通过postMessage通信，不能操作DOM，需注意数据序列化和资源释放。当网页需要处理大量数据时，比如解析大文件、进行复杂计算或批量操作，JavaScript 主线…

程序猿
2025年12月23日
0000
好文分享

在持续刷新表格中维护数据过滤状态的策略

本文探讨了在通过ajax持续刷新数据的表格中，如何有效解决数据过滤状态丢失的问题。通过分析表格整体替换导致过滤失效的根源，提供了在数据更新后立即重新应用过滤逻辑的解决方案，确保用户在动态数据环境中也能保持一致的筛选视图。引言：动态表格与UI状态维护在现代Web应用中，动态数据表格随处可见，它们通…

程序猿
2025年12月23日
0000
好文分享

如何在HTML中插入图表数据_HTML Canvas与第三方图表库集成方法

答案：HTML中展示图表常用Canvas结合JavaScript绘制基础图形，或集成Chart.js、ECharts等库实现复杂可视化。使用Canvas可定制简单图表，但开发成本高；Chart.js基于Canvas，支持多种响应式、交互式图表，配置灵活；ECharts功能强大，适用于大数据量、高交互…

程序猿
2025年12月23日
0000
好文分享

HTML5在线如何添加图表库 HTML5在线数据分析的集成方法

答案是使用JavaScript图表库结合Ajax/Fetch实现HTML5在线数据分析。首先引入Chart.js等库，创建canvas容器，初始化图表实例，并通过fetch获取后端JSON数据动态更新图表内容，完成数据可视化交互。在HTML5中实现在线数据分析并添加图表库，关键在于引入合适的Jav…

程序猿
2025年12月23日
1000

发表回复

登录后才能评论

Hadoop系列之一：大数据存储及处理平台产生的背景

关于作者

相关推荐

发表回复