NoSQL数据库探讨之一 - 为什么要用非关系数据库?

数据库 随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问

数据库 随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。而传统的关系数据库在应付web2.0网站,特别是超大规模和高并发的sns类型的web2.0纯动态网站已经显得力不从心,暴露了很多难以克服的问题,例如:

1、high performance – 对数据库高并发读写的需求
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态页面静态化技术,虚拟主机,因此数据库并发负载非常高,往往要达到每秒上万次读写请求。关系数据库应付上万次sql查询还勉强顶得住,但是应付上万次sql写数据请求,硬盘io就已经无法承受了。其实对于普通的bbs网站,往往也存在对高并发写请求的需求,例如像javaeye网站的实时统计在线用户状态,记录热门帖子的点击次数,投票计数等,因此这是一个相当普遍的需求。

2、huge storage – 对海量数据的高效率存储和访问的需求
类似facebook,twitter,friendfeed这样的sns网站,每天用户产生海量的用户动态,以friendfeed为例,一个月就达到了2.5亿条用户动态,对于关系数据库来说,在一张2.5亿条记录的表里面进行sql查询,效率是极其低下乃至不可忍受的。再例如大型web网站的用户登录系统,例如腾讯,盛大,动辄数以亿计的帐号,关系数据库也很难应付。

3、high scalability && high availability- 对数据库的高可扩展性和高可用性的需求
在基于web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增的时候,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力。对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,为什么数据库不能通过不断的添加服务器节点来实现扩展呢?

在上面提到的“三高”需求面前,关系数据库遇到了难以克服的障碍,而对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地,例如:

1、数据库事务一致性需求
很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低,有些场合对写一致性要求也不高。因此数据库事务管理成了数据库高负载下一个沉重的负担。

2、数据库的写实时性和读实时性需求
对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不要求这么高的实时性,比方说我(javaeye的robbin)发一条消息之后,过几秒乃至十几秒之后,我的订阅者才看到这条动态是完全可以接受的。

3、对复杂的sql查询,特别是多表关联查询的需求
任何大数据量的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂sql报表查询,特别是sns类型的网站,从需求以及产品设计角度,就避免了这种情况的产生。往往更多的只是单表的主键查询,以及单表的简单条件分页查询,sql的功能被极大的弱化了。

因此,关系数据库在这些越来越多的应用场景下显得不那么合适了,为了解决这类问题的非关系数据库应运而生,现在这两年,各种各样非关系数据库,特别是键值数据库(key-value store db)风起云涌,多得让人眼花缭乱。前不久国外刚刚举办了nosql conference,美国空间,各路nosql数据库纷纷亮相,加上未亮相但是名声在外的,起码有超过10个开源的nosqldb,例如:

redis,tokyo cabinet,cassandra,voldemort,mongodb,dynomite,hbase,couchdb,hypertable, riak,tin, flare, lightcloud, kiokudb,scalaris, kai, thrudb,  ……

这些nosql数据库,有的是用c/c++编写的,有的是用java编写的,还有的是用erlang编写的,每个都有自己的独到之处,看都看不过来了,我(robbin)也只能从中挑选一些比较有特色,看起来更有前景的产品学习和了解一下。这些nosql数据库大致可以分为以下的三类:

一、满足极高读写性能需求的kye-value数据库:redis,tokyo cabinet, flare

高性能key-value数据库的主要特点就是具有极高的并发读写性能,redis,tokyo cabinet, flare,这3个key-value db都是用c编写的,他们的性能都相当出色,但出了出色的性能,他们还有自己独特的功能:

1、redis
redis是一个很新的项目,刚刚发布了1.0版本。redis本质上是一个key-value类型的内存数据库,很像memcached,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据flush到硬盘上进行保存。因为是纯内存操作,redis的性能非常出色,每秒可以处理超过10万次读写操作,是我知道的性能最快的key-value db。

redis的出色之处不仅仅是性能,redis最大的魅力是支持保存list链表和set集合的数据结构,而且还支持对list进行各种操作,例如从list两端push和pop数据,取list区间,排序等等,对set支持各种集合的并集交集操作,此外单个value的最大限制是1gb,不像memcached只能保存1mb的数据,因此redis可以用来实现很多有用的功能,比方说用他的list来做fifo双向链表,实现一个轻量级的高性能消息队列服务,用他的set可以做高性能的tag系统等等。另外redis也可以对存入的key-value设置expire时间,因此也可以被当作一个功能加强版的memcached来用。

redis的主要缺点是数据库容量受到物理内存的限制,不能用作海量数据的高性能读写,并且它没有原生的可扩展机制,不具有scale(可扩展)能力,要依赖客户端来实现分布式读写,因此redis适合的场景主要局限在较小数据量的高性能操作和运算上。目前使用redis的网站有github,engine yard。

2、tokyo cabinet和tokoy tyrant
tc和tt的开发者是日本人mikio hirabayashi,主要被用在日本最大的sns网站mixi.jp上,tc发展的时间最早,现在已经是一个非常成熟的项目,也是kye-value数据库领域最大的热点,现在被广泛的应用在很多很多网站上。tc是一个高性能的存储引擎,而tt提供了多线程高并发服务器,性能也非常出色,每秒可以处理4-5万次读写操作。

tc除了支持key-value存储之外,还支持保存hashtable数据类型,因此很像一个简单的数据库表,并且还支持基于column的条件查询,分页查询和排序功能,基本上相当于支持单表的基础查询功能了,所以可以简单的替代关系数据库的很多操作,这也是tc受到大家欢迎的主要原因之一,有一个ruby的项目miyazakiresistance将tt的hashtable的操作封装成和activerecord一样的操作,用起来非常爽。

tc/tt在mixi的实际应用当中,存储了2000万条以上的数据,同时支撑了上万个并发连接,是一个久经考验的项目。tc在保证了极高的并发读写性能的同时,具有可靠的数据持久化机制,同时还支持类似关系数据库表结构的hashtable以及简单的条件,分页和排序操作,是一个很棒的nosql数据库。

tc的主要缺点是在数据量达到上亿级别以后,并发写数据性能会大幅度下降,nosql: if only it was that easy提到,他们发现在tc里面插入1.6亿条2-20kb数据的时候,写入性能开始急剧下降。看来是当数据量上亿条的时候,tc性能开始大幅度下降,从tc作者自己提供的mixi数据来看,至少上千万条数据量的时候还没有遇到这么明显的写入性能瓶颈。

这个是tim yang做的一个memcached,redis和tokyo tyrant的简单的性能评测,仅供参考

3、flare
tc是日本第一大sns网站mixi开发的,而flare是日本第二大sns网站green.jp开发的,有意思吧。flare简单的说就是给tc添加了scale功能。他替换掉了tt部分,自己另外给tc写了网络服务器,flare的主要特点就是支持scale能力,他在网络服务端之前添加了一个node server,来管理后端的多个服务器节点,因此可以动态添加数据库服务节点,删除服务器节点,也支持failover。如果你的使用场景必须要让tc可以scale,那么可以考虑flare。

flare唯一的缺点就是他只支持memcached协议,因此当你使用flare的时候,就不能使用tc的table数据结构了,只能使用tc的key-value数据结构存储。

二、满足海量存储需求和访问的面向文档的数据库:mongodb,couchdb

面向文档的非关系数据库主要解决的问题不是高性能的并发读写,而是保证海量数据存储的同时,具有良好的查询性能。mongodb是用c++开发的,而couchdb则是erlang开发的:

1、mongodb
mongodb是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

mongo主要解决的是海量数据的访问效率问题,根据官方的文档,当数据量达到50gb以上的时候,mongo的数据库访问速度是mysql的10倍以上。mongo的并发读写效率不是特别出色,根据官方提供的性能测试表明,大约每秒可以处理0.5万-1.5次读写请求。对于mongo的并发读写性能,我(robbin)也打算有空的时候好好测试一下。

因为mongo主要是支持海量数据存储的,所以mongo还自带了一个出色的分布式文件系统gridfs,可以支持海量的数据存储,但我也看到有些评论认为gridfs性能不佳,这一点还是有待亲自做点测试来验证了。

最后由于mongo可以支持复杂的数据结构,而且带有强大的数据查询功能,因此非常受到欢迎,很多项目都考虑用mongodb来替代mysql来实现不是特别复杂的web应用,比方说why we migrated from mysql to mongodb就是一个真实的从mysql迁移到mongodb的案例,由于数据量实在太大,所以迁移到了mongo上面,数据查询的速度得到了非常显著的提升。

mongodb也有一个ruby的项目mongomapper,是模仿merb的datamapper编写的mongodb的接口,使用起来非常简单,几乎和datamapper一模一样,功能非常强大易用。

2、couchdb
couchdb现在是一个非常有名气的项目,似乎不用多介绍了。但是我却对couchdb没有什么兴趣,主要是因为couchdb仅仅提供了基于http rest的接口,因此couchdb单纯从并发读写性能来说,是非常糟糕的,这让我立刻抛弃了对couchdb的兴趣。

三、满足高可扩展性和可用性的面向分布式计算的数据库:cassandra,voldemort

面向scale能力的数据库其实主要解决的问题领域和上述两类数据库还不太一样,它首先必须是一个分布式的数据库系统,由分布在不同节点上面的数据库共同构成一个数据库服务系统,并且根据这种分布式架构来提供online的,具有弹性的可扩展能力,例如可以不停机的添加更多数据节点,删除数据节点等等。因此像cassandra常常被看成是一个开源版本的google bigtable的替代品。cassandra和voldemort都是用java开发的:

1、cassandra
cassandra项目是facebook在2008年开源出来的,随后facebook自己使用cassandra的另外一个不开源的分支,而开源出来的cassandra主要被amazon的dynamite团队来维护,并且cassandra被认为是dynamite2.0版本。目前除了facebook之外,twitter和digg.com都在使用cassandra。

cassandra的主要特点就是它不是一个数据库,而是由一堆数据库节点共同构成的一个分布式网络服务,对cassandra的一个写操作,会被复制到其他节点上去,对cassandra的读操作,也会被路由到某个节点上面去读取。对于一个cassandra群集来说,扩展性能是比较简单的事情,只管在群集里面添加节点就可以了。我看到有文章说facebook的cassandra群集有超过100台服务器构成的数据库群集。

cassandra也支持比较丰富的数据结构和功能强大的查询语言,和mongodb比较类似,查询功能比mongodb稍弱一些,twitter的平台架构部门领导evan weaver写了一篇文章介绍cassandra:,有非常详细的介绍。

cassandra以单个节点来衡量,其节点的并发读写性能不是特别好,有文章说评测下来cassandra每秒大约不到1万次读写请求,我也看到一些对这个问题进行质疑的评论,但是评价cassandra单个节点的性能是没有意义的,香港服务器,真实的分布式数据库访问系统必然是n多个节点构成的系统,其并发性能取决于整个系统的节点数量,路由效率,而不仅仅是单节点的并发负载能力。

2、voldemort
voldemort是个和cassandra类似的面向解决scale问题的分布式数据库系统,cassandra来自于facebook这个sns网站,而voldemort则来自于linkedin这个sns网站。说起来sns网站为我们贡献了n多的nosql数据库,例如cassandar,voldemort,tokyo cabinet,flare等等。voldemort的资料不是很多,因此我没有特别仔细去钻研,voldemort官方给出voldemort的并发读写性能也很不错,每秒超过了1.5万次读写。

从facebook开发cassandra,linkedin开发voldemort,我们也可以大致看出国外大型sns网站对于分布式数据库,特别是对数据库的scale能力方面的需求是多么殷切。前面我(robbin)提到,web应用的架构当中,web层和app层相对来说都很容易横向扩展,唯有数据库是单点的,极难scale,现在facebook和linkedin在非关系型数据库的分布式方面探索了一条很好的方向,这也是为什么现在cassandra这么热门的主要原因。

如今,nosql数据库是个令人很兴奋的领域,总是不断有新的技术新的产品冒出来,改变我们已经形成的固有的技术观念,我自己(robbin)稍微了解了一些,就感觉自己深深的沉迷进去了,可以说nosql数据库领域也是博大精深的,我(robbin)也只能浅尝辄止,我(robbin)写这篇文章既是自己一点点钻研心得,也是抛砖引玉,希望吸引对这个领域有经验的朋友来讨论和交流。

从我(robbin)个人的兴趣来说,分布式数据库系统不是我能实际用到的技术,因此不打算花时间深入,而其他两个数据领域(高性能nosqldb和海量存储nosqldb)都是我很感兴趣的,特别是redis,tt/tc和mongodb这3个nosql数据库,因此我接下来将写三篇文章分别详细介绍这3个数据库。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/832303.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
macos12.6支持哪些设备
上一篇 2025年11月27日 08:40:02
几行代码安装,免费做图无上限:Stability AI公布DreamStudio开源版本
下一篇 2025年11月27日 08:40:03

相关推荐

  • 理解编程指令:当结果正确,但实现方式不符要求时

    本文探讨了在编程实践中,即使程序输出了正确的结果,但若其实现方式未能严格遵循既定指令,仍可能被视为“不正确”的问题。我们将通过具体示例,对比直接求和与累加求和两种实现策略,强调理解和遵守编程规范的重要性,以确保代码的健壮性、可维护性及符合项目要求。 在软件开发过程中,我们经常会遇到这样的情况:编写的…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000
  • JS如何实现迭代器?迭代器协议

    JavaScript中实现迭代器需遵循可迭代协议和迭代器协议,通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象,从而支持for…of和展开运算符;该机制统一了数据结构的遍历接口,实现惰性求值,适用于自定义对象、树、图及无限序列等复杂场景,提升代码通用性与…

    2026年5月10日
    100
  • MySQL数据库不支持中文的解决办法

    接上一篇文章,在解决了mysql+flask环境配置问题之后,往数据库存中文字符串会报1366错误,提示不正确的字符。继而发现默认的mysql采用了latin1字符集,这种编码是不支持中文的。 如果想支持中文的话,需要设置一下mysql字符集。 众所周知utf-8是可以的,gbk也没问题,为了可扩展…

    用户投稿 2026年5月10日
    000
  • Golang使用Protobuf定义接口与消息格式

    Protobuf通过字段编号实现兼容性,新增字段可忽略、删除字段可保留编号,确保新旧版本互操作,支持服务独立演进。 在Golang项目中,利用Protobuf定义接口和消息格式,本质上是为服务间通信构建了一套高效、类型安全且跨语言的契约。它让数据结构清晰可见,RPC调用标准化,极大地简化了分布式系统…

    2026年5月10日
    000
  • HTML文档的基本结构是什么? 3分钟带你了解HTML文档基础框架

    html文档的基础结构由四部分组成:1. 声明,用于告知浏览器以html5标准模式解析页面,避免怪异模式导致的兼容性问题;2. 根元素,包裹整个文档内容,并可通过lang属性指定语言;3. 头部区域,包含元数据如设置字符编码、实现响应式布局、定义页面标题、引入css和favicon、加载脚本等;4.…

    2026年5月10日
    000
  • Android和iOS系统下,HTML+JS代码运行结果差异:为什么input宽度为0时,Android输入方向异常?

    Android和iOS系统HTML+JS代码运行差异分析:input宽度为0引发的Android输入方向异常 开发OTP输入组件时,我们发现一个有趣的现象:当input元素的宽度设置为0 (style=”width: 0;”)时,Android系统下的输入方向会异常,而iOS系统则正常工作。 移除w…

    2026年5月10日
    000
  • JavaScript设计原则_JavaScript可维护代码

    每个函数应只做一件事,如拆分数据处理与DOM操作,命名体现功能(如formatDate),长度控制在20行内;2. 使用清晰命名(如currentUser、isValid)减少注释依赖,关键逻辑注明“为什么”;3. 按功能模块化组织代码,如api.js处理请求,utils.js存放工具函数,使用im…

    2026年5月10日
    000
  • C++如何编译和链接_C++从源码到可执行文件的过程解析

    c++kquote>预处理展开宏和头文件,编译生成汇编代码,汇编转为机器码,链接合并目标文件与库生成可执行程序。 当你写完一段C++代码,比如一个简单的hello world程序,最终能运行起来,背后其实经历了一系列步骤:预处理、编译、汇编和链接。这个过程将人类可读的源码转换成机器可以执行的程…

    2026年5月10日
    000
  • Python继承中父类属性的初始化与访问策略

    本文深入探讨python面向对象编程中,子类如何正确初始化和访问父类属性。重点分析`super().__init__()`的工作原理,解释在继承链中参数传递的重要性,并提供通过子类构造函数传递参数的解决方案。此外,针对子类需要与特定父类实例交互的场景,文章还介绍了组合(composition)模式的…

    2026年5月10日
    000
  • javascript生命周期钩子是什么_组件有哪些关键阶段?

    JavaScript原生无生命周期钩子,这是Vue、React等框架为组件设计的机制;Vue按创建、挂载、更新、卸载四阶段提供对应钩子,React类组件有明确生命周期方法,函数组件则通过useEffect模拟,其核心价值在于精准控制执行时机以避免DOM操作错误和内存泄漏。 JavaScript 本身…

    2026年5月10日
    100
  • 解决PHP foreach循环中变量“继承”问题:理解与避免意外数据泄露

    本文探讨PHP foreach循环中一个常见的陷阱:当循环内部的数组或变量未被显式初始化时,其值可能会“继承”自上一次循环迭代,导致意外的数据泄露和逻辑错误。文章将深入分析这一现象的根源,并通过示例代码展示如何通过在每次迭代开始时正确初始化变量来解决此问题,确保代码行为的预期一致性。 引言:fore…

    2026年5月10日
    100
  • 为什么专注如此重要?

    在快节奏的数字时代,程序员能否保持专注直接影响着代码质量、项目进度和错误率。 高效专注,才能在开发过程中游刃有余。本文将分享一些实用技巧,助您提升编程专注力,高效完成任务。 专注力为何如此重要? 专注力是程序员的核心竞争力。编码需要高度集中,处理细节、逻辑和问题,稍一分神就可能导致错误百出,返工耗时…

    2026年5月10日
    300
  • JavaScript中逻辑AND运算符的语法陷阱解析

    本文深入探讨了javascript中逻辑and (`&&`) 运算符在特定场景下引发语法错误的原因。通过对比 `1 && {}` 和 `{} && 1` 两种表达式,揭示了javascript解析器对对象字面量 `{}` 的不同解释机制,特别是当 `{…

    2026年5月10日
    000
  • Go语言:检查预编译库的构建版本与平台信息

    本文详细介绍了如何利用go语言内置的`go tool pack`工具,从预编译的go静态库(`.a`文件)中提取其构建信息,包括go编译器版本、操作系统和cpu架构。当`go build`因库版本不匹配而失败时,此方法能帮助开发者准确诊断问题,确保构建环境与库的兼容性。 在Go语言的开发实践中,我们…

    2026年5月10日
    000
  • JavaScript中实时获取表单输入值:避免常见陷阱

    本教程深入探讨在javascript中如何正确地实时获取html表单输入框的值。许多开发者在初次尝试时可能遇到`alert`函数无法显示最新输入内容的问题,这通常是由于变量作用域和代码执行时机不当所致。文章将通过对比错误与正确的代码示例,详细解释其背后的原理,并提供最佳实践,确保您能够准确捕获用户在…

    2026年5月10日
    100
  • 如何理解C++中指针的类型决定了它如何解释内存

    指针的类型决定内存解释方式,包括读取字节数和算术运算步长。例如int读4字节,char读1字节,且p++按类型大小移动地址,确保数组正确遍历,编译器依类型生成访问指令,类型不同则数据解释结果不同,故指针类型至关重要。 在C++中,指针的类型决定了它如何解释所指向的内存,这主要体现在两个方面:一是每次…

    2026年5月10日
    000
  • 掌握 ESeatures:JavaScript 中的 let、const 和类

    深入理解ES6特性:let、const与类 ECMAScript 2015 (ES6) 引入了一系列强大的特性,彻底革新了JavaScript开发。其中,let、const和class关键字对于编写现代化、简洁高效的JavaScript代码至关重要。 1. let关键字 let用于声明具有块级作用域…

    2026年5月10日
    100
  • 使用 populateDropdown 简化您的下拉菜单管理

    让我们开始吧!假设您正在构建一个动态 web 应用程序,常见任务之一是根据各种数据源填充下拉菜单。如果没有简化的方法,您会发现自己编写重复且容易出错的代码,这对于维护来说可能是一场噩梦。这时,一个简单而强大的函数(如 populatedropdown)可以发挥作用。它消除了麻烦,让您的生活变得更加轻…

    2026年5月10日
    100
  • BOM中如何检测用户的剪贴板内容?

    BOM中如何检测用户的剪贴板内容?BOM中如何检测用户的剪贴板内容?BOM中如何检测用户的剪贴板内容?BOM中如何检测用户的剪贴板内容?

    浏览器直接访问剪贴板内容受限的原因是为了保护用户隐私和安全,防止恶意网站窃取敏感信息。解决方案包括:1. 监听 cut 和 copy 事件以获取用户选中的文本;2. 使用需用户授权的异步剪贴板 api 读取内容;3. 对于不支持异步 api 的浏览器,可使用过时但兼容的 document.execc…

    2026年5月10日 用户投稿
    000

发表回复

登录后才能评论
关注微信