- 理解ACID与BASE的区别(ACID是关系型数据库强一致性的四个要求,而BASE是NoSQL数据库通常对可用性及一致性的弱要求原则,它们的意思分别是,ACID:atomicity, consistency, isolation, durability;BASE:Basically Available, Soft-state, Eventually Consistent。同时有意思的是ACID在英语里意为酸,BASE意思为碱)
- 理解持久化与非持久化的区别。这么说是因为有的NoSQL系统是纯内存存储的。
- 你必须意识到传统有关系型数据库与NoSQL系统在数据结构上的本质区别。传统关系型数据库通常是基于行的表格型存储,而NoSQL系统包括了列式存储(Cassandra)、key/value存储(Memcached)、文档型存储(CouchDB)以及图结构存储(Neo4j)
- 与传统关系数据库有统一的SQL语言操作接口不同,NoSQL系统通常有自己特有的API接口。
- 在架构上,你必须搞清楚,NoSQL系统是被设计用于成百上千台机器的集群中的,而非共享型数据库系统的架构。
- 在NoSQL系统中,可能你得习惯一下不知道你的数据具体存在何处的情况。
- 在NoSQL系统中,你最好习惯它的弱一致性。”eventually consistent”(最终一致性)正是BASE原则中的重要一项。比如在Twitter,你在Followers列表中经常会感受到数据的延迟。
- 在NoSQL系统中,你要理解,很多时候数据并不总是可用的。
- 你得理解,有的方案是拥有分区容忍性的,有的方案不一定有。
1. CouchDB
- 所用语言: Erlang
- 特点:DB一致性,易于使用
- 使用许可: Apache
- 协议: HTTP/REST
- 双向数据复制,
- 持续进行或临时处理,
- 处理时带冲突检查,
- 因此,采用的是master-master复制(见编注2)
- MVCC – 写操作不阻塞读操作
- 可保存文件之前的版本
- Crash-only(可靠的)设计
- 需要不时地进行数据压缩
- 视图:嵌入式 映射/减少
- 格式化视图:列表显示
- 支持进行服务器端文档验证
- 支持认证
- 根据变化实时更新
- 支持附件处理
- 因此, CouchApps(独立的 js应用程序)
- 需要 jQuery程序库
最佳应用场景:适用于数据变化较少,执行预定义查询,进行数据统计的应用程序。适用于需要提供数据版本支持的应用程序。
例如: CRM、CMS系统。 master-master复制对于多站点部署是非常有用的。
(编注2:master-master复制:是一种数据库同步方法,允许数据在一组计算机之间共享数据,并且可以通过小组中任意成员在组内进行数据更新。)
2. Redis
- 所用语言:C/C++
- 特点:运行异常快
- 使用许可: BSD
- 协议:类 Telnet
- 有硬盘存储支持的内存数据库,
- 但自2.0版本以后可以将数据交换到硬盘(注意, 2.4以后版本不支持该特性!)
- Master-slave复制(见编注3)
- 虽然采用简单数据或以键值索引的哈希表,但也支持复杂操作,例如 ZREVRANGEBYSCORE。
- INCR & co (适合计算极限值或统计数据)
- 支持 sets(同时也支持 union/diff/inter)
- 支持列表(同时也支持队列;阻塞式 pop操作)
- 支持哈希表(带有多个域的对象)
- 支持排序 sets(高得分表,适用于范围查询)
- Redis支持事务
- 支持将数据设置成过期数据(类似快速缓冲区设计)
- Pub/Sub允许用户实现消息机制
最佳应用场景:适用于数据变化快且数据库大小可遇见(适合内存容量)的应用程序。
例如:股票价格、数据分析、实时数据搜集、实时通讯。
(编注3:Master-slave复制:如果同一时刻只有一台服务器处理所有的复制请求,这被称为 Master-slave复制,通常应用在需要提供高可用性的服务器集群。)
3. MongoDB
- 所用语言:C++
- 特点:保留了SQL一些友好的特性(查询,索引)。
- 使用许可: AGPL(发起者: Apache)
- 协议: Custom, binary( BSON)
- Master/slave复制(支持自动错误恢复,使用 sets 复制)
- 内建分片机制
- 支持 javascript表达式查询
- 可在服务器端执行任意的 javascript函数
- update-in-place支持比CouchDB更好
- 在数据存储时采用内存到文件映射
- 对性能的关注超过对功能的要求
- 建议最好打开日志功能(参数 –journal)
- 在32位操作系统上,数据库大小限制在约2.5Gb
- 空数据库大约占 192Mb
- 采用 GridFS存储大数据或元数据(不是真正的文件系统)
最佳应用场景:适用于需要动态查询支持;需要使用索引而不是 map/reduce功能;需要对大数据库有性能要求;需要使用 CouchDB但因为数据改变太频繁而占满内存的应用程序。
例如:你本打算采用 MySQL或 PostgreSQL,但因为它们本身自带的预定义栏让你望而却步。
4. HBase
(配合 ghshephard使用)
- 所用语言: Java
- 特点:支持数十亿行X上百万列
- 使用许可: Apache
- 协议:HTTP/REST (支持 Thrift,见编注4)
- 在 BigTable之后建模
- 采用分布式架构 Map/reduce
- 对实时查询进行优化
- 高性能 Thrift网关
- 通过在server端扫描及过滤实现对查询操作预判
- 支持 XML, Protobuf, 和binary的HTTP
- Cascading, hive, and pig source and sink modules
- 基于 Jruby( JIRB)的shell
- 对配置改变和较小的升级都会重新回滚
- 不会出现单点故障
- 堪比MySQL的随机访问性能
最佳应用场景:适用于偏好BigTable:)并且需要对大数据进行随机、实时访问的场合。
例如: Facebook消息数据库(更多通用的用例即将出现)