Hadoop和Couchbase结合使用的技巧(3)

Couchbase Server 概述

Couchbase Server 是一个集群化的、基于文档的数据库系统,它使用一个缓存层来提供非常快的数据访问,将大部分数据都存储在 RAM 中。该系统使用多个节点和一个自动分散在整个集群上的缓存层。这实现了一种弹性,您可扩大和紧缩集群,以便利用更多 RAM 或磁盘 I/O 来帮助提升性能。

Couchbase Server 中的所有数据最终会持久存储在磁盘中,但最初会通过缓存层执行写入和更新操作,这正是提供高性能的源泉,是我们通过处理 Hadoop 数据来获得实时信息和查询内容时可利用的优势。

Couchbase Server 的基本形式是一个基本文档和基于键/值的存储。只有在您知道文档 ID 时,才能检索集群提供的信息。在 Couchbase Server 2.0 中,您可以将文档存储为 JSON 格式,然后使用视图系统在存储的 JSON 文档上创建一个视图。视图是在存储在数据库中的文档上执行的一个 MapReduce 组合。来自视图的输出是一个索引,它通过 MapReduce 函数来匹配您定义的结构。索引的存在为您提供了查询底层的文档数据的能力。

我们可以使用此功能从 Hadoop 获取已处理的信息,将该信息存储在 Couchbase Server 中,然后使用它作为查询该数据的基础。Couchbase Server 可以方便地使用一个 MapReduce 系统来处理文档和创建索引。这在用于处理数据的方法之间提供了一定的兼容性和一致性水平。

安装 Couchbase Server

安装 Couchbase Server 很容易。从 Couchbase 网站下载适合您平台的 Couchbase Server 2.0 版本(参见 参考资料),使用 dpkg 或 RPM(具体依赖于您的平台)安装该包。

安装之后,Couchbase Server 会自动启动。要配置它,请打开一个 Web 浏览器,并将它指向您的机器的 localhost:8091(或使用该机器的 IP 地址远程访问它)。

按照屏幕上的配置说明进行操作。您可使用在安装期间提供的大部分默认设置,但最重要的设置是写入数据库中的数据的数据文件的位置,以及您分配给 Couchbase Server 的 RAM 量。

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:http://www.heiqu.com/46d1805b0843d2593122f7e8650be7f3.html