分类:: 大数据

0

ElasticSearch 内部机制浅析(三)

前言上篇从分布式的角度阐述了 ES 的分布式设计和思想,这一篇打算与 Lucene 结合起来,摸透一些 ES 的常遇到的概念,我们可以将了解到的这些东西应用到优化实践中去。 废话不多说,进入正题。 ShardShard 实际上是一个 Lucene 的一个实例(Lucene Index),但往往一个 Elastic Index 都是由多个 Shards (primary & replica)

0

ElasticSearch 内部机制浅析(二)

前言上篇大致介绍了 ElasticSearch CRUD 的数据走向和涉及到的 Gossip 算法和每一种节点扮演的角色。我们对 ES 有了初步的认知,这一篇着重从 CAP 的角度去解读 ES 的分布式思想。 Split Brain之前介绍过,对于去中心化的 ES 分布式系统来说,采用默认配置是无法避免脑裂问题的(可以参考前一篇文章的discovery.zen.minimum_master_nod

0

ElasticSearch 内部机制浅析(一)

前言ElasticSearch (以下简称为 ES)从名字上看是搜索引擎,实际上除了搜索的作用,ES 甚至还支持上千台服务器分布式部署以及 PB 级别的可靠性存储,适合构建高可用和可扩展的系统。本文从设计的角度探讨 ES 是如何运作且能够支撑如此庞大的数据量的检索和插入。 节点类型 Master Eligible Node (候选主节点):设置成node.master=true (default)

0

初涉 HBase

背景HBase 基于 Google 的 Bigtable 思想, 附属于 Hadoop 的生态之下,是一个分布式、可扩展、大存储的数据库实现。当你需要随机且实时读写于你的大数据之间,选择 HBase 将会十分受用。 数据结构和基础概念 Table : 表即文件,以下介绍的都是表内元素 Row Key 行键:可以理解为一个单元数据的 ID Column Families 列族 : 定义表的时候需要

0

CDH安装运维小记

理想中的部署蓝图 Hosts 文件这里主要记录我在安装过程中遇到的问题以及解决的办法,跟着文档一步一步走的东西不多赘述。 我这边部署六台服务器(系统版本 CentOS 6.5),如下所示123456192.168.240.100 CDHt-240-100192.168.240.101 CDHt-240-101192.168.240.102 CDHt-240-102192.168.240.103 C