大数据

2017-04-27

ElasticSearch 内部机制浅析（三）

前言上篇从分布式的角度阐述了 ES 的分布式设计和思想，这一篇打算与 Lucene 结合起来，摸透一些 ES 的常遇到的概念，我们可以将了解到的这些东西应用到优化实践中去。废话不多说，进入正题。 ShardShard 实际上是一个 Lucene 的一个实例（Lucene Index），但往往一个 Elastic Index 都是由多个 Shards （primary & replica）

大数据

2017-04-20

ElasticSearch 内部机制浅析（二）

前言上篇大致介绍了 ElasticSearch CRUD 的数据走向和涉及到的 Gossip 算法和每一种节点扮演的角色。我们对 ES 有了初步的认知，这一篇着重从 CAP 的角度去解读 ES 的分布式思想。 Split Brain之前介绍过，对于去中心化的 ES 分布式系统来说，采用默认配置是无法避免脑裂问题的（可以参考前一篇文章的discovery.zen.minimum_master_nod

大数据

2017-04-15

ElasticSearch 内部机制浅析（一）

前言ElasticSearch （以下简称为 ES）从名字上看是搜索引擎，实际上除了搜索的作用，ES 甚至还支持上千台服务器分布式部署以及 PB 级别的可靠性存储，适合构建高可用和可扩展的系统。本文从设计的角度探讨 ES 是如何运作且能够支撑如此庞大的数据量的检索和插入。节点类型 Master Eligible Node （候选主节点）：设置成node.master=true (default)

APM

2017-04-14

JVM 监控工具小记

jps （JVM 进程状态工具）1jps -lv 通常这样就可以大致看清楚 JVM 应用的基本概况 -l : 输出main类或Jar的全名 -v : 输出携带的 JVM 参数 -m : 输出传入 main 方法的参数 -q : 静默模式，只输出进程号 jstack （查看 JVM 线程堆栈信息）123456789101112131415Usage: jstack [-l] <pi

大数据

2017-04-13

初涉 HBase

背景HBase 基于 Google 的 Bigtable 思想，附属于 Hadoop 的生态之下，是一个分布式、可扩展、大存储的数据库实现。当你需要随机且实时读写于你的大数据之间，选择 HBase 将会十分受用。数据结构和基础概念 Table ：表即文件，以下介绍的都是表内元素 Row Key 行键：可以理解为一个单元数据的 ID Column Families 列族：定义表的时候需要

大数据

2017-04-13

CDH安装运维小记

理想中的部署蓝图 Hosts 文件这里主要记录我在安装过程中遇到的问题以及解决的办法，跟着文档一步一步走的东西不多赘述。我这边部署六台服务器(系统版本 CentOS 6.5)，如下所示123456192.168.240.100 CDHt-240-100192.168.240.101 CDHt-240-101192.168.240.102 CDHt-240-102192.168.240.103 C

技术心得分享

归档: 2017/4