ES-基础-核心能力总览

定位:在理解「什么是 Elasticsearch」之后,系统列出它的核心能力模块,帮助你建立「一张图看懂 ES 能做什么」的能力视图,为后续各专题展开埋点。

大纲

  1. 全文检索能力(Full-text Search)
  2. 结构化检索与过滤(Structured Search & Filtering)
  3. 聚合分析能力(Aggregations)
  4. 分布式与高可用(Distributed & High Availability)
  5. 近实时与大规模数据支持(Near Real-Time & Scalability)
  6. 与 Elastic Stack / 可观测性生态的整合视角
  7. 和后续学习章节的映射关系

Todo 要点(查漏补缺清单)

1. 全文检索能力

  • 说明基于 Lucene 的全文检索特性,是 ES 的根基。
  • 列出关键点:
    • 分词分析(Analyzer)机制。
    • 相关度打分(如 BM25)。
    • 支持 multi-field、multi_match、字段权重。
  • 用 1-2 个「搜索框」场景说明 ES 在搜索体验上的优势。

2. 结构化检索与过滤

  • 说明 ES 不仅能全文检索,还能对结构化字段进行过滤。
  • 列出典型结构化能力:
    • term 精确匹配、range 范围查询。
    • bool 查询组合:多条件过滤。
    • filter context:不参与打分,可缓存。
  • 点出与传统数据库 WHERE 的心智对照,但强调本质仍是文档存储+倒排结构。

3. 聚合分析能力(近实时 OLAP-ish)

  • 说明 Aggregations 的定位:在搜索引擎上叠加近实时统计分析。
  • 列出常用聚合:
    • terms、range、date_histogram 等 bucket。
    • avg、sum、max、percentiles 等 metric。
  • 给出 2-3 个例子:
    • 日志错误率按时间聚合。
    • 商品销售按品类统计。
  • 强调:聚合是后续「监控、Dashboard、报表」能力的基础。

4. 分布式与高可用

  • 描述基本分布式特性:
    • 数据切分到多个 primary shard。
    • replica shard 提供高可用和读扩展。
  • 提醒:分片/副本策略影响性能、容量、稳定性。
  • 为后续「集群架构与生产部署」章节埋点。

5. 近实时与大规模数据支持

  • 定义 Near Real-Time(NRT):数据写入到可搜索之间存在小延迟(默认约 1s)。
  • 说明 ES 更适合「近实时分析」而非严格强一致事务。
  • 点出:
    • 水平扩展(加节点、加分片)应对海量数据。
    • 适合作为「大规模日志/事件数据平台」的原因。

6. Elastic Stack / 可观测性生态整合

  • 列出 Elastic Stack 主要组件:
    • Elasticsearch、Kibana、Beats/Agent、Logstash 等。
  • 说明典型组合场景:
    • 日志平台(Filebeat → Logstash/Ingest → ES → Kibana)。
    • Metrics / APM / Security Analytics。
  • 留 TODO 钩子:
    • 后续在对应实战篇详细展开架构与配置。

7. 与后续章节的映射

  • 建立映射关系(可用列表形式,写完勾选):
    • 全文检索 → Phase 4(查询 DSL)、Phase 6(分词策略)。
    • 结构化检索 → Phase 4(bool/filter)、Phase 6(Mapping)。
    • 聚合分析 → Phase 5(聚合)、Phase 11(实战 Dashboard)。
    • 分布式与高可用 → Phase 7(集群架构)。
    • 性能与近实时 → Phase 8(性能优化)、Phase 9(稳定性)。
  • 确认本页作为「索引页」已把所有核心能力指向后续深入章节。