ES-基础-核心能力总览
定位:在理解「什么是 Elasticsearch」之后,系统列出它的核心能力模块,帮助你建立「一张图看懂 ES 能做什么」的能力视图,为后续各专题展开埋点。
大纲
- 全文检索能力(Full-text Search)
- 结构化检索与过滤(Structured Search & Filtering)
- 聚合分析能力(Aggregations)
- 分布式与高可用(Distributed & High Availability)
- 近实时与大规模数据支持(Near Real-Time & Scalability)
- 与 Elastic Stack / 可观测性生态的整合视角
- 和后续学习章节的映射关系
Todo 要点(查漏补缺清单)
1. 全文检索能力
- 说明基于 Lucene 的全文检索特性,是 ES 的根基。
- 列出关键点:
- 分词分析(Analyzer)机制。
- 相关度打分(如 BM25)。
- 支持 multi-field、multi_match、字段权重。
- 用 1-2 个「搜索框」场景说明 ES 在搜索体验上的优势。
2. 结构化检索与过滤
- 说明 ES 不仅能全文检索,还能对结构化字段进行过滤。
- 列出典型结构化能力:
- term 精确匹配、range 范围查询。
- bool 查询组合:多条件过滤。
- filter context:不参与打分,可缓存。
- 点出与传统数据库 WHERE 的心智对照,但强调本质仍是文档存储+倒排结构。
3. 聚合分析能力(近实时 OLAP-ish)
- 说明 Aggregations 的定位:在搜索引擎上叠加近实时统计分析。
- 列出常用聚合:
- terms、range、date_histogram 等 bucket。
- avg、sum、max、percentiles 等 metric。
- 给出 2-3 个例子:
- 日志错误率按时间聚合。
- 商品销售按品类统计。
- 强调:聚合是后续「监控、Dashboard、报表」能力的基础。
4. 分布式与高可用
- 描述基本分布式特性:
- 数据切分到多个 primary shard。
- replica shard 提供高可用和读扩展。
- 提醒:分片/副本策略影响性能、容量、稳定性。
- 为后续「集群架构与生产部署」章节埋点。
5. 近实时与大规模数据支持
- 定义 Near Real-Time(NRT):数据写入到可搜索之间存在小延迟(默认约 1s)。
- 说明 ES 更适合「近实时分析」而非严格强一致事务。
- 点出:
- 水平扩展(加节点、加分片)应对海量数据。
- 适合作为「大规模日志/事件数据平台」的原因。
6. Elastic Stack / 可观测性生态整合
- 列出 Elastic Stack 主要组件:
- Elasticsearch、Kibana、Beats/Agent、Logstash 等。
- 说明典型组合场景:
- 日志平台(Filebeat → Logstash/Ingest → ES → Kibana)。
- Metrics / APM / Security Analytics。
- 留 TODO 钩子:
- 后续在对应实战篇详细展开架构与配置。
7. 与后续章节的映射
- 建立映射关系(可用列表形式,写完勾选):
- 全文检索 → Phase 4(查询 DSL)、Phase 6(分词策略)。
- 结构化检索 → Phase 4(bool/filter)、Phase 6(Mapping)。
- 聚合分析 → Phase 5(聚合)、Phase 11(实战 Dashboard)。
- 分布式与高可用 → Phase 7(集群架构)。
- 性能与近实时 → Phase 8(性能优化)、Phase 9(稳定性)。
- 确认本页作为「索引页」已把所有核心能力指向后续深入章节。