标签库

大数据全家桶

大数据（Big Data）指的是超大规模的数据集，这些数据集由于其体量庞大、种类繁多、增长速度快，传统的数据处理工具难以有效处理。大数据不仅仅是对数据量的扩展，更是对数据处理、分析和应用的全面革新。

相关标签

查看该标签库下的内容标签。

Apache Flink

Apache Flink 是一个用于可扩展批处理和流数据处理的开源平台。Flink 在一个系统中支持批处理和流分析。分析程序可以用 Java 和 Scala 中简洁、优雅的 API 编写。

5 个问答

Tremor

Tremor 是一个开源的事件处理系统和实时数据处理引擎，主要用于处理和分析大规模、高频率的消息流。它被设计为一个可编程、低延迟、高吞吐的数据处理系统，特别适合于物联网（IoT）、实时分析、监控和复杂事件处理（CEP）等用途。

Apache Hive

Apache Hive 是可实现大规模分析的分布式容错数据仓库系统。该数据仓库集中存储信息，您可以轻松对此类信息进行分析，从而做出明智的数据驱动决策。Hive 让用户可以利用 SQL 读取、写入和管理 PB 级数据。

2 个问答

Apache Hadoop

Apache Hadoop 是一种开源框架，用于高效存储和处理从 GB 级到 PB 级的大型数据集。利用 Hadoop，您可以将多台计算机组成集群以便更快地并行分析海量数据集，而不是使用一台大型计算机来存储和处理数据。

4 个问答1 道面试题

Apache Spark

Apache Spark 是一个开源的统一分析引擎，主要用于大规模数据处理。它提供了对数据批处理和流处理的高速处理能力，并支持多种编程语言（如 Java、Scala、Python 和 R）。Spark 由 Apache 软件基金会维护，并且在大数据生态系统中占有重要地位。

Apache HBase

Apache HBase 是一个分布式的、面向列的开源数据库，基于 Hadoop 文件系统（HDFS）构建，旨在处理大规模的结构化数据存储。HBase 最初由 Google 的 Bigtable 论文启发，并成为了 Hadoop 生态系统中的关键组成部分。它能够提供实时读写访问，并支持随机、实时的读写需求，非常适合处理大数据应用场景。

Apache Kudu

Apache Kudu 是一个为 Hadoop 生态系统设计的开源列式存储引擎，于 2015 年由 Cloudera 公司开发并捐赠给 Apache 软件基金会。Kudu 旨在结合传统 Hadoop 生态系统（如 HDFS）的高吞吐量和低延迟的数据访问能力，提供高效的随机读写和快速的分析查询能力。

Apache Storm

Apache Storm 是一个分布式实时计算系统，专门用于处理大规模的数据流。它最初由 Twitter 开发并于 2011 年开源，后来成为 Apache 软件基金会的顶级项目。Storm 允许开发者创建实时数据处理应用（称为拓扑），并能够在分布式环境中低延迟、高吞吐量地处理数据流。

Tez

支持DAG作业的开源计算框架。相对于MapReduce性能更好，主要原因在于其将作业描述为DAG（有向无环图），这一点与Spark类似

Zookeeper

Zookeeper是一种分布式协调服务，它提供了一组简单的原语，可以帮助开发人员构建分布式应用程序。Zookeeper的核心功能是管理和协调分布式应用程序中的进程，这些进程需要协调访问共享资源或协调执行任务。Zookeeper通过维护一个分层命名空间和状态树来实现这一点，应用程序可以向Zookeeper注册自己的状态，其他应用程序可以在Zookeeper上监听这些状态。Zookeeper还提供了一些其他的功能，如分布式锁和队列，以帮助开发人员构建高可用性、可伸缩性和可靠性的分布式系统。Zookeeper通常与Hadoop、Kafka和其他分布式系统一起使用。

4 个问答12 道面试题