Apache flink和spark对比，哪个更好一目了然

2021-05-2922:20:57已关闭评论

摘要

Flink 和 Spark 都是大数据技术工具，在科技行业很受欢迎，因为它们可以快速解决大数据问题。但是在分析Flink Vs时。Spark在速度方面，Flink优于Spark，因为它的底层架构。

Apache Flink 和 Apache Spark 都是通用的数据处理平台，它们分别具有许多应用程序。它们都可以在独立模式下使用，并且具有强大的性能。

另一方面，Spark 拥有强大的社区支持和大量的贡献者。比较两者的流处理能力时，Flink 处理数据流要好得多，而 Spark 处理的是微批处理。

它们有一些相似之处，例如类似的 API 和组件，但它们在数据处理方面存在一些差异。在大数据领域，Apache Spark 和 Flink 是两大主要技术。关于它们以及这两种技术的特性和功能，总是存在一些混淆。

Apache Spark 和 Apache Flink 的介绍

Apache Spark 和 Flink迅速占领了Hadoop 大数据市场，这些技术可以提供各种工作角色。由于 Flunk 的出现，Spark 存在一些局限性。在这里，我们将详细讨论它们，因此请继续阅读以进一步了解它们。

Apache Spark 介绍

Apache Spark 是一个开源的集群计算框架，该技术在全球拥有庞大的用户群。用于编写 Spark 的基本语言是R、Java、Python和 Scala，它们为程序员提供了一个 API，以构建一个容错和只读的多组数据项。在发布后的短时间内（204 年 5 月），仅凭它的高速、处理复杂分析需求的能力和易用性就必须占据很大的市场份额。

引入 Apache Spark 是为了最大限度地减少 Hadoop MapReduce 和大数据技术的一些限制。它的速度比 MapReduce 快得多，使其更强大的因素之一是它能够将中间结果保存在内存中。在这里，数据不会写回磁盘或再次从磁盘读取，这可能会变得困难，特别是对于基于迭代的用例。因此，以下是 Spark 的一些主要优势：

易用性：Apache Spark 的 API 易于使用，专为操作大型数据集而构建
高速：Apache Spark 可以批量执行流程，因此一次它可以以比 MapReduce 快 10 到 100 倍的速度运行和处理作业。高速并不意味着用户必须在其磁盘数据写入速度上妥协；相反，它是大规模磁盘排序方面的世界纪录保持者。
内存数据共享：不同的作业可能需要共享内存中的数据，它可以使其成为交互式、迭代和事件流处理任务的理想选择。
统一引擎：Spark 可以在 Hadoop 上运行，这就是为什么它也可以在 Hadoop 集群管理器 (YARN) 和 HDFS、HBase 等上运行，如底层存储。但是，用户也可以通过将 Spark 与其他集群管理器和存储平台（如 Amazon S3 和 Cassandra）一起使用，而无需 Hadoop 即可独立使用 Spark。它还具有许多更高级别的库，可以支持 SQL 查询、机器学习、图形处理和数据流。
从 Scala、Java 和 Python 中选择：当您使用 Spark 时，您不必使用任何一种语言，即使您愿意使用任何流行的语言，如 R、Python、Java甚至 Clojure。
扩大和活跃的用户社区：由于活跃的用户社区，Spark 用户可以在发布后的两年内获得稳定的 Spark 版本。正因为如此，它在世界范围内被接受，并且其受欢迎程度不断上升。

Apache Flink 介绍

Apache Flink 是开源框架的最新加入者，用于大数据分析，并试图取代 MapReduce 一个类似的框架是 Spark。Flink 于 2016 年 3 月发布，仅用于在内存中处理 Spark 等批处理数据作业。当涉及到相同数据项的多次迭代处理时，Flink 被认为非常方便。对于机器学习和其他自学习、自适应学习等用例，它应该是一个理想的候选者。随着物联网技术的兴起，Flink 社区也面临着一些挑战。Flink 的一些显着优势包括：

更好的内存管理：Flink 使用显式内存管理，可以帮助摆脱 Spark 框架中偶尔出现的峰值
实际的流处理引擎：它具有批处理的能力，而不是其他的。
速度：它可以管理更快的速度，这可能需要在同一节点上进行迭代处理，而不是使用多个集群来独立运行它们。也可以通过调整它以仅重新处理已更改的数据部分而不是未更改的数据部分来提高性能。与标准处理算法相比，它可以将速度提高五倍。

Apache Spark 和 Apache Flink 的对比

特征	Apache Spark	Apache Flink
数据处理	Apache Spark 是 Hadoop 生态系统的一部分。基本上，它是一个批处理系统，但它也支持流处理。	Flink 为批处理和数据流功能提供了单一的运行时。
流媒体引擎	Apache Spark 以微批次的方式处理数据。这里每个批次都包含在批次期间到达的事件集合。但对于一些用例，有时用户可能还必须处理大型数据流以提供实时结果。	Flink 是一个真正的流媒体引擎。Flink 使用的工作负载流有 micro-batch、batch 和SQL。Batch 是流式数据有限集。
数据流	Spark 可以将循环数据流表示为有向无环图或 DAG。然而，机器学习算法是循环数据流。	Flink 使用的方法完全不同。在这种方法中使用了运行时控制的循环依赖图。通过这种方式，可以有效地表示机器学习算法。
内存管理	Spark 提供可配置的内存管理。现在在最新的 Spark 版本中，为用户提供了自动内存管理。	Flink 还提供自动内存管理。除了 Java 的垃圾收集器之外，它使用自己的内存管理系统。例如容错、安全、成本、速度、延迟
容错	Apache Spark 的容错级别相当高，不需要任何额外的代码和配置就可以恢复丢失的工作。它始终提供仅一次语义。	Flink 遵循 Chandy-Lamport 分布式快照机制来处理容错。轻量级机制可以保持高吞吐率，同时保证强一致性。
可扩展性	Spark 是一个高度可扩展的框架，在任何集群中都可以不断增加节点的数量。已知最大的 Spark 集群大约有 8000 个节点。	Flink 的可扩展性也很高，可以在集群中不断添加多个节点。Flink 最大的集群大约有 1000 个节点。
迭代处理	Spark 批量迭代数据。每个 Spark 迭代都必须单独执行和调度。可以安排 Spark 数据进行处理，以便您可以离开某些进程。	Flink 数据流由流式架构执行。Flink 只能处理部分数据部分，尤其是实际发生变化的部分；它可以显着提高性能。
语言支持	Apache Spark 支持 Scala、Java、Python 和 R。Spark 在 Scala 中实现，并提供许多其他流行编程语言的 API，包括 Java、Python 和 R。	另一方面，Flink 也支持 Java、Scala、Python 和 R，但是是用 Java 实现的。您也可以在此获取 Scala API。
优化	Apache Scala 的作业必须手动优化。在 MapReduce 的情况下，一些方法用于此目的：通过使用组合器，正确配置集群，使用 LZO 压缩，通过使用适当的可写数据类型，以及适当调整 MapReduce 任务的数量。	Apache Flink 还带有一个不依赖于实际编程接口的优化器。该优化器的工作原理与关系数据库优化器类似，但优化器必须应用于 Flink 程序而不是 SQL 查询。
潜伏	与 MapReduce 相比，Apache Spark 是一个相对更快的批处理系统，因为大部分输入数据被 RDD 捕获在内存中，而中间数据则保存在内存中。在这里，当数据在需要时完成时，数据最终会写回到磁盘上。	以Apache Flink为例，数据流运行时是通过高吞吐量和低风险来实现的，也可以说是低延迟。
安全	Apache Spark 安全方面和功能有点稀少，目前仅支持通过共享密码的共享密码进行身份验证。如果 Spark 在 HDFS 上运行，那么它可以使用 HDFS ACL 和文件级权限。此外，如果 Spark 运行在 YARN 上，Kerberos 身份验证也可以被 Spark 使用。	另一方面，Flink 支持通过 Hadoop/Kerberos 基础设施进行用户身份验证。如果 Flink 运行在 YARN 上，那么它可以获取用户提交用户程序的 Kerberos 令牌，然后它可以在 HBase、HDFS 和 YARN 上进行身份验证。Flink 即将推出的连接器流程序可以通过 SSL 进行身份验证。
成本	Spark 可能需要大量 RAM 才能在内存中运行，当它在集群中运行时，其成本会逐渐增加。	在 Apache Flink 的情况下，还需要大量 RAM 才能在内存中运行，因此 Flink 的成本再次超出预期。