Flink 小贴士 (6): 使用 Broadcast State 的 4 个注意事项

发表于 2018-11-28 | 分类于 Flink |

在 Apache Flink 1.5.0 中引入了广播状态（Broadcast State）。本文将描述什么是广播状态模式（Broadcast State Pattern），广播状态与其他的 Operator State 有什么区别，最后，我们在 Flink 中使用该功能时需要考虑的一些重要的注意事项。

阅读全文 »

Flink 小贴士 (5): Savepoint 和 Checkpoint 的 3 个不同点

发表于 2018-11-25 | 分类于 Flink |

在本文中，我们将阐述 Savepoint 和 Checkpoint 是什么，它们主要用在什么时候，以及对比它们的主要区别。

阅读全文 »

Flink 小贴士 (4): 如何选择状态后端

发表于 2018-11-21 | 分类于 Flink |

本文我们将深入探讨有状态的流处理，更确切地说是 Apache Flink 中不同的状态后端（state backend）。在以下部分，我们将介绍 Apache Flink 的 3 种状态后端，它们的局限性以及根据具体案例需求选择最合适的状态后端。

阅读全文 »

Flink 小贴士 (3): 轻松理解 Watermark

发表于 2018-11-18 | 分类于 Flink |

当人们第一次使用 Flink 时，经常会对 watermark 感到困惑。但其实 watermark 并不复杂。让我们通过一个简单的例子来说明为什么我们需要 watermark，以及它的工作机制是什么样的。

阅读全文 »

一文了解 Apache Flink 核心技术

发表于 2018-11-09 |

作者：云邪（Jark）
原文链接：http://wuchong.me/blog/2018/11/09/flink-tech-evolution-introduction/

Apache Flink 介绍

Apache Flink 是近年来越来越流行的一款开源大数据计算引擎，它同时支持了批处理和流处理，也能用来做一些基于事件的应用。使用官网的一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。

首先 Flink 是一个纯流式的计算引擎，它的基本数据模型是数据流。流可以是无边界的无限流，即一般意义上的流处理。也可以是有边界的有限流，这样就是批处理。因此 Flink 用一套架构同时支持了流处理和批处理。其次，Flink 的一个优势是支持有状态的计算。如果处理一个事件（或一条数据）的结果只跟事件本身的内容有关，称为无状态处理；反之结果还和之前处理过的事件有关，称为有状态处理。稍微复杂一点的数据处理，比如说基本的聚合，数据流之间的关联都是有状态处理。

阅读全文 »

Flink 零基础实战教程：如何计算实时热门商品

发表于 2018-11-07 | 分类于 Flink |

在上一篇入门教程中，我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序：实时热门商品。在开始本文前我们建议你先实践一遍上篇文章，因为本文会沿用上文的my-flink-project项目框架。

通过本文你将学到：

如何基于 EventTime 处理，如何指定 Watermark
如何使用 Flink 灵活的 Window API
何时需要用到 State，以及如何使用
如何使用 ProcessFunction 实现 TopN 功能

阅读全文 »

5分钟从零构建第一个 Flink 应用

发表于 2018-11-07 | 分类于 Flink |

在本文中，我们将从零开始，教您如何构建第一个 Flink 应用程序。

阅读全文 »

Flink 小贴士 (2)：Flink 如何管理 Kafka 消费位点

发表于 2018-11-04 | 分类于 Flink |

在本周的《Flink Friday Tip》中，我们将结合例子逐步讲解 Apache Flink 是如何与 Apache Kafka 协同工作并确保来自 Kafka topic 的消息以 exactly-once 的语义被处理。

阅读全文 »

Flink小贴士 (1)：确定Flink作业所需资源大小时要考虑的6件事

发表于 2018-10-30 | 分类于 Flink |

在 Apache Flink 社区中我们被经常问及的一件事是：如何规划和计算一个 Flink 集群的大小（或者说如何确定一个 Flink 作业所需的资源）。确定集群的大小很显然是决定于多种因素的，例如应用场景，应用的规模，以及特定的服务等级协议（SLA）。另外应用程序中的 checkpoint 类型（增量 vs 全量）和 Flink 作业处理是连续还是突发的也都会影响到 Flink 集群的大小。主要有6个方面是确定 Flink 集群大小时最先要考虑的一些因素。

阅读全文 »

Flink在美团的实践与应用

发表于 2018-08-25 | 分类于 Flink |

本文整理自8月11日在北京举行的Flink Meetup。美团目前主要用到的实时计算引擎是 Flink 和 Storm。Storm 采用的是 standalone 模式部署，Flink 采用的是 ON YARN 的模式不是。由于 Flink 很多设计上的优越性，美团现在大量的业务正在基于 Flink 搭建。

阅读全文 »

WuChong

当你的才华还撑不起你的野心时，
你就应该静下心来学习。

RSS

Links

Apache Flink