Jark's Blog

当你的才华还撑不起你的野心时,你就应该静下心来学习。


  • 首页

  • 归档

  • 分类

  • 标签

  • 演讲

  • 关于

Flink 小贴士 (6): 使用 Broadcast State 的 4 个注意事项

发表于 2018-11-28   |   分类于 Flink   |  
在 Apache Flink 1.5.0 中引入了广播状态(Broadcast State)。本文将描述什么是广播状态模式(Broadcast State Pattern),广播状态与其他的 Operator State 有什么区别,最后,我们在 Flink 中使用该功能时需要考虑的一些重要的注意事项。
阅读全文 »

Flink 小贴士 (5): Savepoint 和 Checkpoint 的 3 个不同点

发表于 2018-11-25   |   分类于 Flink   |  
在本文中,我们将阐述 Savepoint 和 Checkpoint 是什么,它们主要用在什么时候,以及对比它们的主要区别。
阅读全文 »

Flink 小贴士 (4): 如何选择状态后端

发表于 2018-11-21   |   分类于 Flink   |  
本文我们将深入探讨有状态的流处理,更确切地说是 Apache Flink 中不同的状态后端(state backend)。在以下部分,我们将介绍 Apache Flink 的 3 种状态后端,它们的局限性以及根据具体案例需求选择最合适的状态后端。
阅读全文 »

Flink 小贴士 (3): 轻松理解 Watermark

发表于 2018-11-18   |   分类于 Flink   |  
当人们第一次使用 Flink 时,经常会对 watermark 感到困惑。但其实 watermark 并不复杂。让我们通过一个简单的例子来说明为什么我们需要 watermark,以及它的工作机制是什么样的。
阅读全文 »

一文了解 Apache Flink 核心技术

发表于 2018-11-09   |  

作者:云邪(Jark)
原文链接:http://wuchong.me/blog/2018/11/09/flink-tech-evolution-introduction/

Apache Flink 介绍

Apache Flink 是近年来越来越流行的一款开源大数据计算引擎,它同时支持了批处理和流处理,也能用来做一些基于事件的应用。使用官网的一句话来介绍 Flink 就是 “Stateful Computations Over Streams”。

首先 Flink 是一个纯流式的计算引擎,它的基本数据模型是数据流。流可以是无边界的无限流,即一般意义上的流处理。也可以是有边界的有限流,这样就是批处理。因此 Flink 用一套架构同时支持了流处理和批处理。其次,Flink 的一个优势是支持有状态的计算。如果处理一个事件(或一条数据)的结果只跟事件本身的内容有关,称为无状态处理;反之结果还和之前处理过的事件有关,称为有状态处理。稍微复杂一点的数据处理,比如说基本的聚合,数据流之间的关联都是有状态处理。

阅读全文 »

Flink 零基础实战教程:如何计算实时热门商品

发表于 2018-11-07   |   分类于 Flink   |  

在上一篇入门教程中,我们已经能够快速构建一个基础的 Flink 程序了。本文会一步步地带领你实现一个更复杂的 Flink 应用程序:实时热门商品。在开始本文前我们建议你先实践一遍上篇文章,因为本文会沿用上文的my-flink-project项目框架。

通过本文你将学到:

  1. 如何基于 EventTime 处理,如何指定 Watermark
  2. 如何使用 Flink 灵活的 Window API
  3. 何时需要用到 State,以及如何使用
  4. 如何使用 ProcessFunction 实现 TopN 功能
阅读全文 »

5分钟从零构建第一个 Flink 应用

发表于 2018-11-07   |   分类于 Flink   |  

在本文中,我们将从零开始,教您如何构建第一个 Flink 应用程序。

阅读全文 »

Flink 小贴士 (2):Flink 如何管理 Kafka 消费位点

发表于 2018-11-04   |   分类于 Flink   |  
在本周的《Flink Friday Tip》中,我们将结合例子逐步讲解 Apache Flink 是如何与 Apache Kafka 协同工作并确保来自 Kafka topic 的消息以 exactly-once 的语义被处理。
阅读全文 »

Flink小贴士 (1):确定Flink作业所需资源大小时要考虑的6件事

发表于 2018-10-30   |   分类于 Flink   |  
在 Apache Flink 社区中我们被经常问及的一件事是:如何规划和计算一个 Flink 集群的大小(或者说如何确定一个 Flink 作业所需的资源)。确定集群的大小很显然是决定于多种因素的,例如应用场景,应用的规模,以及特定的服务等级协议(SLA)。另外应用程序中的 checkpoint 类型(增量 vs 全量)和 Flink 作业处理是连续还是突发的也都会影响到 Flink 集群的大小。主要有6个方面是确定 Flink 集群大小时最先要考虑的一些因素。
阅读全文 »

Flink在美团的实践与应用

发表于 2018-08-25   |   分类于 Flink   |  
本文整理自8月11日在北京举行的Flink Meetup。美团目前主要用到的实时计算引擎是 Flink 和 Storm。Storm 采用的是 standalone 模式部署,Flink 采用的是 ON YARN 的模式不是。由于 Flink 很多设计上的优越性,美团现在大量的业务正在基于 Flink 搭建。
阅读全文 »
123…9
WuChong

WuChong

当你的才华还撑不起你的野心时,
你就应该静下心来学习。

90 日志
12 分类
77 标签
RSS
Creative Commons

Links

Apache Flink
© 2013 - 2024 WuChong
由 Hexo 强力驱动
主题 - NexT.Mist