Spark 社区周报 | 2026-W15

2026-04-06 ~ 2026-04-12

📢 公告 (0)

本周无公告

🗳️ 投票 (1)

💬 讨论 (4)

3.5 release this month

8 条回复 · 8 位参与者

Holden Karau 提议在本月发布 Spark 3.5 新版本,这将是该版本线最后一个包含常规错误修复的版本,后续将仅限于安全修复。由于 R 打包存在潜在问题,初始候选版本准备时间可能较长,Holden 将审计相关脚本。社区一致支持该计划,并采纳了关于修复特定 CVE 漏洞的建议。

@Holden Karau: 计划本月发布 3.5 版本(最后一个常规修复版),将审计 R 打包脚本并尝试集成安全修复。

@John Zhuge: 建议在发布中包含 SPARK-56488 以修复 CVE-2022-36944 漏洞。

@Hyukjin Kwon 等: 支持(+1)本月发布计划。

发布计划已确认,Holden 将推进发布准备工作,包括审计打包脚本及测试 John Zhuge 提出的安全修复补丁。

Unsubscribe

6 条回复 · 5 位参与者

讨论主要围绕用户无法成功取消订阅 Spark 邮件列表的问题展开。社区成员解释了正常的退订流程需回复确认邮件,并指出邮件退信是导致操作失败的原因。最终在管理员介入协助下,问题得以解决。

@Chandra Sekar Narayanan: 认为取消订阅机器人失效,多次尝试均未成功。

@Jungtaek Lim: 解释取消订阅流程需要收到并回复确认邮件,并非发送一封邮件即可完成。

@Sean Owen: 指出用户之前的邮件因退信未送达,并主动代为发送了取消订阅请求。

问题已解决,确认是用户邮件投递失败(退信)导致无法收到确认邮件,相关人员已完成退订。

Regression in Spark 4.2.0-preview4

2 条回复 · 2 位参与者

Enrico Minack 报告 Spark 4.2.0-preview4 在 Kubernetes 环境下存在 App ID 不匹配的回归问题,导致 Executor 丢失。Dongjoon Hyun 最初表示在 CI 和本地环境中无法复现该问题,随后 Enrico 确认问题已通过 PR #55355 修复。

@Enrico Minack: 报告 Spark 4.2.0-preview4 在 K8s 上运行时 Driver 与 Executor 的 spark-app-selector 不一致,导致任务失败,可通过显式设置 spark.app.id 临时解决。

@Dongjoon Hyun: 最初表示在 CI 和本地环境中 spark-app-selector 工作正常,无法复现该问题,建议检查环境配置。

@Enrico Minack: 确认该回归问题已通过 PR #55355 修复。

该回归问题已被确认并修复,相关修复代码位于 PR #55355。

SPIP: NEAREST BY Top-K Ranking JOIN

2 条回复 · 3 位参与者

Zero Qu 提议为 Spark SQL 引入 NEAREST BY 语法以简化 Top-K 排序连接,解决现有方案冗长且难以优化的问题。该提案通过 APPROX/EXACT 关键字明确算法契约,初期聚焦解析与暴力执行,未来计划支持索引加速。社区成员对设计表示认可,并探讨了其与 Iceberg 向量索引结合的潜力。

@Zero Qu: 提议扩展 JOIN 语法支持 NEAREST ... BY,以解决现有 Top-K 查询模式冗长且对优化器不透明的问题,并明确区分 APPROX 和 EXACT 执行模式。

@Huaxin Gao: 认可新语法的简洁性,确认了 NULL 和平局处理的语义(继承 max_by 行为),并指出 APPROX 模式为未来利用 Iceberg 向量索引加速提供了空间。

@Yingyi Bu: 补充说明 APPROX 关键字明确表达了近似最近邻(a-NN)的意图,使引擎能够自动利用 Iceberg 向量索引来响应查询。

社区对提案方向达成共识,确认了 NULL 和平局处理的语义逻辑,后续将推进具体的实现工作及与 Iceberg 索引支持的集成。

🎫 JIRA (0)

本周新建 0 个 Issue

本周无新建 JIRA。