💬 讨论 (10)
10 条回复 · 10 位参与者
社区针对缺乏人工审查的 AI 生成 PR 展开讨论,一致认为需执行贡献指南以保护审查者资源。讨论重点从单纯检测 AI 转向关注贡献质量和准备度,并提出了添加 PR 模板、AGENTS.md 文件及明确违规后果等具体建议。
@Huaxin Gao: 提议关闭未经人工审查的 PR,并对屡次无视指南的贡献者进行限制。
@Sung Yun: 建议关注贡献质量和准备度而非单纯针对 AI 使用,制定规范明确 PR 何时才算准备好接受审查。
@Kevin Liu: 建议添加 AGENTS.md 文件以约束 AI 代理行为,并强调需在指南中明确审查者的负担和资源限制。
社区达成初步共识,将更新指南以明确违规后果,并计划在下次同步会议中继续讨论应对全自动代理 PR 的方案。
5 条回复 · 5 位参与者
本次讨论主要围绕 Apache Iceberg 的三月董事会报告草案展开,Ryan Blue 发起了包含社区变更、多语言版本发布及 v4 规范进展的报告。参与者对报告内容提出了具体修改建议,包括更新二级索引状态、补充 Flink 维护信息及社区推广渠道,报告正根据反馈进行完善。
@Ryan Blue: 发布了董事会报告初稿,涵盖了 PMC/Committer 变更、多语言版本发布(Go, Python, Rust, Java 等)、REST 规范更新及 v4 表规范的设计进展。
@Péter Váry: 建议将二级索引描述改为“早期阶段”,并补充列更新规范讨论、文件格式 API 合并及 Flink 仅维护模式等进展。
@Kevin Liu: 建议在社区部分增加新的项目博客链接和 LinkedIn 页面所有权转移的信息。
报告草案获得积极反馈,Ryan Blue 将采纳关于二级索引描述、Flink 维护状态及社区资源的补充建议,完成最终版报告。
4 条回复 · 3 位参与者
讨论主要围绕 Iceberg 对 Spark 4.1 的支持进展展开。Anton 确认所有相关工作已合并并等待发布候选版本。Romain 表示虽然自行构建可行,但在企业环境中较复杂,更期待正式版本的发布。
@Anton Okolnychyi: 所有 Spark 4.1 相关工作已合并,目前正等待发布候选版本。
@Romain Manni-Bucau: 询问了支持进度,确认主分支测试通过,但因企业环境限制倾向于等待正式发布而非自行构建。
@Steve Loughran: 建议用户通过下载源码并自行构建来提前获取更新和验证功能。
Spark 4.1 支持功能代码已就绪并合并,下一步将进行发布候选版本的准备。
3 条回复 · 4 位参与者
Amogh Jahagirdar 提议发布 Apache Iceberg 1.10.2 补丁版本,旨在修复 1.10 版本中的正确性问题和回归缺陷。社区成员建议纳入 Avro CVE 安全修复以及 rewrite_position_deletes 过程失效的问题。
@Amogh Jahagirdar: 提议发布 1.10.2 补丁版本以解决正确性问题和回归问题,并已建立里程碑收集待回溯移植的 PR。
@Steve Loughran: 建议回溯移植 Avro 更新以修复解析恶意 .avsc 文件相关的 CVE 漏洞。
@Omer Hadari: 请求纳入修复 rewrite_position_deletes 过程在 1.10.x 版本中对非原始类型列失效的问题。
社区已确认发布计划,正在收集并评审需要回溯移植的修复 PR,后续将继续完善相关代码并推进发布。
3 条回复 · 2 位参与者
Hemanth Boyina 提议在 CTAS/RTAS 操作中通过 TBLPROPERTIES 支持排序设置,旨在解决现有方案中表暂时不可用或双重写入导致的高成本问题。Ryan Blue 对此持保留意见,建议直接在 SELECT 查询中使用 ORDER BY 子句,认为通过表属性传递排序信息不符合标准用法。
@Hemanth Boyina: 现有的 ALTER TABLE 或重写数据文件方案存在缺陷(如表窗口期不可用或计算成本翻倍),提议通过 TBLPROPERTIES 传递排序信息以实现原子性并自动协调分布与排序。
@Ryan Blue: 建议直接在 SELECT 查询中使用 ORDER BY 来实现物理排序,认为利用 TBLPROPERTIES 传递非属性信息是一种怪异的用法,倾向于使用标准 SQL 子句而非绕过 Spark 的限制。
目前尚未达成共识,Ryan Blue 不支持通过 TBLPROPERTIES 实现该功能的方案,倾向于使用标准 SQL 解决问题,提议者可能需要寻找其他实现路径或进一步论证标准方案的不足。
3 条回复 · 3 位参与者
Max 请求审核支持 'CREATE TABLE LIKE' 功能的 PR,并询问此前被忽略的原因。讨论指出社区倾向于避免维护脆弱的 Iceberg 扩展,且发现 Spark 端已有相关 PR。最终决定关闭 Iceberg 侧的 PR,转而支持 Spark 原生实现。
@Max Konstantinov: 请求社区审核该功能的 PR,并质疑其是否因过时或优先级低而被忽略。
@Anurag Mantripragada: 社区倾向于移除难以维护的扩展,认为直接在 Spark 端支持该功能是正确的做法。
@Szehon Ho: 指出 Spark 社区已有类似功能的 PR 正在进行中。
初步结论是关闭 Iceberg 仓库中的相关 PR,等待 Spark 端的原生支持实现。
2 条回复 · 2 位参与者
讨论主要关注 Iceberg Java API 尚未支持 V3 规范中 date 到 timestamp 的类型升级功能。Antoni Reus Darder 询问相关 PR (#15159) 是否会包含在即将发布的 1.11.0 版本中,并指出该 PR 缺少有写入权限者的审核。PR 作者 Alex Stephen 希望社区能协助审核以推进合并,Antoni 随后表示已协助审核并希望引起更多关注。
@Antoni Reus Darder: 指出 Java API 缺失 V3 的 date 到 timestamp 类型升级支持,询问该特性是否计划在 1.11.0 版本中发布。
@Alex Stephen: 确认自己是相关 PR 的作者,请求社区协助审核以帮助代码合并。
@Antoni Reus Darder: 已对 PR 添加了评论/审核,希望能引起社区更多关注。
目前尚未确定是否包含在 1.11.0 版本中,下一步行动是等待具有写入权限的审核人员对 PR #15159 进行审核。
2 条回复 · 2 位参与者
Manu Zhang 在使用 Iceberg 公共数据集时遇到了 REST Catalog 读取请求配额超限(Error 429)的问题。Talat Uyarer 最初建议用户自行申请提升配额,但在确认无法提升后,排查发现服务端存在问题并实施了修复。最终,Manu Zhang 确认问题已解决,服务恢复正常。
@Manu Zhang: 报告在使用公共数据集时遇到配额超限错误(Error 429),且无法在控制台手动提升配额上限。
@Talat Uyarer: 最初建议检查消费者项目的配额设置,后发现服务端存在问题并进行了修复。
@Talat Uyarer: 说明修复后请求限制仍为 200 次/分钟,但之前的错误应不再出现。
问题已解决,Manu Zhang 确认服务恢复正常。
2 条回复 · 3 位参与者
讨论主要围绕 Iceberg 物化视图 Spec PR (#11041) 的合并时机展开。Jan Kaul 提议合并已更新的 PR,但 Steven Wu 建议先完成 Java 参考实现的 PoC 以验证设计选择,Walaa Eldin Moustafa 表示正在更新相关实现代码。
@Jan Kaul: 提议合并已根据会议讨论更新的 Spec PR (#11041)。
@Steven Wu: 建议先完成 Java PoC 实现以验证设计,再决定是否投票合并 Spec;会议中已同意移除 max stateless config 定义并保留 refresh-state 列表。
@Walaa Eldin Moustafa: 正在更新实现代码以适配最新的 Spec 变更,预计几天内分享。
暂不合并 Spec PR,下一步将推进 Java 参考实现至 PoC 状态以验证设计,并根据实现反馈决定是否调整 Spec 措辞。
1 条回复 · 2 位参与者
Antoni Reus Darder 指出 Iceberg 官网的实现状态页面缺少 V3 规范的支持情况,询问是否有更新计划及如何贡献。Renjie Liu 回复指出了页面源码位置,建议直接提交 PR 进行更新。
@Antoni Reus Darder: 发现官网状态页仅有 V1 和 V2 的支持列表,缺少 V3 的实现状态,且部分 V3 功能在 Java API 中仍在开发中。
@Renjie Liu: 提供了状态页面的源码链接,建议通过创建 PR 并邀请社区审查的方式来更新 V3 状态。
建议贡献者直接修改 GitHub 上的源码文件并提交 PR,以补充 V3 的实现状态。