) 世界要闻:剑拔弩张的 Databricks 和 Snowflake,用个 Apache Iceberg 都能掐架!_华西制鞋网

世界要闻:剑拔弩张的 Databricks 和 Snowflake,用个 Apache Iceberg 都能掐架!

首页>资讯 > 正文
2023-07-04 05:50:33

来源:InfoQ

作者 | Lindsay Clark

译者 | 核子可乐


(资料图片仅供参考)

策划 | Tina

这几天,全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会,这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然 AI 尽管火爆,但从会议内容来看,竞争的关键还是在数据,因此我们重点关注了两者在数据湖仓技术方向上的发展。这两家都在使用 Apache Iceberg,值得注意的是,有分析师指出,企业需要能同时支持数据湖和数据仓库的单一平台,但目前此类技术还没有真正实现。

随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式,Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位,并希望将业务延伸至数据仓库类工作负载领域。

与此同时,其竞争对手 Snowflake 也推出了 Iceberg Tables 更新,宣称要进一步打破数据孤岛。

两家公司都宣称将支持非结构化数据湖式工作负载,可在同一系统之内实现基于 SQL 的数据仓库报告和分析,同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 中,Databricks 推出了所谓通用格式(UniForm),允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。

就在本届旧金山年度供应商盛会正式召开的几天之前,Databricks 公司营销副总裁 Joel Minnick 证实,Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”

所有三种表格式均基于 Apache Parquet 数据格式。他提到,“其中的区别在于,这些格式各自会创建出相似、但又不尽相同的元数据”,从而影响数据向应用程序和分析工作负载的表达方式。

结果就是,Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题,Databricks 特意为此推出了新的通用格式,简称 Uniform。

Minnick 表示,UniForm 会自动生成全部三种格式的元数据,并自动识别用户想要读取或写入的对应格式。

“之后,它会自动帮用户转换出系统需要的适当元数据。也就是说,只要在 Delta Lake 上构建,那就是在为全部三种格式做构建,直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”

Apache Iceberg 是一种开放表格式,专为大规模分析工作负载而设计,同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后,Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中,包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。

事实上,Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示,Iceberg、Hudi 和 Delta 这三种表格式其实非常相似,而且很可能在大多数供应商处得到全面应用。今年,SAP 和微软都宣布将支持 Delta,且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。

但作为 Iceberg 的坚定支持者,Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动,而是选择在同一周内举行了自己的年度聚会。

这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元,此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛,只是并不支持 Hudi 和 Delta 格式。

该公司称,组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据,且无论存储数据是否由 Snowflake 工具进行管理,均可使用该公司提供的性能管理与治理工具。

Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps,借此运用 Snowflake 中的现有数据。据称,配套软件市场上现已有超过 25 款应用可供使用。

Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示,在数据湖领域,Iceberg、Hudi 和 Delta 格式之间将必有一战。

“目前,不少第三方正在与 Iceberg 合作,认为其是最易于使用的数据格式。而且坦率地讲,企业客户也害怕赋予 Databricks 太大的权力。”

然而,Databricks 同时支持这三种格式的举措,意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。

“这是一种颇为明智的方式,能够跨越全部数据湖格式实现智能分析。”

Park 还认为,Iceberg 虽然在技术普及度上更胜一筹,但在性能层面却面临挑战。与此同时,投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示,“Snowflake 承载着市场估值和股东的期待,因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”

咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力,因为与企业所需的完整应用解决方案相比,Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认,Snowflake 确实在数据湖方面取得了进展,这对供应商和喜欢该平台的客户来说肯定是个好消息。

过去几年来,数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念,并在其平台上提供 SQL 和类似商务智能的查询功能;而 Snowflake 则开始支持非结构化数据。

Gualtieri 指出,“这两种技术之间存在冲突。企业最需要的是统一的平台,所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要,毕竟这些都能通过合作伙伴关系来填补。”

最重要的是,企业客户需要的是单一平台,但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。

Gualtieri 解释道,“Teradata 和 Snowflake 确实类似:它们都具备一定的机器学习功能,大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说,他们希望执行查询后就立即得到结果,而不是像查询数据湖那样等待三秒甚至更久。目前,双方在功能和技术水平方面仍然存在差距,短时间内根本不可能实现统一。”

目前,很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户,前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy;后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。

Gualtieri 表示,数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破,就是说到那时双方才能提供对方的全套功能。在这段时间之内,Snowflake 与 Databricks 两派的冲突恐怕还将持续。

参考链接:

/2023/06/29/databricks_snowflake_tables/

本文转载来源:

/article/2MFSI1sQwTvTNJlOlyFS

标签:

THE END
免责声明:本文系转载,版权归原作者所有;旨在传递信息,不代华西制鞋网的观点和立场。

相关热点

新华社电 上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定(征求意见稿)》,并截至12月8日面向社会公众广泛征求意见。这
2021-11-19 13:46:03
《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称,距离2021年结束仅剩一个多月,基金业绩分化明显。部分排名靠前
2021-11-19 13:46:03
交通运输部办公厅 中国人民银行办公厅 中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直
2021-11-19 13:45:58
新华社北京11月17日电 题:从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济,一个直观的视角就是市场供需两端
2021-11-19 13:45:58
全国教育财务工作会议披露的消息称,2020年,中国国家财政性教育经费投入达4 29万亿元,占GDP总量的4 206%,我国国家财政性教育经费支出占G
2021-11-19 13:45:48
如果你也热爱“种草”,前方高能预警!让你心心念念、“浏览”忘返的网络平台,可能早已成为一块块“韭菜地”。近日,据《半月谈》报道,有...
2021-11-19 13:45:48
日前,工业和信息化部印发《“十四五”信息通信行业发展规划》(以下简称《规划》),描绘了未来5年信息通信行业的发展趋势。《规划》指出...
2021-11-19 13:45:40
本报讯(中青报·中青网记者 周围围)2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示,仅11月1日当日,全国共揽收快递包裹5 69
2021-11-19 13:45:40
人民网曼谷11月17日电 (记者赵益普)17日上午,中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天,柬埔寨政府在机场举行了
2021-11-19 13:45:35
金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术,金坛压缩空气储能项目申请专利百余项,建立
2021-11-19 13:45:35
视觉中国供图42亿立方米据有关部门预计,今年山西煤炭产量有望突破12亿吨,12月份山西外送电能力将超过900万千瓦,今冬明春煤层气产量将达4
2021-11-19 13:44:34
14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来,天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四
2021-11-19 13:44:34
中新网客户端北京11月18日电 (记者 谢艺观)“一条路海角天涯,两颗心相依相伴,风吹不走誓言,雨打不湿浪漫,意济苍生苦与痛,情牵天下喜
2021-11-19 13:44:31
近日,交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到,对不具备授信条件的用户,商业银行可在依法合
2021-11-19 13:44:31
欧莱雅面膜陷优惠“年度最大”风波 涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车?近日,因预售价格比双十一现货贵出66%,欧莱雅
2021-11-19 13:44:13
43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说,想对一份工作“从一而终”不太容易
2021-11-19 13:44:13
超八成受访青年表示如有机会愿意开展副业 规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今,“身兼数职”已成为年轻人当中的
2021-11-19 13:44:01
发展氢能正当其时【科学随笔】氢能是一种二次能源,它通过一定的方法利用其他能源制取,具有清洁无污染、可储存、与多种能源便捷转换等优点
2021-11-19 13:44:01
“千杯不醉”的解酒“神药”能信吗?专家:网红“解酒药” 其实不算药俗话说,“酒逢知己千杯少”,酒一直是国人饭桌上至关重要的存在。尽...
2021-11-19 13:43:57
最新文章

相关推荐