Clickhouse「手撕」Snowflake太贵,我们与7位专家聊了聊

2024-11-16 18:40:38 admin

Clickhouse「手撕」Snowflake太贵,手撕我们与7位专家聊了聊

“感谢云数据仓库多年来的辛勤付出,但它们引领的位专霸权时代即将落幕。”

在近期的家聊一篇博客中,Clickhouse 产品VP Tanya在文章开头便放出了这一大胆的手撕观点。Tanya称,贵们以Snowflake、位专Redshift、家聊BigQuery为代表的手撕云数仓已经不能完全满足客户需求,并且许多企业也已经发现云数据仓库成本不可持续。贵们

此观点一发,位专也引起了业内人士诸多讨论。家聊

有人认为,手撕云数仓从来就没形成过霸权时代。贵们而Tanya在文中所反复提到的位专实时数仓,也有从业者表示这并非新概念,早在十年前,实时数仓就已经被提过好几拨。

还有人认为,实时数仓虽是一个发展趋势,但并不能完全代替传统数仓,与此同时,市场对于实时数据分析需求有,但也没那么强......

基于上述的一些讨论,雷峰网独家对话了Clickhouse 产品VP Tanya,了解其写作该文章的由来以及观点。Tanya称,这篇文章她想表达的含义并非是说ClickHouse可以替代所有现有的数据仓库场景,而是希望对其进行演进。

同时,借由这一篇文章,雷峰网也对话了业内多位专家:阿里云数据库事业部OLAP与工具高级产品专家薛菲、嬴图创始人孙宇熙、PingCAP副总裁刘松、酷克数据副总裁魏一、Airwallex技术专家董大凡、Aloudata CEO周卫林与他们分别聊了聊数仓的发展趋势、云数仓成本、数仓深层计算、生成式AI对数仓影响等几个备受关注的话题。

云数仓的霸权时代结束了?

实时数仓确实一个发展趋势,对话的几名受访者也基本同意这一观点。

PingCAP副总裁刘松过往职业经历与数仓息息相关。职业生涯前期他入职了Oracle,见证了以Teradata为代表的传统数仓的兴起。2014年他加入阿里云后,又见证了以Snowflake、BigQuery、Redshift为代表的云数仓快速冒头。在他看来,数仓的确在沿着从传统数仓,到云数仓,再到实时数仓的方向演进。

这种的演进背后,实际上是客户需求的变化。

阿里云数据库事业部OLAP与工具高级产品专家薛菲谈到了她接触过的一家头部游戏企业。他们一直致力于吸引更多的玩家,并确保玩家在其平台上获得更好的体验。然而,近年来,他们获取新客户成本开始提升,希望获得更实时的数据,了解客户档案、行为,以及客户做了哪些特定的点击,以便快速调整他们的策略。

除游戏玩家有需求外,嬴图创始人孙宇熙提到,他创业的这几年接触国内外不少的金融机构。他发现,随着市场环境变化,许多客户,尤其是金融类客户他们所需要的不仅是事后分析,用数据做决策,而是希望有实时分析。拿银行为例,客户在一边转账的同时,后台做实时风控分析的需求也越来越高涨。

“clickhouse提出要做新一代的实时数仓。基本上业界也同意这样的一个逻辑。”孙宇熙说道。

数仓在朝着实时方向发展,不过新一代的实时数仓仍不能完全代替以前的数仓。

Airwallex技术专家董大凡作为数仓产品的使用者,他表示:“即便企业使用了实时数仓,传统数仓也还是有一席之地。”

为何有一席之地?其一是实时数据分析可能带来更高的成本。Aloudata CEO周卫林在创业之前,在蚂蚁金服担任数据平台部门负责人,他表示,实时数据分析成本增加主要有两个原因:第一,数据越实时,数据采集和更新的频次会越高,数据预计算的比例会越低,因此对数据计算性能要求会越高,这会带来费用的增加;第二,通常需要实时数据的场景,数据分析的颗粒度会很细,分析的灵活性会越高,这样数据分析的数据量会很大,这会带来费用的增加。

对于一家企业来说,在追求数据时效的同时,成本也是不能回避的问题。假设一个公司花了100万,通过数据实时化能把风控引擎的精确度从50%提升到55%,然而这5%的提升所降低的损失低于投入成本,很显然企业投资意愿不会高涨。

因此,实时数仓通常的场景应用会比较明确,ROI 相对确定,对于不确定高的场景很难规模性使用实时数仓,原因是比不过传统数仓的ROI,尤其是 BI 分析场景上。

此外,当下并非所有场景都必须要实时数据分析。就比如双十一,交易额直接在屏幕上面毫秒级刷新固然很爽,但对于老板而言,他可能只要求第二天在办公室里面看报表,了解双十一交易额多少,几点是高峰,他的目的不是为了实时决策,而是为了长期规划和决策。

(接下来,雷峰网将推出《投资人,正逃离分析型数据库赛道》,欢迎加作者微信 mindy1857 交流。)

酷克数据副总裁魏一也表达了类似观点。魏一在加入酷克数据之前,曾就职于SAP,后来在EMC/Pivotal 从事Greenplum数据库技术研发工作,也是数仓领域的资深专家。在他看来,目前企业会存在实时数据分析需求,但除此之外,企业还有批处理的需求,虽然批处理数据时效性不及实时数仓,但是成本更低。

由于企业需求的多样化,也演化了数仓厂商们不同的产品研发策略。有一部分的厂商尝试在打造一个统一的数据服务平台,比如说snowflake、酷克数据、PingCAP。

“对于企业决策者而言,他们一定是需要一个统一的数据服务平台。”魏一说道。五年以前客户做大数据分析,可能的选择是:一个离线分析系统加上一个实时分析系统。比如离线分析选择Hadoop,再叠加一个ClickHouse、Greenplum实时分析的产品。这种做法的劣势是显著增加了运营成本,因为要进行数据搬迁ETL操作,同时客户还需要去管理不同的系统。相对地,统一融合的数据分析平台的优势则在于,解决了由ETL导致的数据传输延迟问题,进一步降低了数据分析的成本投入。

魏一表示,酷克数据的产品HashData云数仓目前已在某国有大型银行稳定运行多年,节点规模超过30000个。从落地运行情况来看,客户的数据冗余减少达到了30%以上,计算资源消耗也降低了30%。整个数据链路得以缩短,平均作业的完成时间加快了3个小时。

还有一部分厂商则不求做大而全的平台,只做部分需求的满足,比如BigQuery、RedShift他们现在并没有把实时数仓作为优先级,仍是服务于传统数仓的需求。而clickhouse则是更专注在新一代实时数仓上。

这两种产品策略没有孰好孰坏,对于客户来说,最终还是要结合自己的需求来进行技术、产品的选型。

数仓如何解决深层计算问题?

实时数仓所重点强调的是数据处理效率要快,那如果进一步追问该问题,当下的实时数仓到底能快到什么程度?孙宇熙认为,即便当下的数仓产品已经让数据分析速度有了极大突破,提升了10倍、或是100倍,但这或许并不意味着什么,市场可能需要到是快1万倍。

为什么这么说?孙宇熙举了银行的例子,不论是08年美国次贷危机、还是近期硅谷银行倒闭,其实背后本质问题都是因为金融机构的流动性受到冲击,所以流动性一直以来是金融机构关注的重点问题。08年金融危机之后,全球所有监管机构都在起草制定防止银行流动性变差的协议,而在其中,设置了一个重要的指标叫做流动性覆盖率(liquidity coverage vision,缩写LCR)LCR超过110%,你的流动性就达标了;如果低于110,但高于100%,那你属于很危险,因为很容易被击穿;如果低于100%,意味着你的流动性已经开始出现严重的问题。

在国内,监管机构给出的要求是,2000亿规模以上的中大型银行都要向监管机构每日汇报一次LCR。“然而,让人十分遗憾的是,我们最头部的大型国有商业银行当中,几乎没有哪一家能每天能把 LCR 这个指标计算一次。有的大型银行甚至只能一个月算一次。”

为什么银行做不到?孙宇熙认为一个原因是,要算LCR指标,需要全行所有的数据。把所有的对公客户、零售客户等等客户数据全汇总起来,很可能每日处理的数据量能达到百亿,这种数据规模是惊人的。另一个原因是,目前数仓计算需要大量的表做关联,“这种表结构最大的问题在于它是低维的,依然是在用行和列来表达这个数据,它天然就不善于去做数据之间的关联分析。”当用几十张表去做关联计算的时候,速度自然就会更慢。

在孙宇熙看来,未来数据分析效率会更快,除了表结构之外,数据仓库应该要支持其他数据计算模式,比如说图计算。图数据库的好处在于它能够执行某些类型的查询,不仅可能更快、更有效,而且在编写这些查询时语法更为紧凑。

嬴图曾在一家大型商业银行内部做过一个实验,这家银行原来的LCR计算大概要算4个小时,而用图计算在2秒钟内,即可完成,“这是一个七千倍以上的性能提升。”

实际上现在已经有许多数据仓库支持除表结构之外的其他数据分析,据薛菲表示,“全文搜索就是一个很好的例子。全文搜索不是结构化数据,它是一种半结构化数据。许多数据仓库已经支持诸如JSON或XML之类的类型,可以用来完成全文搜索的应用,比如阿里云的自研数据仓库AnalyticDB。”

此外,Clickhouse也有一个名为SQL Graph的项目。但Tanya也表示,目前他们的优先级放在了如何将向量搜索与传统分析结合使用上,而图计算这部分项目暂时尚未将其列为重点,其最重要的原因是目前图数据缺乏一个统一的标准。从开发者的角度来看,开发图查询是非常困难的。

不过,当下图计算或图数据库现在面临一个巨大的机会,薛菲表示,可以将其与LLM(Large Language Models)结合起来。“未来,LLM可能会成为处理图数据的新接口,因为用自然语言表达关系问题要比使用尚未发明的图标准更容易。”

LLM浪潮的崛起,也进一步推动了业务和应用对向量能力的需求。薛菲称,目前,阿里云瑶池数据库已全面拥抱向量检索能力,包括通义行业大模型在内的LLM就采用了企业级智能数仓AnalyticDB作为默认的向量检索引擎,性能较开源增强了2~5倍,与全文检索和结构化搜索联合进行多路召回,加速AIGC应用落地。

(接下来,雷峰网将推出《大模型会颠覆分析型数据库?》等文章,欢迎加作者微信 mindy1857 交流。)

云数仓到底贵不贵?

于客户而言,性能与成本都要考量。在成本端,近期关于云数仓到底贵不贵的话题也引发讨论。包括在 Tanya的文章中也重点提到了关于云数仓的成本问题,“与替代方案相比,云数据仓库的用户支付 3-5 倍的费用并不少见。”

在接受雷峰网(公众号:雷峰网)采访时,她说道:“我们测试了Amazon Redshift,Google BigQuery和Snowflake三大数仓产品后发现,在资源消耗方面,这些数据仓库的表现较差,包括较少的数据压缩和运行查询所需的更多内存。”

友链


  • 文章

    27

  • 浏览

    9

  • 获赞

    59

赞一个、收藏了!

分享给朋友看看这篇文章

热门推荐