米乐M6官网登录正版下载·全速前进:2024年MAD(机器学习人工智能和数据 软件处批量订制
59
在这个领域的10多年里,事情从来没有像今天这样令人兴奋和充满希望。我们多年来描述的所有趋势和子趋势都在融合:数据已经大量数字化;它可以用现代工具快速、廉价地存储、处理和分析;最重要的是,它可以被输入到性能更高的ML/AI模型中,这些模型可以理解它,识别模式,根据它做出预测,现在可以生成文本、代码、图像、声音和视频。 MAD(机器学习,人工智能和数据)生态系统已经从小范围和技术走向主流。这种模式的转变似乎正在加速,其影响远远超出了技术甚至商业问题,并影响到社会、地缘,甚至人类的状况。 然而,在未来几十年的大趋势中,仍有许多篇章有待书写。就像每年一样,这篇文章试图通过产品、公司和行业趋势来理解我们目前所处的位置。 2024年MAD景观共包含2011个logo。这一数字高于去年的1416名,其中有578名新上榜者。作为参考,2012年的第一个版本只有139个logo。 第一波浪潮是长达10年的数据基础设施周期,从大数据开始,到现代数据堆栈结束。该领域期待已久的整合尚未真正发生,绝大多数公司仍在运营。 第二波浪潮是ML/AI周期,始于生成式AI。由于我们正处于本轮周期的早期阶段,而且大多数公司都非常年轻,因此我们对年轻的初创公司(其中很多仍处于种子阶段)持开放态度。 注意:这两个波是密切相关的。每年MAD景观的一个核心理念是展示数据基础设施之间的共生关系(在左侧);分析/BI和ML/AI(在中间)和应用程序(在右边)。 虽然每年都很难适应不断增加的公司数量,但最终,将MAD空间视为装配线的最佳方式-从收集到存储到处理到通过分析或应用程序提供价值的整个数据生命周期。 我们对左侧景观的整体结构做了很少的改变-正如我们将在下面看到的(现代数据堆栈死了吗?),这部分的MAD景观最近很少受到关注。 一些值得注意的变化:我们将「数据库抽象」 重命名为「多模型数据库和抽象」 ,以抓住围绕一体化「多模型」 数据库组(SurrealDB*, EdgeDB)的上升浪潮;取消了我们去年实验性创建的「加密/ Web 3分析」 部分,这在目前的形势下感觉不太合适;并删除了「查询引擎」 部分,它感觉更像是一个部分的一部分而不是一个单独的部分(该部分的所有公司仍然出现在景观中- Dremio, Starburst, PrestoDB等)。 鉴于去年「人工智能实现」 层的巨大活动,我们在机器学习运营(MLOPs)旁添加了3个新类别: 如果说山姆·奥特曼和埃隆·马斯克之间的公开争吵告诉了我们什么的话,那就是,对于基础模型开发者来说,商业和非营利之间的区别是至关重要的。因此,我们将之前的「横向AI/AGI」 分为两类:「商业AI研究」 和「非营利AI研究」 。 我们做的最后一个改变是另一个命名,我们修改了「GPU云」 ,以反映许多GPU云提供商所做的核心基础设施功能集:「GPU云/ ML基础设施」 。 这里最大的更新是……毫无疑问……每个应用层公司现在都自称为「人工智能公司」 ——正如我们试图过滤的那样,这推动了今年MAD景观右侧新标识的爆炸式增长。 我们合并了一直很接近的类别,创建了一个单一的「数据管理」 类别,涵盖了「数据访问」 和「数据操作」 两个类别。 我们增加了一个重要的新类别,「本地人工智能」 ,因为搭建方试图提供基础设施工具,将人工智能和大模型带入本地开发时代。 人工智能的发展如此之快,覆盖面如此之广,几乎不可能像前几年那样提供一个全面的「联盟状态」 。 所以这里有一个不同的格式:没有特定的顺序,这里有24个最重要的和/或经常在谈话中出现的主题。有些是相当充实的想法,有些很大程度上只是问题或思想实验。 因此,也许作为对2024年讨论的介绍,这里有一个重要的提示,它解释了一些关键的行业趋势。并非所有数据都是相同的。冒着过度简化的风险,有两个主要的数据家族,围绕每个家族,出现了一组工具和用例。 出于分析目的,数据从事务性数据库和SaaS工具中提取,存储在云数据仓库(如Snowflake)中,使用商业智能(BI)工具进行转换、分析和可视化,主要是为了理解现在和过去(即所谓的「描述性分析」 )。这条装配线通常由下面讨论的现代数据堆栈启用,分析是核心用例。 此外,结构化数据也可以输入到「传统的」 ML/AI模型中,用于预测未来(预测分析)——例如,哪些客户最有可能流失 就在不久前(2019-2021年),软件世界里没有什么比现代数据堆栈(MDS)更的了。与「大数据」 (Big Data)一样,它是为数不多的基础设施概念之一,从数据工程师向更广泛的受众(高管、记者、银行家)传播。 现代数据栈基本上涵盖了上面提到的结构化数据管道。它被快速增长的云数据仓库所吸引,供应商定位在它的上游(如Fivetran和Airbyte),顶部(DBT)和下游(Looker, Mode)。 随着Snowflake成为有史以来规模最大的软件公司IPO,人们对MDS的兴趣激增,在零利率政策的推动下,涌现了大量初创公司和风险投资。整个类别在一两年内变得过于拥挤——数据目录、数据可观测性、ETL、反向ETL等等。 现代数据栈是一个解决实际问题的真正方案,也是一个营销概念,实际上是跨数据价值链的许多初创公司之间的联盟。 快进到今天,情况就大不相同了。在2023年,我们曾预告过MDS「面临压力」 ,而这种压力在2024年只会继续加剧。 将现代数据堆栈整合在一起需要将来自多个独立供应商的各种最佳解决方案拼接在一起。因此,它在金钱、时间和资源方面都是昂贵的。在零利率政策后削减预算的时代,CFO部门并不看好这一点 MDS不再是街上的酷孩子了。生成式人工智能已经从高管、风投和媒体那里抢走了所有的注意力——它需要我们上面提到的那种非结构化数据管道。 在现代数据堆栈及其周围的许多初创公司将积极地重新定位为「人工智能基础设施初创公司」 ,并试图在现代人工智能堆栈中找到一席之地(见下文)。这在某些情况下是可行的,但在大多数情况下,从结构化数据到非结构化数据可能需要一个基本的产品进化。 数据基础设施行业最终将出现一些整合。到目前为止,并购相当有限,但在2023年确实发生了一些收购,无论是合并收购还是中等规模的收购——包括Stemma(被Teradata收购)、Manta(被IBM收购)、Mode(被Thoughtspot收购)等(见下文第三部分)。 将会有更多的创业失败——随着风投资金的枯竭,事情变得越来越艰难。许多创业公司大幅削减了成本,但总有一天他们的现金流会结束。不要期望看到华而不实的头条新闻,但这将(可悲地)发生。 该领域的大公司,无论是规模扩大的公司还是上市公司,都将加倍投入他们的平台,并努力覆盖更多的功能。其中一些将通过收购(因此将进行整合)实现,但很多也将通过本土开发实现。 说到这个领域的大公司,让我们来看看两个关键的数据基础设施参与者Snowflake和Databricks之间的「泰坦尼克冲击」 。 Snowflake(历史上来自结构化数据管道领域)仍然是一家令人难以置信的公司,也是市值最高的上市科技股之一(截至撰写本文时,其EV/NTM收入为14.8倍)。然而,就像许多软件行业一样,它的增长速度急剧放缓——2024财年结束时,它的产品收入同比增长38%,总计26.7亿美元,预计截至撰写本文时,NTM收入增长22%)。也许最重要的是,Snowflake给人的印象是一家在产品方面面临压力的公司——它在拥抱人工智能方面进展较慢,收购意愿相对较低。最近,有点突兀的CEO换届是另一个有趣的数据点。 Databricks(历史上来自非结构化数据管道和机器学习领域)正经历着全方位的强劲势头,据报道(因为它仍然是一家公司)在24财年结束时收入为16亿美元,增长50%以上。重要的是,Databricks正在成为一个关键的生成式人工智能参与者,无论是通过收购(最值得注意的是,以13亿美元收购了MosaicML)还是自主产品开发——首先,它是为大模型提供非结构化数据的关键存储库,同时也是模型的创造者,从Dolly到DBRX,该公司在撰写本文时刚刚宣布了一种新的生成式人工智能模型。 在Snowflake和Databricks的竞争中,主要的新进展是Microsoft Fabric的推出。它于2023年5月发布,是一个端到端、基于云的数据和分析SaaS平台。它集成了许多微软产品,包括OneLake(开放式湖屋)、PowerBI和Synapse Data Science,基本上涵盖了从数据集成和工程到数据科学的所有数据和分析工作流。就像大公司的产品发布一样,公告和产品的现实之间总是存在差距,但结合微软在生成式人工智能方面的大力推动,这可能会成为一个强大的威胁(作为故事的另一个转折,Databricks很大程度上是建立在Azure之上的)。 在现代数据堆栈和结构化数据管道世界的所有部分中,感觉最成熟的重新发明的类别是商业智能。我们在2019年的MAD中强调了商业智能行业几乎完全整合的情况,并讨论了2021年MAD中指标商店的出现。 BI/分析的转型比我们预期的要慢。该行业仍主要由老产品主导,如微软的PowerBI、Salesforce的Tableau和谷歌的Looker,这些产品有时会在更广泛的销售合同中免费。更多的合并发生了(Thoughtspot收购了Mode;Sisu被Snowflake悄悄收购了)。一些年轻的公司正在采取创新的方法,无论是扩大规模(参见dbt和他们的语义层/MetricFlow)还是初创公司(参见Trace*和他们的指标树),但他们通常还处于起步阶段。 除了在数据提取和转换方面发挥强大的作用外,生成式人工智能还可能在数据分析的超级动力和化方面产生深远的影响。 确实有很多活动。OpenAI推出了代码解释器,后来更名为高级数据分析。微软为金融工作者推出了一款使用Excel的人工智能聊天机器人Copilot。在云供应商、Databricks、Snowflake、开源和大量初创公司中,许多人正在开发或已经发布了「文本到SQL」 产品,以帮助使用自然语言在数据库中运行查询。 这一前景既令人兴奋,也可能具有颠覆性。数据分析的圣杯是它的化。如果自然语言成为笔记本、数据库和BI工具的接口,它将使更广泛的人群能够进行分析。 然而,BI行业的许多人对此持怀疑态度。SQL的精确性和理解查询背后的业务上下文的细微差别被认为是自动化的主要障碍。 如前所述,非结构化数据基础设施的世界正在经历一个非常不同的时刻。非结构化数据是大模型课程的主要内容,对它的需求非常旺盛。每一家正在试验或部署生成式人工智能的公司都在重新发现一句老话:「数据是新的石油」 。每个人都想要大模型的力量,但他们的(企业)数据训练。 几家人工智能扩展公司一直在积极发展他们的产。 米乐M6官网登录正版下载 上一篇:a content 下一篇:畅想人工智能技术的喜与忧 |