米乐M6官网登录正版下载·全速前进:MAD(机器学习、人工智能和数据)版图2 软件处批量订制
58
神译局是36氪旗下编译团队,关注科技、商业、职场、生活等领域,重点介绍国外的新技术、新观点、新风向。 编者按:从2014年开始,Matt Turck每年都会推出一个反映大数据、机器学习、人工智能整体格局的版图,今年已经是第十个年头。跟往年不一样的是,这个整体格局从来都没有像今天那样的令人兴奋和充满希望,以至于今年上榜的企业达到了令人瞠目结舌的2000多家,多到已经很难看清上面的logo,研究完这个版图,就可以对MAD的整体格局有大致了解了,从中也能看出美国在这个领域的基础有多雄厚,国内的从业者还需要奋起直追啊。文章来自编译。 在对这一领域进行探索的十多年里,情况从未像今日这般的令人兴奋和充满希望。多年来,我们所描述的各种趋势与子趋势已经开始融合:数据已被大量数字化;可以利用现代工具快速且廉价地存储、处理和分析;最重要的是,这些数据被投喂给表现越来越好的机器学习/人工智能(ML/AI) 模型,供后者理解数据、识别模式、并在此基础上进行预测,而现在,还可以生成文本、代码、图像、声音与视频。 MAD(机器学习、人工智能与数据)生态体系已经从小众和技术性事物走向主流。这种范式转移似乎正在加速,其影响远远超出了技术甚至商业范畴,逐渐对社会、地缘,或许还有人类状况施加影响。 不过,在这个以数十年为尺度的大趋势里,仍有许多篇章有待书写。跟往年一样,这篇文章试图对产品、公司以及行业趋势方面的现状进行一番梳理。 这第一波浪潮是长达 10 年左右的数据基础设施周期,从大数据开始,以现代数据栈结束。、这个领域期待已久的整合尚未发生,绝大多数公司仍然活着。 第二波浪潮是机器学习/人工智能周期,这是从生成式人工智能开始的。由于我们正处于这个周期的早期阶段,而且大多数公司都非常年轻,所以那些年轻的初创企业(其中很多仍处于种子阶段)我们一直都没拿掉。 注意:这两波浪潮密切相关。每年MAD版图的核心思想是展示数据基础设施(左侧)、分析/BI 及 ML/AI(中间)以及应用(右侧)之间的共生关系。 尽管不断增加的公司已经让这个版图变得越来越挤,但到头来最好是将 MAD 这个领域看作是一条装配线——数据从收集到存储再到处理,然后通过分析或应用交付价值的一个完整的生命周期。 我们对版图左侧的整体结构做了些许改变——正如我们将在下面的(现代数据栈已经死了吗?)所看到那样,MAD 版图的这一部分最近热度已经低很多了。 一些值得注意的变化:我们把“数据库抽象”重命名为“多模型数据库及抽象”,为的是匹配围绕着一体化“多模型”数据库(SurrealDB*、EdgeDB)的上升浪潮;版图还取消了我们去年实验性创建的“Crypto / Web 3 Analytics”部分,在当下放进来感觉已经不再合适了;同时删除了“查询引擎”板块,、因为这个感觉更像是某个哦板块的一部分,而算不上独立板块(这部分的所有公司仍然留在版图里面 – 比如Dremio、Starburst、PrestoDB 等)。 ——“人工智能可观察性”( AI Observability)是今年出现的新类别,里面纳入了帮助测试、评估和监控大语言模型应用的初创企业 ——“人工智能开发者平台”( AI Developer Platforms)在概念上与 MLOps 很接近,但我们希望完全专注于人工智能应用开发的这股平台浪潮,尤其是围绕着大语言模型训练、部署和推理的平台能得到认可 ——“人工智能安全与保障”( AI Safety & Security)包括应对从幻觉到道德、监管遵从性等等大语言模型相关关切的公司 如果说山姆·阿尔特曼(Sam Altman)与埃隆·马斯克之间的公开争执告诉了我们什么事情的话,那就是对于基础模型开发者来说,商业与非营利组织之别至关重要。因此,我们将之前的“横向人工智能/通用人工智能”分为两类:“商业人工智能研究”以及“非营利人工智能研究” 我们做出的最后一项变更是术语方面,我们修正了“GPU Cloud”,为的是反映许多 GPU 云提供商添加的核心基础设施功能集:“GPU云/机器学习基础设施”(GPU Cloud / ML Infra) 毫无疑问,这里面最大的更新是每一家应用层的公司现在都自称是“人工智能公司”了——尽管我们已经尝试过滤了,但从MAD版图右侧可以以看出,新logo仍出现了爆发式的增长 ——在“水平应用”板块,我们增加了“演示与设计”( Presentation & Design)这个类别 ——我们还将“搜索”重命名为“搜索/对话式 人工智能”,好体现出大模型使能的聊天型界面(比方说 Perplexity)的兴起。 这次我们把一直都很接近的类别合并在一起了,建立了一个叫做“数据管理”(Data Management)的类别,把 “数据访问”(Data Access)与“数据操作”(Data Ops)都放进去了 我们还增加了一个重要的新类别, “本地人工智能”(Local AI),背景是开发者正寻求提供基础设施工具,实现人工智能与大模型开发的本地化 人工智能领域的发展速度实在是太快了,覆盖面实在是太广了,以至于像前几年那样用一张图概括MAD 领域的现状已经不再可能。 所以,今年我们的形式有所不同:我们俩列举了24 个最受关注和/或在对话中经常出现的主题(排名不分先后)。里面有些是相当充实的想法,有些基本上只是问题或思想实验。 因此,也许作为这篇 2024 年讨论文章的引子,这里预先提醒一下,因为这个区分解释了某些关键的行业趋势。要注意:不是所有的数据都是一样的。尽管有过度简化的风险,但可以说数据主要可分为有两个家族,而围绕着每一个家族,已经冒出了一系列的工具与用例。 ——出于分析目的,我们将数据从事务数据库与 SaaS 工具中析取出来,存进云数据仓库(如 Snowflake)之中,再用商业智能 (BI) 工具进行转换、分析和可视化,其目的主要是为了了解现在和过去(也就是所谓的“描述性分析”)。这条装配线通常是靠接下来要讨论的现代数据栈促成的,分析就是它的核心用例。 ——此外,结构化数据还可以喂给“传统”机器学习/人工智能模型,用来预测未来(预测分析)——比方说,预测哪些客户最有可能会流失掉 不久前(也就是 2019-2021 年间),在软件世界里,还找不到比现代数据栈 (MDS) 更的东西。跟“大数据”一样,它是超越了数据工程师出圈到更广泛的受众(高管、记者、银行家)的罕见基础设施概念之一。 上面提到的那种结构化数据管道现代数据栈基本上全都涵盖了。其核心是快速增长的云数据仓库,在其上游(如 Fivetran 和 Airbyte),下游(Looker、Mode)、以及其基础之上(DBT)围拢着各种提供商。 随着 Snowflake 成为有史以来规模最大的软件 IPO,大家对 MDS 的兴趣一下子爆发了,ZIRP(零利率) 推动了创业与风投的狂热。在一两年之内,MDS整个门类一下子变得拥挤不堪——数据目录、数据可观察性、ETL、反向 ETL 等等冒出了不少公司。 现代数据栈既是解决实际问题的真正解决方案,也是一种营销概念,同时还是数据价值链上上下下众多初创企业之间事实上的联盟。 时间快进到今日,情况已大不相同。 2023年,我们曾预见到MDS将“面临压力”,而这种压力在2024年只会继续加剧。 搭建现代数据栈需要将多个独立提供商的各种最佳解决方案拼接在一起。所以,无论是从金钱、时间还是资源上看这种做法都非常昂贵的。在后 ZIRP 时代,随着预算削减,首席财务官办公室已经不看好这种技术 MDS 不再是街上最靓的那个仔。生成式人工智能把高管、风险投资家以及媒体的所有注意力都吸引走了——它需要的是我们前面提到的那种非结构化的数据管道。 做现代数据栈的许多初创企业会主动自我重新定位为“人工智能基础设施初创企业”,并试图在现代人工智能栈(Modern AI Stack)中找到一席之地(见下文)。在某些情况这种做法是可行的,但在大多数情况下,从结构化数据变成非结构化数据得要进行根本性的产品演进才行。 数据基础设施行业最终将出现一些整合。迄今为止,并购活动相对不够活跃,但 2023 年确实达成了若干收购,包括大型和中型的收购,比如 Stemma(被 Teradata 收购)、Manta(被 IBM 收购)、Mode(被 Thoughtspot 收购)等(见下文第三部分) 关张的初创企业会增多——随着风投资金的枯竭,情况会变得更为艰难。尽管许多初创企业大幅削减了成本,但到了一定适合他们手头的现金终将消耗殆尽。不要指望看到哗众取宠的新闻头条,但这种情况一定是会出现的。 该领域规模大一点的公司,无论是正在扩张的创业公司还是上市公司,都会往平台的方向加倍下注,并努力覆盖更多的功能。其中部分将通过收购(也就是是整合)的方式实现,但很多也将通过自行开发的方式实现。 说到这个领域的大公司,不妨了解一下Snowflake 和 Databricks 这两个关键数据基础设施玩家所造成的“巨大冲击”。 Snowflake(从历史上看,属于结构化数据管道世界的一员)仍然是一家令人难以置信的好公司,也是估值最高的上市科技股之一(截至撰写本文时,其EV/NTM 之比为 14.8 倍)。不过,跟软件行业的众多公司一样,其增长速度已大幅放缓 - 2024 财年公司的产品收入同比增长率为 38%,总计为 26.7 亿美元,预计NTM(公司未来一年的收入预期) 增长率为 22%。也许最重要的是,Snowflake 给人的印象是这是一家在产品方面面临压力的公司——拥抱人工智能的速度比较迟缓,而且收购的也相对较低。而最近,有点突然的CEO更迭是另一个有趣的数据点。 Databricks(从历史上看属于非结构化数据管道与机器学习世界)则正享受着强劲的上升势头,据报道(因为它仍然是一家公司)其在 24 财年结束时的收入为 16 亿美元,增幅超过了50% 以上。重要的是,在双管齐下的策略下,Databricks 正在成为一个关键的生工智能玩家,它进行了数桩收购,其中最著名的是 13 亿美元对 MosaicML的收购,同时仍在强化自己的产品开发 - 首先也是最重要的是为大预言模型提供非结构化数据关键存储库,同时它本身也是模型的创造者,比如 Dolly ,以及最新发布的生成式人工智能模型 DBRX。 Snowflake 与 Databricks 之争的一个比较的新进展是 Microsoft Fabric 的推出。后者是在 2023 年 5 月发布的,属于一个数据和分析的端到端的、基于云的 SaaS 平台。上面集成了众多的微软产品,包括OneLake(开放的湖仓一体)、PowerBI以及Synapse Data Science,基本上涵盖了从数据集成和工程乃至于数据科学的所有数据和分析工作流。跟往常一样,大公司的产品发布与实际产品表现之间是有差距的,但如果加上微软在生成式人工智能方面的大力推动,Microsoft Fabric的推出可能会成为巨大威胁(这个故事还有一个关键,Databricks 对Azure的依赖程度很高)。 在现代数据栈和结构化数据管道世界里,给人感觉进行重塑条件最成熟的类别是商业智能。在 2019 年的 MAD 版图。 米乐M6官网登录正版下载 上一篇:国内首个数字校园AI平台标准发布!腾讯云联合北京市 下一篇:四川省首个人工智能大模型在国家互联网信息办公室成功 |