2022 年在 AI/ML 领域取得了许多突破性的突破。谷歌、Meta 和微软等大型科技公司在从量子计算到生成人工智能的全新创新中取得了重大进步。
例如,一些最大的突破包括解决国际数学奥林匹克问题的 Meta 的 HyperTreeProofSearch (HTPS);DeepMind 的 Alpha Fold 和 Meta AI 的 ESMFold 用于蛋白质折叠预测;谷歌的DeepNull模拟表型之间协变量效应的关系并改进全基因组关联研究 (GWAS)等等。
接下来,让我们看看对 2023 年的一些预测。
ChatGPT以其出色的对话能力风靡互联网。它是建立在 OpenAI 的GPT-3上的,GPT-3有 1760 亿个参数,依赖于更大的模型尺寸。虽然还有其他 LLM 的参数是 GPT-3 的两倍、三倍甚至十倍,但 DeepMind 或 Meta 的一些模型(也称为小型语言模型(SLM))的参数数量已经超过 GPT- 3 在逻辑推理和预测等多项任务上。
除了减小模型的大小外,预计还会有一个更大的模型,如GPT-4 ,具有大约 100 万亿个参数。由于目前最大的模型是具有 1.6 万亿个参数的 Google Switch Transformer 模型,因此跳跃将是巨大的。
然而,为了获得更大的延迟和可预测性,未来几年可以看到对现有模型进行微调以服务于特定目的。最近,OpenAI 使用达芬奇更新对 GPT-3 进行了微调。
文本到图像的生成是 2022 年打破排行榜的趋势。DALL-E、Stable Diffusion 和 Midjourney 等模型在想要试验 AI 生成艺术的爱好者中名列前茅。对话很快从文本到图像转移到文本到视频,再到文本到任何东西,并且创建了多个模型,这些模型也可以生成 3D 模型。
随着语言模型的扩展以及传播模型的改进,文本到任何东西的趋势预计会上升得更高。公开可用的数据集使生成式 AI 模型更具可扩展性。
这些数据集引入了有关可解释人工智能的部分,其中训练这些生成模型的每张图像的属性变得至关重要。
赶上生成人工智能趋势的公司已经开始将其作为云端服务提供。随着 LLM 和 GPT-3 和 DALL-E 等生成模型的公开可用,企业越来越容易将它们作为服务提供,这催生了FastSaaS。
最近,Shutterstock计划将 DALL-E 2 集成到其平台,Microsoft VS Code添加了 Copilot 作为扩展,TikTok宣布推出应用内文本到图像 AI 生成器,Canva推出了 AI - 在其平台上生成功能。
这就是构建超级计算机以依赖于生成任务以及为公司提供服务的趋势。随着这些不断增加的数据集和生成模型,对超级计算机的需求正在上升,并且预计会进一步上升。随着对 FastSaaS 的竞争,对更好和高性能计算的需求是下一件事。
NVIDIA 和微软最近合作创建了Quantum-2,一个云原生超级计算平台。10 月,特斯拉宣布其Dojo超级计算机完全使用特斯拉开发的芯片从零开始构建。很快,它看起来可以为企业客户提供访问权限。此外,Cerebras 还推出了 Andromeda,这是一台拥有 1350 万核心的 AI 超级计算机,可提供超过 1 exaflop 的 AI 计算能力。最近,Jasper 与 Cerebras 合作以实现更好的性能。
正如摩尔定律所预测的那样,处理能力随着芯片尺寸的减小而增加。因此,超级计算机要运行大型模型,就需要更小的芯片,而且我们已经看到芯片越来越小。
近年来,芯片行业一直在推动小型化,制造商不断寻找使芯片更小、更紧凑的方法。比如M2芯片和A16,苹果分别使用5nm和4nm芯片,预计2023年台积电会开发3nm芯片,这将提高AI/ML算法开发的效率和性能。
随着NVIDIA、谷歌和微软等公司向云端提供硬件服务,量子计算领域的更多创新势必会发生。这将允许小型科技公司在不需要重型硬件的情况下训练、测试和构建 AI/ML 模型。
未来几年量子计算的兴起绝对应该被开发人员纳入,因为它的使用将在许多其他领域增加,如医疗保健、金融服务等。
在最近的公告中,一台量子计算机连接到欧洲最快的超级计算机,以结合传统计算机和量子计算机以更快地解决问题。同样,Nvidia 也发布了QODA——简称 Quantum-Optimised Device Architecture,这是混合量子经典计算机的首创平台。
IBM最近在其 2022 年年度量子峰会上宣布了他们的量子硬件和软件,概述了使用 433 量子位 (qubit) 处理器进行以量子为中心的超级计算的开创性愿景。在全球人工智能峰会上,IBM宣布明年他们将展示一个 1000 量子比特的系统,这将成为各个领域进一步创新的颠覆者。