深度学习大牛权威预测2024年AI行业热点，盘点开源AI趋势！机电工程网

深度学习大牛权威预测2024年AI行业热点，盘点开源AI趋势！

作者：发布于：2023-12-13 19:17:45 文字：【大】【中】【小】

知名人工智能研究人员SEBASTIAN RASCHKA在进入2023年尾声的时候，对几年行业的发展进行了一个全面的回顾。

在他看来，虽然今年以大语言模型为代表的AI行业风起云涌，新产品新技术不断推出，高光频现。

但是伴随着技术的发展，也有更多的问题出现，亟待解决。

2023年：只是2022年高潮的延续？

今年，人们还没有看到人工智能产品方面有任何根本性的新技术或方法出现。相反，今年主要产品和更新都是去年基础的延续：

ChatGPT从GPT-3.5升级到GPT-4

DALL·E 2 升级为 DALL·E 3

Stable Diffusion 2.0升级为 Stable Diffusion XL

而一个一直被多方炒作的传闻很有意思：GPT-4是由16个子模块组成的专家（MoE）模型的混合体。

而且据说，这16个子模块中的每一个MoE都有1110亿个参数（作为参考，GPT-3有1750亿个参数）。

尽管不能100%确定，但GPT-4是一个MoE组成的集群这个事很可能是真的。

从这个事情上，看得出的一个趋势是，AI行业的研究人员在论文中分享的信息现在已经越来越少。

例如，GPT-1、GPT-2、GPT-3 和Instruct GPT论文披露了具体的架构和训练细节，而GPT-4架构就没有人知道了。

再举个例子：Meta AI的第一篇Llama论文详细介绍了用于训练模型的训练数据集，而 Llama 2模型则对这些信息都进行了保密。

在大模型透明度方面，斯坦福大学上周推出了「基础模型透明度指数」（The Foundation Model Transparency Index），根据该指数，Llama 2以54%领先，GPT-4以48%排名第三。

当然，要求企业分享商业机密可能并不合理。但这仍然是一个值得一提的很有意思的一个趋势。

因为，2024年这个趋势似乎不会改变。

关于技术的进一步发展，今年的另一个趋势是输入上下文的长度一直在增长。

例如，GPT-4的竞争对手Claude 2的主要卖点之一就是它支持多达100k token的输入（GPT-4 目前只支持32k的上下文），这使得它在生成长文档摘要时特别有吸引力。

它还支持PDF输入，因此对于很多人的工作也特别有用。

开源AI趋势总结

根据作者的记忆，去年开源社区非常关注隐扩散模型（Latent Diffusion Model如稳定扩散模型）和其他计算机视觉模型。

扩散模型和计算机视觉一如既往地具有现实意义。不过，今年开源和学界、关注的焦点成为了LLM。

开源（或者说公开可用）LLM的爆炸式增长部分要归功于Meta公司发布的首个预训练Llama，尽管该模型的许可证具有限制性，但还是激励了许多研究人员和从业人员投入和很多时间和精力，导致了后来的羊驼大爆发：Alpaca，Vicuna，Llama-Adapter，Lit-Llama等变体的出现。

几个月后，Llama 2在很大程度上取代了Llama 1，成为功能更强的基础模型，甚至官方还推出了其他的微调版本。

然而，尽管 Llama-Adapter v1 和 Llama-Adapter v2等微调方法有望将现有 LLM变成多模态LLM，但大多数开源LLM仍然是纯文本模型。

另外一个值得注意的模型是于 10 月 17 日发布的Fuyu-8B模型。

值得注意的是，Fuyu-8B将输入片段直接传入线性投影层（或嵌入层），以学习自己的图像片段嵌入，而不是像其他模型和方法（例如 LLaVA 和 MiniGPT-V）那样依赖额外的预训练图像编码器。

这种方式大大简化了架构和训练设置。

除了上述几种多模态尝试之外，最大的研究热点仍然是使用参数小于100 B的较小模型来追求达到GPT-4级别的文本性能。

开源社区进行类似尝试的原因，可能是由于硬件资源成本和限制、有限的数据访问以及对较短开发时间的要求（由于发表论文的压力，大多数研究人员无法花费数年时间来训练一个模型）。

不过，开源LLM的下一个突破并不一定来自将模型扩展到更大的规模。

2024年，MoE方法能否将开源模型提升到新的高度，让我们拭目以待。

有趣的是，在研究方面，大家在2023年还看到了一些基于Transformer的LLM 的替代方案，包括旨在提高效率的递归RWKV LLM和卷积Hyena LLM。

不过，基于Transformer的LLM仍然是当前的主流技术。

总的来说，开源社区在这一年里非常活跃，取得了许多突破和进步。

而且开源社区的一大特点就是1+1>2。

因此，作者对积极游说反对开源人工智能的人感到难过。

作者希望开源社区能保持积极的势头，建立更有效的解决方案和替代产品，而不是一味地依赖大型科技公司发布的类似ChatGPT这样的产品。

由于开源社区的不断努力，出现了可以在单个GPU上运行的小型高效模型，如1.3B参数的phi1.5、7B Mistral和7B Zephyr，其性能已接近大型闭源模型。

这是一个令人兴奋的趋势，作者希望这一趋势能在2024年继续下去。

生产力期望

作者认为开源人工智能是开发高效和定制化的LLM解决方案的主要途径，包括那种可以适用于各种应用，基于个人或特定领域数据的微调LLM。

如果在社交媒体上关注过作者本人的话，可能会看到他在谈论和不断改善的Lit-GPT，这是作者积极参与的一个LLM开源资源库。

虽然作者本人非常支持开源，但他也非常喜欢精心设计的产品。

自从ChatGPT发布以来，LLM被用于几乎所有领域。

而正确使用LLM助手能让你事半功倍。

例如，向ChatGPT询问杂货店的营业时间就不是一个发挥它功能长处的用法。但是，修改文章的语法，或者进行头脑风暴，重新遣词造句。

从更宏观的角度看，LLM的核心能力是提高工作效率，这一点每个人都不会否认。

除了用于普通文本的LLM，微软和GitHub推出的Copilot代码助手也日趋成熟，越来越多的人开始使用它。

今年早些时候，Ark-Invest 的一份报告估计，代码助手能将完成一项编码任务的时间缩短约55%。

不过，不论55%这个数字是否真的那么准确，只要用过代码助手，任何人都能感受到效率的巨大提升，可以让繁琐的代码任务变得更轻松。

有一点是肯定的：代码助手将继续存在，而且随着时间的推移，它们只会变得越来越好用。

它们会取代人类程序员吗？作者希望不会。但毫无疑问，它们将提高现有程序员的工作效率。

这对StackOverflow意味着什么？《人工智能现状报告》中有一张图表，显示了StackOverflow 与 GitHub 的网站流量对比，这可能与Copilot的使用率越来越高有关。

不过，作者认为即使是ChatGPT/GPT-4已经对代码相关的任务很有帮助了。

可能ChatGPT也是导致StackOverflow流量下降的部分原因（甚至是主要原因）。

浏览 (5) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人：

将本文加入收藏夹

新闻详情

您现在的位置：机电工程网 > 机电资讯 > 深度学习大牛权威预测2024年AI行业热点，盘点开源AI趋势！