网站标志
导航菜单
当前日期时间
当前时间:
购物车
购物车中有 0 件商品 去结算 我的订单
商品搜索
商品搜索:
文章正文
2024年人工智能领域预测
作者:    发布于:2024-01-25 19:06:17    文字:【】【】【
2023年人工智能领域如果只能筛选一个关键词的话,恐怕非“大模型”莫属。大模型的发展在过去一年中,让各行各业发生了天翻地覆的变化,有企业因大模型而新生,有企业因大模型而消亡。企业的变迁跟技术迭代息息相关,而大模型就是新一代人工智能技术下的产物,大模型已经深入各行各业对具体业务进行了全方位的干预,可以说未来没有一个行业能脱离AI大模型的影子。新年伊始之际,人工智能的的发展也将进入下一阶段,对社会生产的改变也将更加明显,下面是根据过去一年人工智能的发展现状对未来一年人工智能发展的预测。

一、以MoE为主的方法将成为大模型研究的新方向

MoE,即Mixture-Of-Experts,是一种深度学习技术,它通过门控网络实现任务/训练数据在不同专家模型间的分配,让每个模型专注处理其最擅长的任务,进而实现模型的稀疏性。这种方法可以在保证运算速度的情况下,将模型的容量提升>1000倍。

MoE模型由两个关键组成部分构成:门控网络和专家网络。门控网络负责根据输入数据的特征,动态地决定哪个专家模型应该被激活以生成最佳预测。专家网络是一组独立的模型,每个模型都负责处理某个特定的子任务。通过门控网络,输入数据将被分配给最适合的专家模型进行处理,并根据不同模型的输出进行加权融合,得到最终的预测结果。

MoE模型已经在一些实际应用中取得了显著的效果。例如,Moët & Chandon,这是一家法国的精品酒庄,也是奢侈品公司LVMH Moët Hennessy Louis Vuitton SE的一部分。他们使用MoE模型来提升其产品的质量和准确性。

在2023年12月份,Mistral AI发布了类GPT-4架构的开源版本Mistral 8x7B模型,这8个70亿参数的小模型组合起来,直接在多个跑分上超过了多达700亿参数的Llama 2。英伟达高级研究科学家Jim Fan推测,Mistral可能已经在开发34Bx8E,甚至100B+x8E的模型了。而它们的性能,或许已经达到了GPT-3.5/3.7的水平。

二、Transformer架构的统治地位将受到挑战

在过去的几年中自从Transformer出现之后,它的架构几乎就是为大模型而量身制作的,简单的前馈神经网络模型能够提供给模型足够大的参数,再加上带有残差和注意力模块编解码结构的堆叠,不仅是参数量更进一步的增大,巍模型提供更强大表示能力,稠密的多头自注意力机制还为模型提供了数据内部不可或缺的关系表达能力。

但是随着底层基础模型技术的研究和发展,逐渐有一些新的模型架构对传统Transformer造成了一定的挑战,当然这种挑战不仅仅局限于学术层面,更多的可能还会在后续的工业界得到证实。

由于Transformer本身参数的增加随着token的增加成2次方的增长,这导致计算成本也在迅速的增长,其次Transformer在参数达到一定量级后也出现了表达瓶颈的现象,由此出现了一些在未来可能会替代Transformer的研究方案。

lRetNet:RetNet(Retentive Network)被设计为大型语言模型的基础架构,RetNet的主要优势在于它能够同时实现训练并行化、低成本推理和良好的性能。RetNet提出了一种名为"retention"的机制来替代传统的"attention"机制。这种机制支持三种计算范式,即并行、循环和分块循环。具体来说,其并行表示允许训练并行化,循环表示使得推理成本低,而分块循环表示有助于有效地进行长序列建模。

lRWKV:RWKV(Receptance Weighted Key Value)将 Transformer 的高效可并行训练与 RNN 的高效推理相结合。RWKV的设计精良,能够缓解 Transformer 所带来的内存瓶颈和二次方扩展问题,实现更有效的线性扩展,同时保留了使 Transformer 在这个领域占主导的一些性质;

lMamba:Mamba 基于选择性状态空间模型(SSM),Mamba 将这些选择性 SSM 集成到一个简化的端到端神经网络架构中,无需注意力机制,甚至不需要 MLP 块。Mamba 通过让 SSM 参数作为输入的函数,解决了其离散模态的弱点,允许模型根据当前标记选择性地沿序列长度维度传播或忘记信息。Mamba 具有快速的推理(吞吐量比 Transformer 高 5 倍)和序列长度线性缩放。在语言建模任务中,Mamba-3B 模型在预训练和下游评估中均优于相同规模的 Transformer,并且与其两倍大小的Transformer 模型相媲美。

lUniRepLKNet:UniRepLKNet是由腾讯和香港中文大学联合发布的一种基于大核卷积神经网络(CNN)的大模型基础架构。UniRepLKNet采用大核CNN,可以处理多种模态的数据,如图像、音频、时序预测等。UniRepLKNet提出了四条用于大核CNN架构设计的指导原则,并设计了一种硬件感知的并行算法,实现了实际测速优势,在多种模态上均实现了最先进的性能。UniRepLKNet在时序预测的超大数据上用这一为图像设计的backbone达到了最先进的性能。这些特性使得UniRepLKNet成为了一种强大的模型架构,它有效地利用了大核CNN的优点;

lStripedHyena:StripedHyena是由Together AI发布的一种新型人工智能模型,它将注意力和门控卷积结合成了所谓的Hyena运算符。StripedHyena采用了一种独特的混合结构,将门控卷积和注意力结合成了Hyena运算符。这种结构使得StripedHyena在训练、微调和生成长序列过程中具有更高的处理效率,更快的速度和更高的内存效率。在短序列任务中,包括OpenLLM排行榜任务,StripedHyena在性能上超越了Llama-27B、Yi7B以及最强大的Transformer替代品,如RWKV14B。StripedHyena能够处理长序列,这使得它在处理长提示的各种基准测试中表现出色。StripedHyena的设计优化了计算效率,使得它在训练期间能够进行体系结构修改。

lPanGu-Π:PanguΠ是一种新型的Transformer模型,它针对Transformer的特征坍塌问题和非线性关系进行了优化。在 Transformer 更深层中,特征的秩显著降低,导致所有 token 之间的相似性增加,这极大地降低了 LLM 的生成质量和多样性。非线性对 Transformer 模型的能力有重大影响。增强非线性可以有效地缓解特征坍塌的问题,并提高 Transformer 模型的表达能力。PanGuΠ在前馈网络(FFN)中采用了级数激活函数,并且在多头自注意力(MSA)中集成了增强型快捷连接,这有效地为Transformer 架构引入了更多的非线性。并增广 Shortcut(Augmented Shortcut)来缓解特征坍塌的问题,提高大语言模型的表达能力。

以上这些基础模型框架或者相关微调技术都将会对Transformer的统治地位造成一定的影响,能否完全替代Transformer在大模型一统天下的局面,不仅要看学术界的成果,更要看工业界的行动。

三、大模型免微调方法得到一定的发展

大模型表现能力如此显眼,其中少不了对模型的微调,而近期的一些研究表明通过对alignment tuning的深入研究揭示了其“表面性质”,即通过监督微调和强化学习调整LLMs的方式可能仅仅影响了模型的语言风格,而对模型解码性能的影响相对较小。具体来说,通过分析基础LLMs和alignment-tuned版本在token分布上的差异,作者发现在大多数情况下,它们在解码上表现几乎相同,主要的变化发生在文体方面,如话语标记和安全声明。

研究者提出了一种名为URIAL(Untuned LLMs with Restyled In-context ALignment)的简单、无需调优的对齐方法。URIAL方法利用上下文学习(ICL),通过采用少量精心策划的风格示例和精心设计的系统提示,实现了对基础LLMs的有效对齐,而无需调整其权重。在这个方法中,通过巧妙构建上下文示例,首先肯定用户查询并引入背景信息,然后详细列举项目或步骤,最终以引人入胜的摘要结束,其中包括安全相关的免责声明。

研究发现这样一个直接的基准方法能够显著减小基础LLMs和经过对齐的LLMs之间的性能差距。这表明,通过精心设计的上下文示例,可以在不进行调优的情况下实现对基础LLMs的有效对齐,为对齐研究提供了新的思路。

事实证明,只要基础模型设计的够好,加以优质的数据和足够的训练,完全可以省去微调的步骤,这不但提高了大模型训练的效率,也大大减低的大模型微调的成本。

四、多模态大模型将持续渗透各行各业

随着最近一年来以ChatGPT为主的大模型逐渐走向应用市场,从最初的语言模型应用,已经发展到了视觉模型应用、语音模型应用等多个应用领域,由此也诞生了多模态大模型。多模态大模型,即能够处理多种类型输入(如文本、图像、语音等)的人工智能模型。多模态大模型正在逐渐改变各行各业。

多模态大模型已经在自动驾驶领域得到应用,例如,可以利用多种不同的传感器,例如摄像头、激光雷达、超声波等,来构建一个更加全面和准确的自动驾驶系统。中国科学院自动化研究所的“全媒体多模态大模型”结合新华社全媒体的海量数据积累和媒体融合业务场景,推动了人工智能在视频配音、语音播报、标题摘要、海报创作等多元媒体业务场景的应用。

微软的研究员撰写的综述预测,多模态基础模型将从专用走向通用,未来将有更多的研究关注如何利用大模型处理多模态任务。中国科学院预测,“多模态大模型+小模型”的模式可能成为主流,多模态人工智能产业正在走向场景应用的新阶段。多模态大模型将在未来的人工智能发展中起到重要作用。

这些证据和预测表明,多模态大模型将持续渗透并改变各行各业,为我们的生活带来更多可能性。在新的一年,多模型模型的发展应用将持续深入各行各业,对具体的业务产生不可忽视的影响。
浏览 (10) | 评论 (0) | 评分(0) | 支持(0) | 反对(0) | 发布人:
将本文加入收藏夹
新闻详情
脚注栏目
|
脚注信息
机电工程网(C) 2015-2020 All Rights Reserved.    联系我们