转载自:新民科学咖啡馆

Science & Technology

上海人工智能科技公司MiniMax日前发布并开源新一代01系列模型,包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。该系列模型使用多项突破性创新,以大规模应用线性注意力机制打破Transformer传统架构记忆瓶颈,能够高效处理高达400万token的输入,可输入长度是GPT-4o的32倍。

目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线,企业与个人开发者可前往MiniMax开放平台使用API。

以架构创新

实现高效超长文本输入

2017年,具有里程碑意义的论文《Attention Is All You Need》正式发表,Transformer架构问世并逐步发展成为该领域的主流技术范式。自2023年起,自然语言处理领域迎来了一股创新浪潮,对模型架构的创新需求日益增加。

MiniMax-01系列模型首次将线性注意力机制扩展到商用模型的级别,并使其综合能力达到全球第一梯队。而受益于此次架构创新,该系列模型在处理长输入的时候具有非常高的效率,接近线性复杂度。从Scaling Law、与MoE的结合、结构设计、训练优化和推理优化等层面综合考虑,MiniMax选择模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将有效替代Transformer传统架构并开启超长文本输入时代。

性能比肩

国际领军模型

在应用创新架构之外,MiniMax大规模重构了01系列模型的训练和推理系统,包括更高效的MoE All-to-all通讯优化、更长的序列的优化,以及推线性注意力层的高效Kernel实现,使得模型能力可与全球顶级闭源模型相媲美。

在业界主流的文本和多模态理解任务处理表现上,MiniMax-01系列模型大多情况下可以追平海外公认最先进的两个模型:GPT-4o-1120以及Claude-3.5-sonnet-1022。

过往的模型能力评测中,Google的自研模型Gemini有着显著的长文优势;而在01系列模型参评的长文任务下,相较于Gemini等一众全球顶级模型,MiniMax-01随着输入长度变长,性能衰减最慢,效果及其出众。

加速

AI Agent时代到来

2025年,AI将迎来至关重要的发展节点,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更为丰富、高效、智能的解决方案的必要条件。

MiniMax在Github上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax表示:“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进Agent时代的到来,二是开源也能促使我们努力做更多创新,更高质量地开展后续的模型研发工作。”

MiniMax还为全球用户带来新的创作帮手

——主体参考。

MiniMax最新自研的S2V-01视频模型,通过单图主体参考架构,以传统方案1%以下的输入和计算成本,只需输入一张图片,即可实现视觉细节的精确还原,同时具备高自由度和组合性。

在AI视频生成领域,如何在动态视频中保持人物面部多角度的真实度和稳定性;如何在使用连续片段拼接创作时,使人物角色保持高度一致,始终是困扰业界的难题。MiniMax通过自研的S2V-01视频模型,给用户提供一个新选项。

用户在“海螺AI”中选择“主体参考”功能后,仅需上传一张图片即可识别并锁定主体角色。文本框内输入提示词(Prompt),无需漫长等待,即可生成富有创意且主体保持一致的高质量视频。

记者体验后发现,S2V-01模型能够准确识别照片中不同性别、年龄、肤色、五官结构等面部特征,所生成的角色稳定、连贯,且在每一帧中基本可以保持角色一致。

目前,“海螺AI”开放对单个人物进行参考的能力,需要上传可识别的面部信息,作为视频主体生成的面部参考。未来,“海螺AI”将继续开放多人、物体、场景等更加丰富的参考能力。

据透露,MiniMax将“主体参考”功能以API服务形式上线开放平台,并将在多主体参考方面持续探索,为企业与专业创作者提供更加完善的解决方案。

欢迎转发,但请注明出处“上海经信委”

觉得不错请点赞!

特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!

声明:该文仅代表作者本人观点,欢迎在下方【顶/踩】按钮中亮出您的态度。