面壁CEO李大海：物理世界要实现AGI，一定是通过端侧智能

未来物理世界要实现AGI，一定是通过端侧智能。

面壁智能CEO兼联合创始人李大海在第三届中国AIGC产业大会上分享了他们的经验认知。

作为当前端侧智能的领跑者，面壁智能在过去一段时间以来可谓是进展频频。

他们发布了端侧模型MiniCPM驱动的面壁小钢炮超级助手cpmGO，MiniCPM也逐步开拓了手机、具身智能、AIPC、智能可穿戴设备等几个主流落地方向。

未来他们的愿景是让每一个设备都具备智能。至于如何实现？李大海在会上分享了背后的方法论。

为了完整体现李大海的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

中国AIGC产业峰会是由量子位主办的AI领域前沿峰会，20余位产业代表与会讨论。线下参会观众超千人，线上直播观众320万+，累计曝光2000万+。

话题要点

DeepSeek的成功，底层在于三个“密度”的极致：团队密度、组织密度、高资源密度。
我们观察到大模型“知识密度”是智能的核心指标，而高知识密度模型在端上最有价值。
大模型知识密度可以跟芯片制程做类比，我们知道芯片的制程，就是在每平方厘米下晶体管的数量，可反映出计算能力的强弱。而大模型知识密度越高，它的智能就越强
未来物理世界实现AGI，一定是通过端侧智能。因为只有把大脑部署在设备的终端上，把大脑部署在机器人的脑子里面，它才能够真的去做最灵敏的感知，去做最及时的决策，才能做出最完美的应对。

以下为李大海演讲全文：

DeepSeek成功最底层因素是三个“密度”

朋友们，大家下午好。我今天穿的T恤是我们公司面壁智能的文化衫，面壁这个名字就来源于《三体》，我们公司的三体迷把公司企业文化都“三体化”了，我们员工手册的名字就叫“这是面壁计划的一部分”。

今天很高兴能够在这里跟大家汇报面壁过去一年多的工作，自从参与创立面壁，开始在大模型这个赛道里长跑，真的非常有意思。因为才短短两年多，我们经历了许多的“非共识”，其中很多的“非共识”变成了共识，然后又涌现出更多的非共识。整个公司的发展过程，我们不断地在更新自己的认知，进行迭代。两年的时间，像是过了十几年。

今年有一个绕不开的话题DeepSeek。DeepSeek的成功，有着天时地利人和的多重因素，也有很多值得我们重点借鉴的先进经验，我们总结下来有三个方面的“高密度”：

第一，团队密度。能够在大模型领域突出重围的公司和组织，必须有足够高的人才密度，组建一支极客式的优秀团队，聚焦在大模型的底层技术上，进行深入地钻研。

第二，组织密度。组织密度讲的是组织目标的一致性，我用另外一个词叫“组织熵”。当一个组织里每个人的目标都不一样时，是熵最大的状态，那是最不理想的状态。最理想状态是上下一心，所有人目标一致，这样整个组织间协作非常高效。这是“足够高的组织密度”。

第三，高资源密度。不仅要给创新留出充足的研发预算，并且要保障团队能够非常长时间地聚焦于技术的钻研，持续进行技术的积累。

维持三个密度都足够高，才有可能在大模型的底层技术上有所突破。

DeepSeek是在云侧，践行非常高效的大模型组织；而面壁在端侧，也在开展十分令人兴奋的高效故事。

我们对大模型“知识密度”的洞察

面壁团队是从2019年开始all in大模型，2022年8月份公司正式成立，而后在2023年9月份就发布了第一个千亿级的GPT-3.5水平的模型，拿到了网信办第二批安全备案。

到了2023年年底的时候，看到大模型同质化越来越严重，我们开始思考面壁的核心竞争力是什么，差异点是什么。

因为从团队创立之初，高效就是我们骨子里的基因。早期还因为我们有很多大模型推理加速的工作一段时间被错归类为infra公司…… 高效这件事，好像天然就是我们骨子里信奉的东西，也是更加比别人能做好的事情。那么那段时间，我们做了“模型风洞”试验方面的创新性探索，发现我们的模型总是同等参数、性能更强。

大模型高效背后的核心指标，正是知识密度，并且我们把对大模型成长规律的观察总结为“密度定律”。

我们发现，大模型知识密度每3.3个月翻一番。大模型知识密度可以跟芯片的制程做类比，我们知道芯片的制程，就是计算密度在每平方厘米下有多少个晶体电子管的数量，它的电路有多少，可反映出就说明了它的计算能力的强弱有多少，这个密度越高，说明制程越高。而大模型的知识密度就越高，它的智能就越强。

当我们聚焦去做高知识密度模型，并且发现落在端侧具备格外的优势。因为端侧的算力是有限的，内存也是有限的，功耗也是有限的，这三个限制条件下，天生是带着镣铐跳舞，知识密度高，效果才会好。

未来物理世界实现AGI，一定是通过端侧智能

过去一年我们发布了九个端侧模型，在今年1月份的时候发布了全球第一个端侧全模态的模型，大概是8B大小的模型，这个模型能流畅运行在iPad上，可以实时流式的实时看，持续听，自然说，并且“看听说”的水平从多模态角度上达到了GPT-4o的水平，虽然解决复杂的逻辑问题层面上，还是跟云端模型有区别，但是在多模态能力上已经非常强。

从这个简单的例子里面看到，全模态大模型可以同时接收语音跟视觉的信号，基于语音跟视觉去感知周围的环境，同时以声音或者文字输出自己的答案。而将这样的全模态大模型部署在汽车、机器人等这样的设备上，就可以让汽车、机器人这样的设备成为一个能够同时去看、听、说的设备。

基于我们模型的工作，在今年3月份的时候，发布了纯端侧模型驱动的面壁小钢炮超级助手产品，首先在汽车上落地。

汽车是我们端侧模型落地的理想场景，因为汽车作为超级终端“智能体”来说是一种成熟的“具身智能”，我们认为在汽车上有非常好的发展空间。

面壁小钢炮超级助手可以在车上提供目前两种特别重要的能力。

第一个是端上不依赖网络的全天候指令助手，用户在车上所有的指令，都可以在端侧智能上做到及时响应。

第二是通过舱内舱外的摄像头、麦克风去感觉舱外环境和舱内车乘人员的指令和状态，根据这个感知去主动关怀他们。

这是一个感知、决策、执行三位一体的模型。几年以前智能驾驶就在提这个概念，端到端的模型给行业带来一些新的可能性。

通过摄像头感知舱外舱内的环境，在端侧有什么特别优势呢？

首先，汽车作为一个移动客厅，网络情况是不可能100%稳定可靠的。端侧方案可以不受网络的限制，随时随地做到感知。

第二，如果在云端，完成舱内舱外视觉信息视频流的感知回传，可能推理的成本不算高，但是高清视频流实时传输的带宽成本很高，其次背后也有大量的隐私信息，因此不仅成本高，还有很多隐私暴露的风险。我们纯端侧能够在隐私和成本上有很好的优势。

这个视频可以看到，纯端侧的面壁小钢炮可以陪大家走遍天涯海角，因为它不受网络的束缚，它是全天候的。

这个是我们从执行层面上的GUI Agent产品。我们既然已经有了端侧模型，我们就可以通过端侧去感知到屏幕上发生的行为，就能够帮助用户完成这些任务，完成这些任务的基础是像用户一样理解这些屏幕，通过这些方式本质上就能够像人一样，所以能够有很强的泛化性。同时因为是在端侧，所以用户屏幕上的信息是不会被上传到云端，隐私绝对有保证。

我也想借这个时间跟大家同步一下我们的认知。

为什么面壁过了两年，一直现在云端发展依然如火如荼的情况下，我们仍然非常聚焦于地做端侧。因为端侧是我们的信仰，我们相信未来端侧是有非常广阔的天地。同时我们也相信未来在物理世界要去实现AGI，一定要通过端侧智能。因为只有把大脑部署在设备的终端上，把大脑部署在机器人的指挥中枢，它才能够有最灵敏的感知，去做最及时的决策，才能做出最完美的应对，这是一个非常基础的事情。

目前我们的端侧模型，已经在汽车、部分机器人的场景、手机，还有一些新的智能终端，比如说离线的翻译机等设备上落地。

我们的愿景是要让每一个设备都具备智能。

好的，我的分享就到这里，谢谢大家！

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/12034.html