返回
科技

小米开源的新推理模型 竟然能在手机上跑起来

2025-05-10 03:025

说到语言模型的本地部署,大家的第一反应应该都是烧钱、烧显卡,像世超的陈年老电脑,打个LOL都嗡嗡响,可以说就是那台老古董毁了我的AI梦。

诶,那有没有不吃配置,不吃钞能力,普通人也能感受到本地部署AI的快感的方法呢?

有的兄弟,有的。

世超这台2000元不到的红米Turbo4,居然就能成功部署小米最新的语言模型Mimo-7B量化版。

在完全断网的情况下,它也能一字一句地输出正确的结果。

众所周知,世超心里一直想着差友,所以第一时间赶来给大家出个保姆级教程,包含两种方法。话不多说,准备冻手!

第一种方法,下载Pocketpal AI,这是一款专用于手机跑AI模型的应用程序。

然后打开它,点击Download Model,再点右下角的+号,选择Add From Hugging Face,然后搜索Mimo,选第一个版本下载就好。

不选后面的,是因为后面的数字越大,模型精度越高,咱这手机其实够呛。

最后回到主页,点击Select Model,就能选择模型开始聊天了。

如果嫌麻烦,世超还准备了更简单的方法,直接在浏览器输入这个网址:

alibaba/MNN/tree/master/project/android/apps/MnnLlmApp,这是一款由阿里开发的端侧多模态模型部署平台。

往下滑到Release,点击Download,下载这个APP,就可以随意挑选下载你想体验的本地模型了,甚至还能跑Stable Diffusion。。

OK,部署完成了,来给大伙看看效果吧。世超那天下班时候迷路了,不小心走到了亚马逊的热带雨林,一格信号都没有,我看是活不下去了。。于是我立马掏出了我的Mimo,问他怎么钻木取火。

不到三分钟,他咣咣咣全给我写出来了。

在这,咱小型模型的独特优势已经尽数体现了——无视环境,随时随地本地运行。

直接在手机上本地运行,就意味着不管在雪山、沙漠、海洋、甚至外太空,咱都能随时随地掏出这个私人助理。

那,要是再小一点呢?阿里之前刚发布的Qwen3,有个参数只有0.6B的模型,咱也在他们自家的MNN上试了一下。

嗯。。确实能说话,不过这说出来的话,好像有点深奥了。。

不过,这应该是和手机部署有关,MNN上的模型基本都是对移动端部署进行特殊优化过,防止手机跑崩,模型有些精度丢失也很正常,出现这种情况也只是概率事件。

总之,有了这些小型模型,咱以后去哪都能跟AI聊天了,坐飞船上趟火星也肯定不会无聊了。

有人说,你这是癔症犯了,这辈子能上太空吗?现在哪儿没网啊,那么多大模型APP它哪个不香?

但小型模型的用处,还真不止这点。如果说,AI要想更贴近咱的生活,还真得是更小的模型。

要是AI发展到进家门了,你躺沙发上突然想看电视,喊AI帮你开个电视,这其实也就是个跑腿的活。但如果把指挥家具的都换成大模型,那得等它们上传数据,深度思考,再把数据传回来,估计还没等电视打开,你就刷上短视频了。

这就是参数少的另一个优点——低延迟。没有那么多参数,它就不用考虑那么多东西,完全遵照主人的命令。

而且,参数量越小,训练和部署的成本也就越低。据说,训练一次 GPT-4o 这种级别的模型,就要烧掉 1 亿美元,平民根本烧不起这么大的模型。所以AI公司每次开源新模型,都会放出各种尺寸,就是让大家自由挑选适合自己的模型。

而很多小公司,都是垂直领域的专家,不需要大模型那样的百科全书。

参数少的模型,可以用来被各行各业的公司自己训练,不仅烧钱少,还能炼出一个该领域的专家。现在,有很多专业型模型已经在各自领域发光发热。

像度小满的金融模型的XuanYuan-6B,虽然只有6B,效果就非常好。在注册会计师(CPA)、银行从业资格、基金从业资格、证券从业资格等多项金融领域考试中,这玩意都能展示出金融领域专家的水平。

而现在,很多公司也在开始小型模型上全面发力,很多参数少的模型甚至能媲美大模型。

像咱的DeepSeek,愣是用一些新奇的算法,把参数少的模型性能怼了上去。DeepSeek-R1-Distill的7B和14B版本,在数学推理任务上能超越很多闭源大模型。

还有家叫面壁智能的公司,他们是专门搞端侧模型的,目标就是手机、车机等移动设备,他们搞出的“小钢炮”MiniCPM只有8B,测试表现居然能媲美GPT-4o。

而且,他们很早就把多模态能力塞进了小型模型里,实现了全模态、端到端。

就连苹果都开始自研 3B 参数的模型了,他们的AFM-on-device,在文本总结任务中,其效果能优于Gemma、Phi-3 mini等更大参数的模型。

那问题又来了,这些模型参数这么少,又能赶上大模型,这又凭什么呢?

这些小东西还真有独门秘籍。比如知识蒸馏这方法,就像让老师给学生开小灶,让大模型把学到的知识和经验传授给更小的模型。

以及剪枝、量化等方法,简单说就是在不需要很高精度的情况下,把模型里的高精度计算变成低精度计算,这样模型就能跑得更快。去年英伟达联合meta发布的 Llama-3.1-Minitron 4B AI 模型,就是从原本的8B模型剪枝而来,让模型速度更快,资源更省。

最后还有一招,叫混合专家模型(MoE)。传统大模型就像个齐心协力的专家组,不管什么问题,都得全组抄家伙上阵。而 MoE 架构的作用,就是把这群专家拆分成 n 个专业小组:有的专门搞数学推导,有的专精语义分析,还有的负责图像识别。。这样,遇到小问题就不需要“全员加班”了。

所以,别看这些模型个头小,说不定就是迈向AI世界的又一大步。就像科技进步从不是一蹴而就的,咱普通人,就静待开花结果就好。

打赏
  • 0人打赏
    举报
关闭
同类新闻