昨天做了一整天fileops,而在等fileops完成的过程中,我刷到了一个帖子讲如何白嫖amd的算力,我算是玩厌倦了端脑云,所以我试试amd的开发者平台🤔它领兑换券的地方和实际开实例的地方是完全分开的,一个需要用csdn账号登录,一个需要用github账号登录,就很蒙鼓🤔但熟悉了这个b设定后,一切貌似变得稍微好理解起来,它无非是在前者申请一个兑换券,一天最多可以兑换20小时(这什么雷霆设定),在不清楚等多长时间后得到一串申必数字,然后塞进后者,十成甚至⑨成像是豪猪的卡密兑换,尽管是不花钱的那种(确信🤔
它实例里装的显卡貌似是个7900xtx的同款gpu,显存48GB但不是hbm,它比5090好的地方貌似只有显存🤔它有114514个示例,其中有一个是用hermes agent驱动一个本机部署的qwen3.6小模型改代码,反正模型本身就在它的实例里,我就姑且演示一下🤔
反正它的演示case貌似可以跑,但那玩意才只需要改两行py代码,,,接下来让它部署个codex就很迷,死循环了半小时也搞不定(全恼🤔最后我手动将codex的参数整了进去才能用(悲🤔
为什么我需要往里面部署codex?当然是因为它那个内置模型没法将那台机子改造成云koitatu,它甚至都懒得试(🤔但codex的话,,,貌似也不怎么样,在一顿疯狂雷普后,它挖掘出了这玩意没法做云koitatu的真实原因:wine+dxvk一旦调用amd的gpu就会触发gpufense,这和端脑云的完全没有加载图形加速模块简直就是一对苦命鸳鸯(撅望🤔但端脑云那边至少到了可以串流wine desktop环节(尽管这一切都是用cpu计算的,本质上是套皮novnc),这b机子连这个环节都没到(全恼🤔
whatever,我现在对amd显卡跑llm突然产生了兴趣,比如在我主机的6900xt上跑一个?🤔接下来我发现主机的codex居然停留在一个非常牢的版本,也没有更新🤔可能牢版本codex没有自动更新选项,所以它就这样?反正这个版本并没有将会话和provider绑定,只要用codex resume,无论provider设成啥都能查到或者进入所有会话,所以我在后面才惊奇地发现新版本里会话和provider居然是绑定的?🤔但这牢版本也不是不能用,它在一番雷霆探索后发现diffgemma完全没法部署,因为它压根就找不到amd可以用的量化版本,但我至少可以部署那个huggingface上最你妈火的fable风味11b小模型,它量化完居然只有7GB,那就是它力🤔我让它解析出直链(hf解析直链要么需要梯子要么需要去镜像站,但解析后的链接就能随便下力)再去下模型,用aria2c下,实测速度能跑到800Mbps🤔看来我下次往端脑云部署模型的时候貌似也不用自己缓存一份🤔
顺便题一嘴,现在几乎所有的(普通硬件能够达到的,而非使用权重刻芯片里面的存算一体架构)最速tps传说,包括小米那个T级模型跑四位数tps的ultra方案,都使用的是4bit量化,,,🤔之前我们可能认为8bit量化精度比较好4bit不行,但现在的4bit是混合精度,一小部分比较关键的东西还是16bit甚至32bit,但别的都是4bit,,,另外一方面transformer架构的llm,它撅大多数时间都在等显存,那么量化位数越少它当然越快
,hbm当然远优于gddr🤔但最重要的是,nv在50系之后有nvfp4这个优化数据结构,像diffgemma我用的就是nvfp4,反正就非常离谱,cherry studio显示的是五位数tps,不清楚真的假的🤔总之就是一句话,能开4bit量化就开4bit,剩下的显存空间开大上下文不香吗,顺便一提kv cache其实也可以量化,,,🤔当然小米那个实在是没什么学的意义,首先这是T级模型,就算4bit量化也有大概半个TB,至少得一个a100八卡集群才能放下,,,其次他们抛弃了开源llm推理框架自带的gpu计算方式开始自己写cuda算子,这个撅对不是一般人可以模仿的🤔
1145.14 secs later,,,
它整了一个人模狗样的api,塞进cherry studio里也能用🤔貌似它的runtime比我想象中的轻量很多,它只需要一个vulkan版本的llama.cpp(考虑到vulkan是非常通用的图形api,手机芯片搞不好也能跑),,,也不需要装什么rocm(我估计现在rocm应该也只有linux版),启动速度极快,几秒钟权重就加载到了显存里,然后就可以开启api力(确信🤔
但我本机还是别跑什么模型比较好,毕竟等我同时打开waifu impact、hsr和zzz时,可没有显存空间给某模型用,,,🤔
koitatu.slimed
我发现二号机上的koitatu居然还可以继续精简,比如它有一个50GB左右的mod大包看上去和我里面仅存的角色卡完全没关系,移除🤔此时加载某些卡片时会提示缺失某mod,将这些缺失的mod再从那个文件夹里补回来即可,也就多不到1GB(确信🤔接下来还有两个文件夹也可以移除,最终52.7GB🤔我接下来尝试用winrar压缩,实在是卡得要死,看来我得试试终极大法,acronis同款压缩算法,zstandard🤔
这个还是极其好使的,比如让codex写个一键脚本,只要将文件夹拖进去就能生存它的.tar.zst,或者反过来,将.tar.zst拖进去解压出文件夹,本质上是tar管道到zstd或者zstd管道到tar(确信🤔总之,它压缩成了一个38GB的大包,一个小时半后上传到了度盘,我看看它在顺网云那边需要下载+解压多长时间,,,🤔