昨天做了一整天fileops，而在等fileops完成的过程中，我刷到了一个帖子讲如何白嫖amd的算力，我算是玩厌倦了端脑云，所以我试试amd的开发者平台🤔它领兑换券的地方和实际开实例的地方是完全分开的，一个需要用csdn账号登录，一个需要用github账号登录，就很蒙鼓🤔但熟悉了这个b设定后，一切貌似变得稍微好理解起来，它无非是在前者申请一个兑换券，一天最多可以兑换20小时（这什么雷霆设定），在不清楚等多长时间后得到一串申必数字，然后塞进后者，十成甚至⑨成像是豪猪的卡密兑换，尽管是不花钱的那种（确信🤔

它实例里装的显卡貌似是个7900xtx的同款gpu，显存48GB但不是hbm，它比5090好的地方貌似只有显存🤔它有114514个示例，其中有一个是用hermes agent驱动一个本机部署的qwen3.6小模型改代码，反正模型本身就在它的实例里，我就姑且演示一下🤔

反正它的演示case貌似可以跑，但那玩意才只需要改两行py代码，，，接下来让它部署个codex就很迷，死循环了半小时也搞不定（全恼🤔最后我手动将codex的参数整了进去才能用（悲🤔

为什么我需要往里面部署codex？当然是因为它那个内置模型没法将那台机子改造成云koitatu，它甚至都懒得试（🤔但codex的话，，，貌似也不怎么样，在一顿疯狂雷普后，它挖掘出了这玩意没法做云koitatu的真实原因：wine+dxvk一旦调用amd的gpu就会触发gpufense，这和端脑云的完全没有加载图形加速模块简直就是一对苦命鸳鸯（撅望🤔但端脑云那边至少到了可以串流wine desktop环节（尽管这一切都是用cpu计算的，本质上是套皮novnc），这b机子连这个环节都没到（全恼🤔

whatever，我现在对amd显卡跑llm突然产生了兴趣，比如在我主机的6900xt上跑一个？🤔接下来我发现主机的codex居然停留在一个非常牢的版本，也没有更新🤔可能牢版本codex没有自动更新选项，所以它就这样？反正这个版本并没有将会话和provider绑定，只要用codex resume，无论provider设成啥都能查到或者进入所有会话，所以我在后面才惊奇地发现新版本里会话和provider居然是绑定的？🤔但这牢版本也不是不能用，它在一番雷霆探索后发现diffgemma完全没法部署，因为它压根就找不到amd可以用的量化版本，但我至少可以部署那个huggingface上最你妈火的fable风味11b小模型，它量化完居然只有7GB，那就是它力🤔我让它解析出直链（hf解析直链要么需要梯子要么需要去镜像站，但解析后的链接就能随便下力）再去下模型，用aria2c下，实测速度能跑到800Mbps🤔看来我下次往端脑云部署模型的时候貌似也不用自己缓存一份🤔

顺便提一嘴，现在几乎所有的（普通硬件能够达到的，而非使用权重刻芯片里面的存算一体架构）最速tps传说，包括小米那个T级模型跑四位数tps的ultra方案，都使用的是4bit量化，，，🤔之前我们可能认为8bit量化精度比较好4bit不行，但现在的4bit是混合精度，一小部分比较关键的东西还是16bit甚至32bit，但别的都是4bit，，，另外一方面transformer架构的llm，它撅大多数时间都在等显存，那么量化位数越少它当然越快~~，hbm当然远优于gddr~~🤔但最重要的是，nv在50系之后有nvfp4这个优化数据结构，像diffgemma我用的就是nvfp4，反正就非常离谱，cherry studio显示的是五位数tps，不清楚真的假的🤔总之就是一句话，能开4bit量化就开4bit，剩下的显存空间开大上下文不香吗，顺便一提kv cache其实也可以量化，，，🤔当然小米那个实在是没什么学的意义，首先这是T级模型，就算4bit量化也有大概半个TB，至少得一个a100八卡集群才能放下，，，其次他们抛弃了开源llm推理框架自带的gpu计算方式开始自己写cuda算子，这个撅对不是一般人可以模仿的🤔

1145.14 secs later,,,

它整了一个人模狗样的api，塞进cherry studio里也能用🤔貌似它的runtime比我想象中的轻量很多，它只需要一个vulkan版本的llama.cpp（考虑到vulkan是非常通用的图形api，手机芯片搞不好也能跑），，，也不需要装什么rocm（我估计现在rocm应该也只有linux版），启动速度极快，几秒钟权重就加载到了显存里，然后就可以开启api力（确信🤔

但我本机还是别跑什么模型比较好，毕竟等我同时打开waifu impact、hsr和zzz时，可没有显存空间给某模型用，，，🤔

koitatu.slimed

我发现二号机上的koitatu居然还可以继续精简，比如它有一个50GB左右的mod大包看上去和我里面仅存的角色卡完全没关系，移除🤔此时加载某些卡片时会提示缺失某mod，将这些缺失的mod再从那个文件夹里补回来即可，也就多不到1GB（确信🤔接下来还有两个文件夹也可以移除，最终52.7GB🤔我接下来尝试用winrar压缩，实在是卡得要死，看来我得试试终极大法，acronis同款压缩算法，zstandard🤔

这个还是极其好使的，比如让codex写个一键脚本，只要将文件夹拖进去就能生成它的.tar.zst，或者反过来，将.tar.zst拖进去解压出文件夹，本质上是tar管道到zstd或者zstd管道到tar（确信🤔总之，它压缩成了一个38GB的大包，一个小时半后上传到了度盘，我看看它在顺网云那边需要下载+解压多长时间，，，🤔

最后测出来力，在网络不堵塞的情况下，28分钟就能完成部署，当然那是因为我又让codex做了个新脚本，原理大概和我的guilded drive一样，先用curl整32线程下载，下载出某个分片（比如第0字节到第1GB），然后管道到zstd再管道到tar，然后整下一个GB再管道，然后循环🤔它要是先下大包再解压的话可能会遇到io问题，因为我发现它的两个盘貌似都是某种吴盘系统（考虑到顺网是做网吧系统的，好像没啥问题，，，），换句话说文件io会被转换为网络io，导致读写速度会慢到sata固态的一半，无论是win版aria2c臭名昭著的预分配空间还是解压都慢到离谱（全恼🤔

amdbitte.26.06.20

1145.14 secs later,,,

koitatu.slimed

发表评论取消回复

1145.14 secs later,,,

koitatu.slimed

发表评论 取消回复

发表评论取消回复