在我和端脑云的节点进行了114514番吉列的豆蒸后,终于将rvc全自动训练api整得差不多力🤔我发现为了实现全自动训练,需要实现的api比我之前预想的要多很多,比如首先需要一个train,往里面塞语音url或者语音包rar🤔但开启了训练后还不够,还需要一个停止api,需要一个恢复api🤔除此之外还需要一个能够提取某个checkpoint和运行日志的api,方便使用ai或者啥来分析哪些checkpoint的质量比较好,用于人工试听环节(其实我每次直接让ai来判断,甚至连获取这些日志都让ai去做,总感觉这个api没啥必要🤔
接下来还有更麻烦的事情,我还在训练过程中要继续同时开发bot和端脑云的框架,所以这两边都需要重启114514次,之前stop/resume命令依赖的是jobid,在两边的重启过程中肯定都记不住这玩意,还得改成以角色名称来停止或者恢复🤔不仅需要在重启之后还能停止或者继续训练,还需要在重启之后继续跟踪某个实例训练某个角色的进度,所以还需要一个跟踪api🤔接下来还要优化端脑云实例返回的日志信息,从而bot这边可以挂一个不停编辑的消息框来展现半实时日志,考虑到那边是每训练200步才更新一次日志,这个过程无论设什么batch size都大概是45秒一次,我那边设成了一分钟一次检查日志🤔
提取完checkpoint后还需要将模型导入回这些实例,从而支持推理,所以之前rvc的固定角色路由需要改掉🤔我最终撅腚训练完成的实例不能直接调用训练完的模型(因为它不见得指定该以哪个checkpoint为准),它也得和其他实例一样经历一番导入的过程,在此过程中它会从alist获取模型rar,解压导入,注册角色路由🤔这样也许我可以将训练和推理从逻辑上分开,尽管那并不意味着它们可以并行,但这样也许可以少很多麻烦(确信🤔
我估计那两个旧角色可能某一天会带导致一些奇怪的问题,但目前它还没,所以就这样🤔
在此过程中我还需要和蓝奏进行一番吉列豆蒸,这个逼玩意出了114514顿问题,导致我训练的模型导出不了一点🤔它不仅没法上传partxx.rar,对于某些文件居然还能报错“无法识别文件内容,请联系客服处理”🤔所以它居然还有识别文件内容环节?啊?我那玩意是加密压缩包,你识别你妈逼啊🤔
whatever,在将文件分卷大小从95MB降到64MB后,这玩意可以继续用,既然我仍然不想往端脑云的机子上泄露我的度盘或者onedirve等的登录凭据,这逼玩意我还是接着捏鼻子用⑧(撅望🤔
总之,无论我愿不愿意,端脑云的msst相关api被我整成了一套⑩山庞然大物,而至于昔琏bot,,,它的命令多到我自己都记不住,偶尔还得问ai(🤔但无论如何,我现在终于可以大规模对着waifu impact和hsr的各种萌妹开始训练力🤔设置了300个epoch,基本上每个萌妹一小时甚至半小时就能完成训练,我本地可能跑100个epoch就要一晚上,现在这实在是快🤔甚至batch size设成16都只能用到它一半显存和gpu,那我设成32呢?恐怕端脑云的运维要开始警撅力(🤔