AAAAAAAAsta.26.05.22 – die deutsche Orthopädiespezialist

在我和端脑云的节点进行了114514番吉列的豆蒸后，终于将rvc全自动训练api整得差不多力🤔我发现为了实现全自动训练，需要实现的api比我之前预想的要多很多，比如首先需要一个train，往里面塞语音url或者语音包rar🤔但开启了训练后还不够，还需要一个停止api，需要一个恢复api🤔除此之外还需要一个能够提取某个checkpoint和运行日志的api，方便使用ai或者啥来分析哪些checkpoint的质量比较好，用于人工试听环节（其实我每次直接让ai来判断，甚至连获取这些日志都让ai去做，总感觉这个api没啥必要🤔

接下来还有更麻烦的事情，我还在训练过程中要继续同时开发bot和端脑云的框架，所以这两边都需要重启114514次，之前stop/resume命令依赖的是jobid，在两边的重启过程中肯定都记不住这玩意，还得改成以角色名称来停止或者恢复🤔不仅需要在重启之后还能停止或者继续训练，还需要在重启之后继续跟踪某个实例训练某个角色的进度，所以还需要一个跟踪api🤔接下来还要优化端脑云实例返回的日志信息，从而bot这边可以挂一个不停编辑的消息框来展现半实时日志，考虑到那边是每训练200步才更新一次日志，这个过程无论设什么batch size都大概是45秒一次，我那边设成了一分钟一次检查日志🤔

提取完checkpoint后还需要将模型导入回这些实例，从而支持推理，所以之前rvc的固定角色路由需要改掉🤔我最终撅腚训练完成的实例不能直接调用训练完的模型（因为它不见得指定该以哪个checkpoint为准），它也得和其他实例一样经历一番导入的过程，在此过程中它会从alist获取模型rar，解压导入，注册角色路由🤔这样也许我可以将训练和推理从逻辑上分开，尽管那并不意味着它们可以并行，但这样也许可以少很多麻烦（确信🤔

我估计那两个旧角色可能某一天会带导致一些奇怪的问题，但目前它还没，所以就这样🤔

在此过程中我还需要和蓝奏进行一番吉列豆蒸，这个逼玩意出了114514顿问题，导致我训练的模型导出不了一点🤔它不仅没法上传partxx.rar，对于某些文件居然还能报错“无法识别文件内容，请联系客服处理”🤔所以它居然还有识别文件内容环节？啊？我那玩意是加密压缩包，你识别你妈逼啊🤔

whatever，在将文件分卷大小从95MB降到64MB后，这玩意可以继续用，既然我仍然不想往端脑云的机子上泄露我的度盘或者onedirve等的登录凭据，这逼玩意我还是接着捏鼻子用⑧（撅望🤔

总之，无论我愿不愿意，端脑云的msst相关api被我整成了一套⑩山庞然大物，而至于昔琏bot，，，它的命令多到我自己都记不住，偶尔还得问ai（🤔但无论如何，我现在终于可以大规模对着waifu impact和hsr的各种萌妹开始训练力🤔设置了300个epoch，基本上每个萌妹一小时甚至半小时就能完成训练，我本地可能跑100个epoch就要一晚上，现在这实在是快🤔甚至batch size设成16都只能用到它一半显存和gpu，那我设成32呢？恐怕端脑云的运维要开始警撅力（🤔

发表评论 取消回复

发表评论取消回复