thonk.24.04.06

这两天某两款萌妹游戏的卡池里面什么都没出,所以我接着撸sexart相关玩意🤔

上次写了一个合并maindb的玩意,做了一点改进后我按照惯例检查合并前和合并后的maindb变化,发现某些行在合并后的maindb里面便乘了空行🤔后面一检查发现只有for循环外的cat *.txt都改成了temp目录下,循环里没改,所以它只能便乘空行,而没有便乘空行的其实是根目录就有而且一直在添加新东西的maindb(恼🤔改掉后再跑一遍,这次diff检查说明以后这玩意可以用来整别的玩意力(确信🤔

接下来从某个maindb开始分配线程的玩意也能随便撸出来,等我搞定github actions那边的事情,我就开始停止目前的两个线程,合并一次maindb,并以此来开始搞(确信🤔当然现在切换到真·多线程模式其实切不切换没啥太大关系,但等我真的想挑战什么24小时速通它的一系列分站甚至主站metart时,,,就有用力(确信🤔等等,主站可是足足有20TB内容的,24小时速通真的行吗(🤔

AYAYA

又经过了11451.4秒的哼哼雷普后,我终于将sexart脚本做了github actions适配🤔在多方面对比各种代码后,我发现了两点:

  • 拖视频post的代码和拖图片post的代码确实没法合并,因为它们需要抓取的网页元素不一样(悲🤔所以我最多只能按照post类型来分流,并将guilded drive上传语句从处理视频或图片的函数中挪到它外面,省得我每一个函数里面都写一句上传guilded drive🤔

  • 但github actions版本和本地版本确实可以合并,因为它们的区别居然只有具体的guilded drive脚本位置,还有github actions专属的处理后上传当前进度的功能🤔只需要找个办法判定当前是否在github actions里,设定一个一个一个flag或者不设定,然后在相关语句前加if即可(确信🤔

现在github actions既可以处理视频也可以处理图片,而且将它们塞进同一个maindb里也可以🤔讲真我寻思将它们塞进同一个成品maindb里,估计用cloudflare worker索引它们中的任意一个也是可以的,をたま就不信它们能恰巧共享同一个url,这个结论甚至可以扩大到metart系所有站,甚至将那三个kg系塞进去搞不好也可以(迫真🤔

为了方便将其投入多线程生产环境里,我还将某些初始化步骤做了抽离,便乘了五个初始化脚本,分别对应着github actions单账号能设置的五个线程,而它们会下载并调用同一个sexart处理脚本🤔不清楚前年我怎么想的居然在维护⑨个甚至⑧个除了某几行参数不一样别的玩意一毛一样的脚本(恼🤔

但更加牛批的是我停止那两台vps的处理,换这个脚本上,它也能和之前一样跑,基本上除了不会每上传一个视频再上传一个日志外和github actions版一毛一样(确信🤔

现在我在所有地方实现了统一脚本,以后只需要改一处就能改所有地方(确信🤔接下来趁着那两台vps继续跑视频时,sexart图片五线程github actions雷普,启动!🤔

another 11451.4 secs later,,,

极其生草的是,只有第一个线程两小时半跑完全程,别的线程三个小时才完成了三分之二🤔按理来说我分这些玩意的时候是均匀分配的,再说了它们都是只占300MB左右的图片,不是什么随着日期越来越新而逐渐增大的视频,结果有一个线程要么明显比别的线程东西少要么明显更快,wiebitte?🤔

whatever,收集起来它们所有的maindb,合并,再次分配,重新五线程跑🤔等这坨玩意跑完后,我就拿github actions处理剩下的亿点点视频,接下来才是真正的github actions时刻(确信🤔

然后再往脚本里面塞点东西🤔也许我有必要用time来统计一下某些操作的用时,但time这玩意只能加在某个函数里面某些命令的前面,它的结果才能被这个函数调用时后面加的重定向stderr写入日志文件(恼🤔所以我最后干脆若干个函数套娃,这样无论哪一步骤还是总体的拖视频或者图片时间都能记录到日志里,总用时也能显示到屏幕上或者github actions的日志里(确信🤔

除此之外我还需要从2022版断点续传玩意里移植点东西过来,比如不清楚为啥2023版居然没有统计进度的功能🤔这部分还是比较好搞的,但现在我已经开始跑力,下次再说🤔

thonk

又过去了将近40分钟,剩下的这点图片也全搞定力,合并后第一个全部拥有guilded drive链接的maindb便搞了出来🤔接下来当然是停掉某台arm vps的进度,将其当前的maindb还有大盘鸡上的maindb进行合并,撸出十个甚至⑨个线程的maindb,塞进github actions里🤔当然,我现在基本上可以将那台arm vps删掉力,这两天我用它只是没完成github actions脚本暂时顶着而已,但如果它完成力,那么接下来的sexart乃至metart系雷普,就基本上没我自己的vps啥事力(确信🤔

现在那台vps可以用来处理别的玩意,比如我又上传了一批游戏录屏,需要它处理下🤔

另外不清楚kg系能不能走github actions,但我寻思至少按照我写的那些脚本,恐怕它得,,,将html也塞进maindb或者,,,?🤔或者它干脆就直接访问那些网页得了,我撸sexart都能让它们随便拿sexart的cookies解析下载链接(而非我以前搞的cgi-bin中转),kg系站甚至都没有cookies,我怕啥🤔

话说rosefile站还有啥?我就不信wp搭建的rosefile站就那么三四个(其中一个我到今天都没实现分析),肯定有别的(恼🤔

AYAYA

到了今天晚上11点多,sexart剩下的一百多个视频也被十个甚至⑨个github actions线程雷普完成,至此经过三天啊三天的雷普后sexart全站告捷,统计下来视频13.9TB,图片709.9GB,还行🤔

现在我可以一个github号上十个甚至⑨个github actions机子,而我目前至少有两个号可以随便用,它至少今年貌似又管得松力,换句话说如果哪天我真的撅定要雷普它的主站力,我就开始20线程雷普,就算它真的有三万个图片posts,又如何?(吴慈悲🤔

但在此之前,我需要解决它那些东西少的小站🤔现在有两个我比较感兴趣的问题:

  • 在我获得它们的一天试用access前,我能不能先获取它们的视频列表来构造一个一个一个maindb?

  • 我在sexart上的cookies能不能在别的站用?

发表评论