waifuflyAYAYA.24.04.16

感谢waifufly(大嘘),我大号今天在waifufly的秘密基地抽黄泉居然没歪🤔但别的号运气就没这么好力,宵宫小号歪了一个一个一个一个提肛助手的命座,而某hsr小号更蛋疼,它歪了一个一个一个clarawaifu啊啊啊啊啊(恼🤔

当然那个号由于主线没进展迟迟没有开放新的eq,也没有开放boss材料本和周本等玩意,其实上谁差别都不大,问题是没有黄泉的话我就没法大世界砍人砍到爽力(悲🤔而宵宫小号本来原石数量就比抠抠米小号少几乎一万,考虑到接下来114514个池子没啥可抽的,它最终还是要抽臭龙,这样算下来最终这两个小号的原石差距可能会到两万以上(全恼🤔这下体现出早柚酱小号在臭龙池子里35发出的含金量力(迫真🤔

那个号抽到臭龙后随便拉了下等级就扔进深渊里打,我记得最终换了一个抽象配队,臭龙塞进raiden双草队,waifurina去隔壁🍪impact,勉强过🤔而另外两个小号就正常很多,11-3上半居然是两个水人,直接用waifuhida踩着玩,半分钟过(迫真🤔如果waifuhida能够在水人的114514波爆发伤害中存活的话🤔我大号有钟离盾,随便浪,但那几个小号只有laylawaifu,还是需要小心一点的,该躲躲别搁那嗯撑(🤔

本期深渊的12层就难多力,甚至某人的号都打不过12-3,那个下半层怪物有一个极厚的岩盾,破了之后不到几秒又开,如果是水龙队伍或者🍪impact的话还真不好对付(恼🤔我的号甚至连12-2都没法五分钟内搞定(悲🤔

wiebitte.24.04.15

草,半夜突然醒来🤔也许我被弄醒的原因有114514种,但只要我醒来,那么再次入睡可能就没那么容易力(恼🤔

当然我通常来说也懒得关心什么时候睡什么时候起,只要一天的总睡眠时间达标,该睡睡该干嘛干嘛(迫真🤔所以我起来看一眼waifu impact进度,然后再看一眼alsscan的进度🤔

waifu impact在我睡前甚至在前一天我就撸差不多力,该领的东西都领了一遍,大号甚至从撸喵酱活动完全没开始玩快进到撸完了所有喵酱并将某只橘猪(大嘘)领回了家(确信🤔总共用时两小时,其中可能有十几分钟耗在录制最后一段长达20分钟的配音剧情上🤔我那些小号应该用不了这么多时间,但一小时应该是需要的(确信🤔

比较意外的是我玩的某个hsr小号居然完全忘打了su,我寻思以前我经常一边impact cuties一边挂su,但上周某个时间我这么做时,它断电断得我有点ptsd,所以su一直没打🤔事后分析这种断电和上次看waifufly被雷普时断电原因差不多,su每次打完怪都会切换到一个纯2d的祝福选择界面,此时hsr完全不消耗gpu,无限接近于只开启waifu impact,那么后者打个怪物啥的就是会有几率触发断电🤔

但无论如何,到我醒来的那个时间点,这个号要打三回啊三回才能完成周su任务,我只打完了一回半(全恼🤔只能接着打下去力🤔还好我打得足够快,不到20分钟就搞定力,接下来我甚至还有时间给早柚酱小号coop刷女士周本🤔最后领了一个五星圣遗物一个武器原胚还有一个变换周本材料的玩意,好家伙,ar35小号压根就没有周本材料可以变换(恼🤔

thonk

而alsscan那边,感觉干得还行,现在已经是第二轮的第4小时,加起来已经过去了十小时甚至⑨小时🤔由于合并过程可以在任意时刻进行,出于某种申必原因我设置了一个每过10分钟甚至⑨分钟就进行一次合并的screen,目前alsscan的视频只剩817个没拖🤔

还行,我以为这玩意要干18小时甚至20小时,但目前看来也许14小时就能结束?🤔这下我对之后的metart主站雷普顿时充满了信心,它无非就两三万个图集,有啥难的(迫真🤔只要视频别拖到六小时以上,我就有至少1⑨小时甚至18小时来干图集(确信🤔但这也不好说,之前alsscan的四千个图集就拖了接近三小时半,可能主站的图集没那么大,这个就鬼知道力(悲🤔

但如果它真的过期之后也没拖完,我有没有可能再来一遍?🤔上个月过期的另外一个号也许可以拿出来用,它点击试用metart时应该不会报错,但信用卡是否能过就不好说力🤔

bruhfei

最终发现中途成功续了一次,又续失败一次,失败的一次是因为算错了时间(恼🤔最终导致所有号都有十几个到三十几个runners搁那儿排队🤔

但更蛋疼的是我能够观测到一大堆只有五位数字节的posts,说明它们里面一个视频或者图包都没有🤔而且它们的数量还能多到我能够观测到的程度🤔我写了一个脚本排查并在maindb里将它们恢复到状态码0,但我设置错了门槛大小,导致相当一部分被我漏掉力🤔当然就算我没有漏掉,alsscan也结束力,这还是在它给我多给了若干小时的情况下🤔

事后统计一下,基本上很多之前拖过的metart系站都或多或少出现过少东西的情况🤔随便打开一个看日志和拖下来的东西,aria2c提示list里面没有文件下,而list来自的metadata json只有一句话,找不到视频?wiebitte?🤔

我吴端猜测github actions的某些ip段被metart系站屏蔽力🤔既然如此,看来直接在runners里解析链接的省事方法搞不下去力,我得恢复2022年搞的那套cgi-bin玩意(恼🤔那么问题来力,我用哪台机子做cgi-bin机子捏🤔

或者格局打开,用php来解析,这样我就可以用pikapod力🤔

rosebitte.24.04.14

昨天睡(迫真)前突然想拖一顿rosefile站,花了大概一个小时对着之前用了114514年的kg系脚本和现在跑在github actions上的metart系脚本缝了1145.14秒,缝出了一个github actions用的脚本,一个站四个线程,12线程,启动!🤔但跑了一顿后出现了一大堆只有6xxxx字节的post,而且我下了其中某一个看上去不是6xxxx字节的post,它里面应该有两个rar但我最终下的东西里面只有一个(恼🤔

这说明多线程跑rosefile链接解析时,它的登录特性(一台机子登录后别的机子之前登录过生成的cookies光速失效)能够导致部分线程没法正常解析出链接🤔那么如果我设置成无限循环重试呢?它又会出现所有线程搞半天都处理不了任何一个文件的情形,此时它们估计忙着互相使对方的rosefile登录状态失效,最终没有一个号能解析出链接(撅望🤔

既然如此,在这些机子上完成rosefile链接解析基本上不可能力,如果是以前的话我肯定能光速撸一个cgi-bin脚本,rosefile只要能解析出cloudflare r2或者sharepoint的链接,接下来这些链接既不锁ip又不验证headers,随便哪个github线程都能随便下(确信🤔但我现在缺少撸这套玩意的基础设施,所以我还是在我的vps上跑单线程rosefile得了,那些github actions号如果实在是闲得没事干,不妨接着跑sexart去🤔

bruhfei

又跑了一两个sexart小站,某个github旧号有时候能跑20线程有时就只能跑1⑨个线程,此时我就需要对付它处于排队等待状态的那个线程(恼🤔比如我可以将它分配到的maindb.txt直接便乘一个空的,这样它哪怕到时候上线也只会光速结束(确信🤔然后我接着分配一次🤔

11451.4 secs later,,,

现在metart系只剩下一个alsscan和metart主站没拖🤔先拖alsscan,它有接近4000个图集和4000个视频🤔

这次我上了若干个号,某老号18线程,别的号5线程,总计33个🤔出于某种申必原因,这些号拖这4000个图集居然花了两小时半还没拖完,肉眼可见地要肝到三小时半甚至四小时(全恼🤔有没有可能因为这个alsscan,它有很大一部分图集体积是以GB计的?🤔

所以到该拖视频的时候,我是只开20线程呢,还是开个什么38线程?🤔但无论怎么开,我现在只需要短短的几句话,按下回车后它就会自动分割maindb自动分配任务,非常方便(确信🤔接下来我就要么坐等它完成,要么等六小时多十分钟甚至⑨分钟后自动合并,然后自动重新分配(确信🤔

barbruh

终于,alsscan的视频部分开拖力🤔上次我写了一个连续拖视频workflow直接导致我的某个老号被橄榄,所以这次我需要用github actions自身机制之外的玩意实现workflow无限续🤔而这其实相当好办,既然之前已经用repository_dispatch实现了几乎全自动分配任务,更早之前又实现了自动合并,那么我完全可以将这两者缝起来,也就是分配任务后定一个一个一个6小时零10分钟甚至⑨分钟的时,时间一到自动合并然后紧接着分配任务,以此重复三回啊三回(确信🤔至于定时,可以用简单的sleep来实现,也可以随便找个倒计时脚本,实现可视化的倒计时(确信🤔

现在理论上来说我再也不用人工干预这破玩意力,如果我不想人工干预的话🤔我要是中途想人工干预的话我就中断这个自动脚本的运行,停掉所有的workflows,然后重新开始这段脚本(确信🤔

只不过我现在这坨玩意跑在五个还是六个不同的github号上,而我懒得一个一个一个登录它们停掉workflows🤔我寻思下次我可以考虑写一个kill switch,换句话说它以后每次搞完并上传完后还会从某位置下载一个文件,根据文件内容来撅定继续还是中止整个脚本🤔但这次我懒得折腾力,github要是因为我跑满六小时就橄榄我的号就橄榄好了,懒得关心(吴慈悲🤔毕竟哪怕我接下来一整个月都没法用github actions,我现在雷普github actions生成的数据已经突破了0.05PB,就这样🤔

bruhfei.24.04.12

今天撸了十个甚至⑨个gmail账号🤔现在gmail还是挺便宜的,很多地方都能便宜到一块二一个🤔而且在各种乱七八糟的邮箱服务里面,gmail算是事最少的,登上去之后撅大多数情况下可以随便改密码和恢复邮箱,后者甚至不用输入发往原邮箱的验证码(当然也有可能是因为原恢复邮箱完全就没有通过验证,所以只能作为异地登录时的2fa项用),它估计默认只要能进到security页面的用户就十成甚至⑨成是合法用户⑧🤔而在别的地方或者机子上再次登录时居然只需要输一遍恢复邮箱的全名就可以过2fa(迫真),不用等什么恢复邮箱收到验证码🤔

但以后用它们的时候也许根本不需要登什么gmail,只需要设置好邮件转发,接下来就可以拿它注册github或者别的东西玩力(确信🤔

至于github账号注册方面,就很不幸力,注册了四个只存活了三个,到第三个时验证已经开始便乘了最难的那种,需要连续对五次(恼🤔第四个号分分钟被橄榄,一眼盯帧,鉴定为忘了上梯子(全恼🤔所以我换了台机子又注册了一个🤔而在github actions使用方面,前两个跑demo runner(只输出几行字符串)可以秒开,第三个会无限排队,过几个小时后才能秒开🤔第四个也在无限排队🤔

whatever,反正我现在不用它们,以后再说🤔先这样每天注册几个备用,我看啥时候攒到20个github账号再开干🤔

waifu impact上次那个射史莱姆活动被我一天rush完力,现在的新活动是一个一个一个撸猫活动,真的可以撸喵酱玩🤔这算什么,我下楼还可以撸喵酱irl(半恼🤔

thonk

下午又光速撸了十个甚至⑨个,现在我已经有了20个配置完成的gmail账号🤔github那边事情可能更多些,主要是我也没有什么办法买到已经折腾好的,github actions antics也不像az或者aws那样有114514人雷普,所以我只能一个一个一个手工注册🤔那么问题来力,我这边很难说是干净的注册环境,所以很多东西恐怕就很难办,比如我现在注册的几个搞不好它的actions处于某种受限状态,开不出20个runners,只能开十几个或者五个,或者注册了几天甚至一晚上就会被橄榄(恼🤔

那么什么算是比本地挂梯子干净的注册环境呢?用hetzner或者vultr的vps跑一个桌面环境,然后装个firefox,在它上面注册,这个应该算是比较干净的,除了ip可能是数据中心ip外🤔或者在某些众包平台(还得是国外的平台)人肉注册,限制一人只能注册一次🤔

AAAAAAAAqua

草,vps上注册的github号被光速橄榄🤔与此同时哪怕在本机需要输五重禁忌验证码,号都能稳定存活若干分钟🤔

另外一方面和gmail一样,github也能设置为不需要登账号就能启动actions🤔还记得我说过114514遍的repository_dispatch大法吗?它当然可以和需要登录的workflow_dispatch放同一个workflow文件里,只不过下载sh文件那行需要写成两种下载方式之间用||隔开的方式,这样使用workflow_dispatch方式触发workflow的话它就用填进去的链接作为变量下载sh,而忽略||后面的语句;而使用repository_dispatch触发的话||前面的下载语句当然会下载失败,自动执行||后面的语句(也就是用curl里的参数作为变量下载sh🤔

照例,我们需要设置一个一个一个pat,顺便在设置里面将github辣眼睛的迫真暗黑模式换掉🤔接下来就可以准备好curl语句,用在我的metart系控制脚本里面,比如下次分配maindb的时候除了上传切好的maindb片段到某pikapod站外,还可以接着立即启动各种github actions(确信🤔目前我已经有七个号可以用,差不多每个号如果能跑6个runners的话就能搞出40线程🤔反正现在我肯定不愿意一个一个一个粘贴那40个sh文件手动启动力🤔

我看再过一周我能不能撸比如24个不会被瞬间橄榄的github号🤔以每个号能跑五个runners算,我可以在跑某些小站的时候牺牲四个号来换取一段时间(比如一天)的20线程,接下来可以拿剩下的几十个号放个metart带烟花(确信🤔

或者我可以去挖掘一些可以开十几个runners的老号,将它们也添加进repository_dispatch战略储备?🤔那玩意尽管只能开12个runners,但它跑12个runners好几小时后居然没有被橄榄,不像我后面创建的一个号几小时后还是被橄榄力,所以这个号至少顶2.4个我这几天新创建的小号(确信🤔不错,我现在有8个号,四舍五入等于47台4GB内存的vps(迫真🤔

eulaAAAAAAAA.24.04.10

就在我离完成metart系全站的完全收录只差两块嗯骨头和三个新发现的小站时,突然啊,我用了一年多没啥屁事的github小号被橄榄力,actions没法用(撅望🤔换了另外一个号接着拖,它居然只能开12个runners,再注册一个号也只能再开五个,剩下三个还在排队状态🤔

现在看来如果我不事先准备上七八个小号并在某个impact cuties专用系统里装一个一个一个开启了身份标签页功能的firefox的话,恐怕我也没法啃最后两个嗯骨头(悲🤔它们可能得开40线程才能在24小时内完成🤔

或者25小时——前面拖的几个站目前也一个一个一个相继过期,按照它给我发开通和过期邮件的时间可以算出试用会员的持续时间通常在25小时左右,有一个极其特殊的是31小时,但只出现过一次,所以我不能将其设定为我的拖站行动的时间基准🤔

奇怪的是它们过期之前居然没有尝试从我的信用卡里扣一次款,不错,至少我不用面临海量异常交易(确信🤔

既然如此,恐怕我得休息几天力,至少我得多注册几个github小号,甚至准备上十个甚至⑨个,才能啃接下来的嗯骨头(悲🤔而且很明显这对我接下来有兴趣搞的kg系github actions项目也算是一种打击(恼🤔

thonk

事后推测我那个号被橄榄的原因可能就是它的四联装workflow,也许github单方面认为我这么安排jobs就是为了规避它的六小时限制,所以在跑了六小时进入第二轮时不到半小时,它们连同整个号都被橄榄🤔这个原因的可能性应该比别的原因高很多,毕竟如果说我对github actions资源消耗得太多的话,我可是连续五六天在上面跑了三四百次workflow runs的,很多也跑到六小时结束,但它一直没橄榄我的号,直到我的四联装workflow跑了六小时半才开始橄榄🤔

不过这个还算好(迫真)的,以前我尝试在workflow里跑ssh或者某种ssh服务器,那基本上才是几分钟就被橄榄,而且不是actions不可用这样的,而是连号都给🐑咯🤔

sayuAYAYA.24.04.08

今天中午早柚酱小号按照惯例抽卡,才抽了不到三发,好家伙,一道金光过来,水龙🤔草,这个号应该还远远没到出金的时候,而且它不是每次出金几乎都要歪吗🤔现在它不仅提前出力,甚至还没歪可还行🤔

反正我惊呆到甚至忘了开屏幕录制🤔whatever,是时候将蓄力时只会哼哼哼啊啊啊啊的臭 龙塞进🍪impact力🤔当然c0水龙没有霸体也没有+1某申必buff,需要三种元素和水反应才能最大化伤害,所以waifurina也不适合塞进去,那么就只能找个盾🤔这个号也没有钟离,那么laylawaifu,启动!🤔

thonkart

metart系拖站那边,得益于我的逆天20线程github actions基础设施(大嘘),我今天一天就雷普了五个站🤔加上昨天下午到今天凌晨之间拖完的metart x,外加早就拖完了的sexart,metart系的12个站里面我已经完全雷普了七个(确信🤔

剩下五个里面有图片四五千但视频只有七百多个的某站,图片三千多视频1500的某站,图片两万多但视频只有(?)两千左右的metart,某个和sexart规模差不多的站,还有一个有着四千多个视频的站🤔这里面很明显有两个难度极高的,metart主站也许我需要动用的不是20线程而是40线程,而另外一个?我能不能在一天内搞完都不好说(恼🤔

github actions v2.24.04.07

由于某种申必原因,我看了眼github actions的资源限制,发现了些很有意思的东西🤔

比如它一个白嫖账号可以跑的并行runners数量居然不是5或者10,而是20🤔但更有意思的是除了每个job最多六小时这种陈词滥调外,我还发现了一个一个一个有意思的玩意:每个workflow的最高运行时间长达35天🤔

至此我才意识到一个workflow里面不见得只能跑一个job,尽管我的各种脚本里面习惯性地只安排了一个🤔换句话说我完全可以安排多个jobs,比如考虑到sexart系试用号只能试用24小时,我可以安排四个jobs,将其串成一串来跑相同的脚本四遍(需要设置好这些jobs的依赖关系,不然它们就会并行运行,那肯定不是我想要的),这样我是不是就可以免得每6小时盯着看它搞完了没有(确信🤔

那么在这种情况下,下一个job(是一台全新的虚拟机)如何继承上一个job的maindb进度?🤔答案其实相当简单,我只需要每次搞完一个链接后除了照例将当前进度打包进guilded drive外,我还可以直接修改放在pikapod上用来下载到actions机器的maindb,这样下个job拖这些maindb开始处理时,自然拖的就是已经处理过一部分的力(确信🤔而如何修改它们呢?只需要一个一个一个简单的php脚本,外加一句curl文件上传语句,就可以搞定,反正比我之前用的sftp方便多力(确信🤔

接下来我需要写一个测试用例,一个只包括四行的maindb,还有一个每次for只出一行结果的脚本🤔测试下来基本上符合预期,第一行处理完成后这个job结束运行,可以看到下一个job的确从第二行开始处理,而放在pikapod上的maindb也便乘了第一行有链接🤔那么接下来两个基本上不用测力🤔

或者我可以将脚本里的只限处理一行这句删掉,看第三个job处理完剩下两个链接后,第四个job会做什么🤔它做的无非是打出四行红字,都已经处理过一遍力,然后退出(确信🤔

thonk.24.04.06

这两天某两款萌妹游戏的卡池里面什么都没出,所以我接着撸sexart相关玩意🤔

上次写了一个合并maindb的玩意,做了一点改进后我按照惯例检查合并前和合并后的maindb变化,发现某些行在合并后的maindb里面便乘了空行🤔后面一检查发现只有for循环外的cat *.txt都改成了temp目录下,循环里没改,所以它只能便乘空行,而没有便乘空行的其实是根目录就有而且一直在添加新东西的maindb(恼🤔改掉后再跑一遍,这次diff检查说明以后这玩意可以用来整别的玩意力(确信🤔

接下来从某个maindb开始分配线程的玩意也能随便撸出来,等我搞定github actions那边的事情,我就开始停止目前的两个线程,合并一次maindb,并以此来开始搞(确信🤔当然现在切换到真·多线程模式其实切不切换没啥太大关系,但等我真的想挑战什么24小时速通它的一系列分站甚至主站metart时,,,就有用力(确信🤔等等,主站可是足足有20TB内容的,24小时速通真的行吗(🤔

AYAYA

又经过了11451.4秒的哼哼雷普后,我终于将sexart脚本做了github actions适配🤔在多方面对比各种代码后,我发现了两点:

  • 拖视频post的代码和拖图片post的代码确实没法合并,因为它们需要抓取的网页元素不一样(悲🤔所以我最多只能按照post类型来分流,并将guilded drive上传语句从处理视频或图片的函数中挪到它外面,省得我每一个函数里面都写一句上传guilded drive🤔

  • 但github actions版本和本地版本确实可以合并,因为它们的区别居然只有具体的guilded drive脚本位置,还有github actions专属的处理后上传当前进度的功能🤔只需要找个办法判定当前是否在github actions里,设定一个一个一个flag或者不设定,然后在相关语句前加if即可(确信🤔

现在github actions既可以处理视频也可以处理图片,而且将它们塞进同一个maindb里也可以🤔讲真我寻思将它们塞进同一个成品maindb里,估计用cloudflare worker索引它们中的任意一个也是可以的,をたま就不信它们能恰巧共享同一个url,这个结论甚至可以扩大到metart系所有站,甚至将那三个kg系塞进去搞不好也可以(迫真🤔

为了方便将其投入多线程生产环境里,我还将某些初始化步骤做了抽离,便乘了五个初始化脚本,分别对应着github actions单账号能设置的五个线程,而它们会下载并调用同一个sexart处理脚本🤔不清楚前年我怎么想的居然在维护⑨个甚至⑧个除了某几行参数不一样别的玩意一毛一样的脚本(恼🤔

但更加牛批的是我停止那两台vps的处理,换这个脚本上,它也能和之前一样跑,基本上除了不会每上传一个视频再上传一个日志外和github actions版一毛一样(确信🤔

现在我在所有地方实现了统一脚本,以后只需要改一处就能改所有地方(确信🤔接下来趁着那两台vps继续跑视频时,sexart图片五线程github actions雷普,启动!🤔

another 11451.4 secs later,,,

极其生草的是,只有第一个线程两小时半跑完全程,别的线程三个小时才完成了三分之二🤔按理来说我分这些玩意的时候是均匀分配的,再说了它们都是只占300MB左右的图片,不是什么随着日期越来越新而逐渐增大的视频,结果有一个线程要么明显比别的线程东西少要么明显更快,wiebitte?🤔

whatever,收集起来它们所有的maindb,合并,再次分配,重新五线程跑🤔等这坨玩意跑完后,我就拿github actions处理剩下的亿点点视频,接下来才是真正的github actions时刻(确信🤔

然后再往脚本里面塞点东西🤔也许我有必要用time来统计一下某些操作的用时,但time这玩意只能加在某个函数里面某些命令的前面,它的结果才能被这个函数调用时后面加的重定向stderr写入日志文件(恼🤔所以我最后干脆若干个函数套娃,这样无论哪一步骤还是总体的拖视频或者图片时间都能记录到日志里,总用时也能显示到屏幕上或者github actions的日志里(确信🤔

除此之外我还需要从2022版断点续传玩意里移植点东西过来,比如不清楚为啥2023版居然没有统计进度的功能🤔这部分还是比较好搞的,但现在我已经开始跑力,下次再说🤔

thonk

又过去了将近40分钟,剩下的这点图片也全搞定力,合并后第一个全部拥有guilded drive链接的maindb便搞了出来🤔接下来当然是停掉某台arm vps的进度,将其当前的maindb还有大盘鸡上的maindb进行合并,撸出十个甚至⑨个线程的maindb,塞进github actions里🤔当然,我现在基本上可以将那台arm vps删掉力,这两天我用它只是没完成github actions脚本暂时顶着而已,但如果它完成力,那么接下来的sexart乃至metart系雷普,就基本上没我自己的vps啥事力(确信🤔

现在那台vps可以用来处理别的玩意,比如我又上传了一批游戏录屏,需要它处理下🤔

另外不清楚kg系能不能走github actions,但我寻思至少按照我写的那些脚本,恐怕它得,,,将html也塞进maindb或者,,,?🤔或者它干脆就直接访问那些网页得了,我撸sexart都能让它们随便拿sexart的cookies解析下载链接(而非我以前搞的cgi-bin中转),kg系站甚至都没有cookies,我怕啥🤔

话说rosefile站还有啥?我就不信wp搭建的rosefile站就那么三四个(其中一个我到今天都没实现分析),肯定有别的(恼🤔

AYAYA

到了今天晚上11点多,sexart剩下的一百多个视频也被十个甚至⑨个github actions线程雷普完成,至此经过三天啊三天的雷普后sexart全站告捷,统计下来视频13.9TB,图片709.9GB,还行🤔

现在我可以一个github号上十个甚至⑨个github actions机子,而我目前至少有两个号可以随便用,它至少今年貌似又管得松力,换句话说如果哪天我真的撅定要雷普它的主站力,我就开始20线程雷普,就算它真的有三万个图片posts,又如何?(吴慈悲🤔

但在此之前,我需要解决它那些东西少的小站🤔现在有两个我比较感兴趣的问题:

  • 在我获得它们的一天试用access前,我能不能先获取它们的视频列表来构造一个一个一个maindb?

  • 我在sexart上的cookies能不能在别的站用?

bruhfei.24.04.05

在11451.4秒后,我终于在第三台机子上面勉强跑起来了sexart脚本的2023版(悲🤔其实从某种程度上来说2023版某些地方甚至比2022版要简单很多,比如不用专门整一个一个一个文件放置已经处理完成的部分,无论本机运行还是github actions运行都能随便继承进度(确信🤔

问题是和kg114514相比,sexart由于我就是要拿它的完整url做主键,最后的替换环节变得完全没法替换,毕竟url里面充满各种东西(恼🤔甚至我以前的经验都没法用,以前我只是转义一个一个一个斜杠就能塞进sed里替换,但现在这招用了之后只能保证不报错,替换可是一点都没有替换(悲🤔

所以我去某知名英文问答网站抄了次作业,貌似sed完全不支持grep那样的固定字符串匹配和替换,所以需要将源字符串和目标字符串先用某段申必sed魔法处理一遍,再给它塞进去🤔折腾了一顿后我终于能在sexart全量列表里完成了替换过程,替换后没有一行是状态为0的(确信🤔

而且其实现在这套玩意塞github actions里也是可以跑的,毕竟我到时候只需要将maindb进行合并就vans力,方法也很简单,对主机上面的maindb逐行提取主键,然后拿着这个主键在各个备用机(包括某台arm vps和github actions)返回的maindb里面搜对应词条,如果有状态为1的合并入主词条,如果没有的话就什么都不做🤔至少在我搞清楚cloudflare那个逆天sql怎么用之前,这办法应该可以用(确信🤔

接下来我需要解决另外一个问题:如何将那两台正在跑sexart的机器上面的2022版数据迁移到2023版?🤔这个可能不太好解决,我需要哼哼thonk一番🤔

another 11451.4 secs later,,,

在我观摩了114514遍代码后,我发现2023版断点续传脚本获取上传完成后的guilded drive链接信息居然是靠直接读取results.txt的最后一行🤔好家伙,那么我重建2023版的maindb基本上只需要遍历一遍results.txt就vans力,不需要关心2022版的两个列表文件分别有哪些内容🤔好,将它们合并且去重后,直接用id查找results.txt里面有没有项,有的话输出状态为1的行(方法直接照抄2023版断点续传脚本的相关语句),没有的话输出状态为0的行🤔

就这样那两台机子结束当前跑的脚本后不到一分钟就切换到了新脚本上继续跑,而既然我已经有了两个maindb文件,以后有可能会有多个,是时候研究下如何合并它们🤔最后我想到一个一个一个主意,用列举视频的脚本再重新生成一个maindb文件,此时这里全都是状态为0的视频🤔当前文件夹下其他的maindb文件里面可能有状态码为1的视频可能没有,但如果我分配任务分配得比较合理的话,理论上来说对于某一个视频来说,所有txt文件加起来应该最多只有一个状态为1的项(确信🤔

那么我就可以拿这个全新的maindb开始遍历,对里面的每一行里面的视频url,拿去在所有txt文件的cat结果里面grep一次,并筛选出状态码为1的行,如果筛选出来并且结果只有一条,替换maindb里对应的行🤔其实这玩意的思路和上面拿2022版数据构建maindb基本上一毛一样(确信🤔

或者我也可以用各种方法将这个maindb文件排除出cat *.txt(比如将那些里面有guilded drive链接的txt文件塞某个临时文件夹里,cat它),或者在遍历它的时候只遍历状态码为0的行,这样说不定它还可以用来合并非空的maindb,比如我那几个站的(确信🤔同理,它也可以用来提取出maindb里尚未处理的视频,以某种方式分配成若干个小的maindb,然后开始多线程处理,处理完后再合并(确信🤔总之,离未来可能搞的多线程雷普又进了一步(确信🤔

cloudflare antics

既然maindb准备好力,那么和那几个kg系的站一样,它也可以上cloudflare(确信🤔而且由于我将整个网址后面的链接作为主键,它甚至比kg系站还要简单,基本上只需要将sexart.com这个域名替换成我的域名,就可以直接塞进guilded drive下载函数里用(确信🤔

除此之外我还对这一系列cloudflare worker做了亿点点小优化,比如它获取链接失败时不会再报一系列让guilded drive下载脚本非常尴尬的池沼错误信息,而是会返回某著名大脑升级曲的guilded drive链接🤔这应该是我今天做的最生草的事情,当然如果我能想办法下下来这玩意的野兽先辈版本,还能更生草(确信🤔

thonkart.24.04.04

这几天我终于做完了上次残存的部分8GB包处理,暂存8GB包的某块10TB垃圾盘现在什么都没存,正好可以往里面塞某些之前到处乱放的raw照片备份(确信🤔我以为它们会塞满某块pe4010,但实际上貌似只占了500GB🤔这些东西原本会出现在某块3TB垃圾盘上,但那玩意不是检出若干个坏道吗,所以我没放那儿,然后拖到了这几天🤔

挪这部分东西可能花了三四小时?做checksum需要的时间稍微短一半🤔接下来我安排某块大盘鸡进行前几天上传的东西转双盘🤔

那么复制和等checksum的时间我在做什么?考虑到上个月买的sexart我居然还没拖,赶紧拖一拖,目测应该还有一天才过期🤔而且我居然保存了2022年撸这玩意时用的woiden小鸡鸡的全盘备份,而且从里面找到了sexart.sh,改一改cookies居然完全可以继续用,列出所有视频的功能也能用🤔

但就当我准备打开hetzner开一台机子大干114514场时,突然一个一个一个邮件,发了过来,sexart订阅过期力🤔草,搁这一个月按30天算啊(半恼🤔这就如同用guilded tube观看某些视频观看到高潮时突然无限加载,泪,射了出来(大嘘🤔

⑧行,我得再续一个一个一个月的,打开某球付一看,草,什么时候我的卡被销力?🤔迫真分析了一波,发现它现在撅定不再容忍多次的交易失败,所以像我以前玩的那种输卡号114514次白嫖各种东西的玩法,就会导致它出现异常交易114514次,接下来它就会扣申必手续费,而账上余额不够的话它会直接连卡带号一块🐑咯(全恼🤔

114514 secs later,,,

又撸了一个卡,它现在整的玩意是一张新卡28块钱,但一次性充300可以免一次🤔它还有张65的实体v/m卡,这玩意如果有使用价值的话其实不算贵,但v/m卡在国内基本上没有任何我能想象得到的使用场景,某球付的手续费又以其高到离谱而著名(我估计各种乱七八糟的加起来可能相比google查到的汇率有望超过10%),使其哪怕拿去香港啥的刷也不划算,一眼顶针,鉴定为只配买pornsites(吴慈悲🤔

外加重新充sexart的5美元,我又多花了将近65(全恼🤔继续,那个脚本是cgi-bin格式的,但sexart对多端登录基本上处于一种完全不管的状态,我写成cgi-bin纯粹吃饱了撑的,现在我需要做的是将它和另外一个我从不清楚什么鬼地方找出来的sexart下载脚本进行缝合,具体来说将其原来打在stdout上的东西重定向到文件(也就三个,一个metadata一个comments还有一个充满了解析后的下载链接的list文件),并用aria2雷普那个list文件,之后比以前优越的地方来力,我直接用支持文件夹上传功能的guilded drive上传整个文件夹,vans🤔

和两年前用discord drive实现的版本相比,我现在可以省去rar打包的步骤(和在arm鸡鸡里跑rar的额外折腾,如果这玩意可以折腾的话),而且考虑到hetzner的arm鸡鸡可以干到4GB内存,我这次直接开一个一个一个arm来搞这玩意🤔

这玩意有一个ipv6 only的选项,但选了它之后我连怎么连接进去都不清楚,它给的是一个/64的ip段,如果我没记错的话linux不像win,可能需要在ifconfig里显式地填后64位才能联网,那么问题来力,在此之前我没法用ssh连进去用它,我总不能真的用vnc console干这事⑧🤔所以删了重新开一个带ipv4的,其实就多了半欧元,我又不准备真拖一个月🤔

接下来开始列举所有视频并跑脚本,下载速度还行,能干到1.5Gbps,而且考虑到它有4GB内存,我的guilded drive脚本里也可以将线程数开到8(确信🤔但接下来上传的时候,它8线程都只有800Mbps出头?如果线程数降到4了可能还保不住400Mbps?wiebitte?🤔

刚好我的大盘鸡跑完了转双盘,而且一时半会我找不到别的事给它做(更新下kg114514算不算?那也不是今天需要做的),所以它也去跑sexart🤔这边更奇怪力,下载视频只有600Mbps出头,但上传guilded drive保持了一贯的能干到至少1.5Gbps的传统,这两台机子居然是反着来的,实在是过于生草🤔

thonk

至此这套玩意还是存在114514处不足,比如它目前倒是可以断点续传,但方法是适合github actions的2022式,我目前(至少在kg114514等项目上)用的断点续传法是基于本地数据库(迫真)的2023式,我可能得在某个时候将脚本改成现在这套🤔

而且目前我用的这套一直有一个一个一个缺陷,它也许可以通过cgi-bin来将任务发布到比如github actions的机子上,但任务完成后返回的guilded drive链接等玩意?我暂且没啥好办法接收(悲🤔反正我想不出来除了跑一个一个一个真·sql数据库+rest api外还有什么好办法🤔或者,要么我去试试所谓的云数据库?比如我们熟悉的cloudflare就有云数据库,它至少应该可以和cloudflare worker集成得很好,而我在kg114514项目的最后一步(给个id就返回guilded drive链接列表)就是worker实现的(确信🤔

另外话说回来这套玩意真たま的慢,一个4k片源存在的片子基本上要干十分钟甚至⑨分钟以上(全恼🤔然后考虑到这破玩意到现在足足有1943个片子,所以我要是现在仍然只有两个线程的话,恐怕这玩意真得干一个月(撅望🤔考虑到接下来waifu游戏迟迟不出新活动,我是不是该想办法复活github actions?🤔