AYAYA.24.05.05

终~于,metart所有图片在开始拖15小时之后拖完力,而尽管我由于下午睡过头导致比预计晚了两小时才开始拖视频,metart的视频部分也在24小时零两小时左右拖完力🤔它居然给我多给了那么多小时,甚至到现在还在有效期内,可还行🤔

为了应对它提前(大嘘)过期,我还整了一个一个一个临时脚本将24小时过后它还剩下的接近两百个视频先cache了一遍视频链接,然后等它真的过期了之后用这些cache接着搞,指望它解析出来的这些链接失效时间设得足够长,长到在我下载完它们之前不要过期🤔理论上来说我只需要将cache上传到搞cgi-bin的机子,它处理的时候第一段metadata和第二段comments其实过不过期甚至登不登录都能获取,重点在第三段视频链接部分,改成如果api获取不了就直接读取本地cache就vans力(确信🤔还好我用不上这玩意,估计以后也用不上(确信🤔

whatever,我居然能够完全征服metart系里最难拖的站metart,就像我能征服它里面视频最多的alsscan一样(确信🤔至此我除了几个还是十几个当时完全没有意识到没拖完的视频和图集外,基本上完成了metart系全站收集,最终拖下来了79827832884976字节的玩意,换算成TB的话是72.6TB,换算成PB的话是0.07PB(确信🤔

接下来总算可以和metart系拖站还有github actions这种司马玩意暂时再也不见力🤔以后再和这玩意打交道,估计得等我下次闲得实在是蛋疼再买一个月xxxart会员🤔

还是我去研究下用cgi-bin来搞rosefile站?🤔但除非我下次拖一整个全新的rosefile站,不然这玩意还真用不上什么github actions🤔我现在倒是对另外一件事情比较感兴趣,如何用github actions将我已经存在guilded drive里的东西进行格式变换,比如kg系进行解压(和转guilded tube,如果它能转的话),metart系转guilded tube,而且如果有可能的话,它最好能实现几乎无人值守?🤔

thonkrail

与此同时,我还顺便(大嘘)打完了hsr的新版本活动,指从头打到尾(确信🤔现在可能还有一个一个一个500活动没打,但我寻思它难道不是挂机一小时甚至半小时就能完成的事?🤔还有一个号也许需要打打?但我不保证能打到哪儿,因为接下来是一个一个一个购物日啊啊啊啊啊(撅望🤔

我现在已经开始寻思等这坨屁事搞完后,要去哪里玩力🤔接下来有很多事需要考虑,比如:

  • 回不回趟家?回的话什么时候回,月中还是月末还是下个月,回去住几天?

  • 家里的x99的确需要买一套,而且我的确有已经确定的型号,但我是将新的板u内存套装直接邮回家,还是将这套玩意邮到我这里,然后将现在用的这套硬件邮回家或者人肉带回?还是我干脆买两套这玩意,一套邮回家另外一套替换现在用的硬件?或者买1.5套?我寻思现在用的主板和内存用得挺好的,不用换,就换个u

  • 家里还需要一套新机箱和新电源,这部分又该如何选型,而且机箱的话我还得考虑配送问题,是邮回家还是我在本地自提,然后想办法坐火车的时候人肉带回?我有可能将一个机箱装到什么玩意上推回家吗?这个选项存在吗?

  • 我在家的时候,现在有的两套硬件又该做什么,也许其中一个可以装1070ti,但另外一个呢?我是给它装个p106-100,还是压根就不用它?(这次我也许可以确保它们能被远程操控,因为我现在所有硬件都是直连光猫的

还有诸如此类的114514个问题(恼🤔

rosebitte

无论如何,最后我还是写了一个一个一个rosefile链接解析cgi-bin脚本,只要输进rosefile链接就会吐出解析出来的cloudflare r2链接(确信🤔而且我还迫真优化了下登录流程,它不会每次处理链接时都重新登录一遍,只有提取不出文件链接时才重新登录并再次提取链接,不然它就直接吐出链接🤔现在我估计哪怕33线程雷普它,它都能解析出每一个一个一个链接(确信🤔

现在连最逆天的rosefile也被我驯服力,github actions,启动!🤔有一说一我拖kg系站比metart系站温柔多了,每个站居然只有4线程,加起来也只有12线程(确信🤔

barbruh

草,过了半小时某些线程还是没吐出任何东西,而且之前吐出过东西的四个线程也没有吐出新东西🤔我有一种不翔的预感,github actions的🐔🐔是不是被guilded屏蔽力(撅望🤔

那我还玩个寄吧的github actions啊,又一次只能切本地🤔它在本地也不消停,cloudflare链接是能解析出来,但试图用这个链接下载文件时会报错404🤔那么它是怎么在bucket里面没有文件的情况下给我返回一个一个一个链接的,我暂且蒙古(恼🤔

wiebitte.24.05.04

这几天忙着impact cuties(指hsr打完了2.1剧情开始打活动),居然忘了sexart还有几个小时就要过期力(悲🤔

上次我整这玩意时大概卡在php版链接解析搞不动上🤔但本来php解析链接啥的就是图一乐,最后还是得按照惯例启动cgi-bin(确信🤔

1145.14秒后,新的metart系拖站脚本缝出来力,两年前写的cgi-bin脚本基本上只需要换个cookies就可以重新用,除此之外我让它试图接收带有域名的完整链接而非没有域名的path,基本上只要从完整链接里提取出三个要素:域名、标题和日期,就足以在任何metart系站的api里提取出所有东西,从metadata到视频链接(确信🤔

由于视频解析的脏活让另外一台机子做力,github actions上跑的拖站脚本变得更简单,它甚至都不需要区分是视频还是图集,那个是cgi-bin脚本需要做的事(确信🤔和两年前一样,它的metadata只占一行,comments也只占一行,剩下的行都是视频或者图集链接,稍微缝下两年前的github actions脚本就vans力(确信🤔当然,今天这个脚本已经是本地actions两用版,尽管⑨⑨%的可能会被部署到actions上(确信🤔

脚本写好后就赶紧用来补全了sexart新出的玩意,图集只出了10个,视频只出了⑨个,没啥意思🤔然后赶紧去雷普metart,毕竟如果我的sexart过期了的话,我将再也没法开启别的站试用(悲🤔好家伙,光列举两万多个图集就花了20分钟🤔

到正式拖的时候,另外一件意外发生力,我的那些github小号除了某个老号外居然全部阵亡,所以规划好的38线程现在只有18线程能跑(全恼🤔

这事也许不需要我提前干预,反正我忘了那个号的邮箱是什么🤔我只需要在接下来的挂机脚本里将merge函数里的线程数改成18,并在下次分配时只分配18线程,或者将剩下的三个新号投入进去凑33线程,并在下次merge时设成对应的线程数即可(确信🤔

如果我中途找到了那个号的邮箱并登上去,我也可以终止那些玩意再跑一遍🤔我寻思metart要是想24小时跑完恐怕是极其有难度的,跑不完也没关系,大不了我再开一个月,不过这次开的是metart,别的站等到快结束时再开试用(确信🤔

thonk

我最后还是找到了密码重新启动了一遍🤔这次剩下的三个github小号能够正常开启5线程,哪怕它们再过几天也会被橄榄,也没关系,至少现在它们加起来可以33线程跑(确信🤔不错,我们来看这破玩意一天够不够🤔

与此同时我发现哪怕上了cgi-bin,它也能给我整出四个没拖下来的posts(半恼🤔迫真诊断下,日志显示aria2c没有下载任何东西,但更诡异的是下载原post后发现里面什么都没有,连metadata都没有,以前这种没拖完的post高低得有一个一个一个metadata🤔再看眼日志,发现和原来不同的是,它对cgi-bin服务器的curl请求居然能够超时60s🤔可见那台小🐔🐔被18线程雷普成了什么寄吧样(🤔

但无论如何拖了一万多个图集居然只有四个需要重新拖,还行🤔我只需要在那句curl里面加上超时重试的参数,接下来应该就不会出错力(确信🤔

thonkeqing

刷某fisch发现移动云居然有13一个月的神车,它和上次我说过的某申必终端机送的云服务基本上算是同款,但它有丧心病狂的1980GB存储🤔而且它居然不需要我买一台没什么卵用的终端,还能月付🤔

唯一的缺点是带宽只有50Mbps,肯定不适合做这个drive那个drive,但挂pt应该没啥问题(迫真🤔如果它还有公网ipv4的话,也许可以做做某些内网穿透方案的中转服务器?这个带宽假如上下行对等的话,甚至都可以中转parsec串流力(🤔

我反正已经买了一台,还多花了两块钱选择了一个一个一个理论上来说离我近的地点🤔也许等我往上面装个parsec后能干到个位数毫秒延迟,但可能并没有什么卵用,因为它十成甚至⑨成只能用cpu编码🤔除非它还虚拟化出一个显卡?但我撅得可能性不大🤔

bruhfei

到差不多十点甚至⑨点之后它终于开出了一台,并没有什么web端,而且貌似账号系统和通常来说的移动云(也就是类似于阿里云或者aws那样的玩意)也不一样,需要用它的专属客户端登录🤔

装了一个一个一个那玩意后才发现它居然不是那种24小时挂机的vps,而是使用逻辑更像一台电脑的vps,它只有连接之后才能开机,只要断开连接一段时间就会关机(恼🤔当然我也可以选择最小化它,这样也许可以实现迫真挂机的效果,因为我这边确实有台24小时开着的机子,但还是感觉有点扯寄吧蛋🤔

我听说有人买了几千台这玩意,然后用一个一个一个定制脚本来每分钟登录和连接一次某个号的机子,用这种方式来让它们全部24小时开机🤔但也许也可以通过让两台这样的机子互相连接对方然后挂后台来保持开机,当然我没兴趣买两台这玩意,所以懒得测🤔

除此之外它的客户端居然支持完整的usb重定向和存储重定向,可以将本地的任意磁盘映射到vps里,甚至还能重定向打印机,尽管我很怀疑它的网速能达到什么程度🤔android客户端我估计也能实现usb重定向,不然那些极其生草的android终端完全没法用🤔这可是parsec以及各种迫真网吧的客户端都没有的黑色高级功能(大嘘🤔

但它那个垃圾客户端串流4k的效果只能说极其坑爹,所以我还是给它整了一个一个一个parsec然后开始挂机🤔网络的确只有4ms,但由于没有独显,编码延迟干到了51ms🤔其实编码延迟不是什么太大问题,毕竟它理论上来说只限制帧率,所以只有我哪天闲得蛋疼拿它串流视频,才能看出来(确信🤔

网络方面,反正没有公网ipv4,而且也没有公网ipv6🤔拿它搭建什么服务基本上是别想力,甚至我怀疑挂pt都挂不利索🤔我也懒得测祖传guilded drive环节力,毕竟再魔改一遍跑在cygwin最小系统上的guilded drive脚本实在是蛋疼(恼🤔

我还闲得蛋疼掏出as测了下磁盘io,它是怎么整的能做到数据盘读733写49,系统盘读4497写897,读写速度居然差了十倍甚至⑨倍,我暂且蒙古🤔

wiebitte

某fisch上还有其他一些可以连接XX云(其实就两种,一个是电信版一个是移动版,但它们都是以android app的形式连接云服务的,所以只要能随便安装app我寻思区别不大,更别说还有parsec云)的抽象硬件,比如100块钱的云终端,它有可能真的只是个机顶盒🤔但我看到的最抽象的玩意是一个一个一个21寸的1080p显示器+机顶盒一体机终端,机顶盒部分配置是1+8,有种20年前瘦客户端的美(确信🤔

但这玩意最抽象的是价格,它居然只要205,如果不介意摄像头弹出按不下去的话甚至还可以便宜到180🤔我寻思买个1080p的显示器都得至少150⑧,这还送一个一个一个可以连接云服务的终端(🤔只可惜它居然是1080p而不是4k,不然我高低得买一个玩玩🤔那么下一个一个一个问题,我放哪儿呢?我没有新的显示器支架用🤔

wiebitte.24.04.15

草,半夜突然醒来🤔也许我被弄醒的原因有114514种,但只要我醒来,那么再次入睡可能就没那么容易力(恼🤔

当然我通常来说也懒得关心什么时候睡什么时候起,只要一天的总睡眠时间达标,该睡睡该干嘛干嘛(迫真🤔所以我起来看一眼waifu impact进度,然后再看一眼alsscan的进度🤔

waifu impact在我睡前甚至在前一天我就撸差不多力,该领的东西都领了一遍,大号甚至从撸喵酱活动完全没开始玩快进到撸完了所有喵酱并将某只橘猪(大嘘)领回了家(确信🤔总共用时两小时,其中可能有十几分钟耗在录制最后一段长达20分钟的配音剧情上🤔我那些小号应该用不了这么多时间,但一小时应该是需要的(确信🤔

比较意外的是我玩的某个hsr小号居然完全忘打了su,我寻思以前我经常一边impact cuties一边挂su,但上周某个时间我这么做时,它断电断得我有点ptsd,所以su一直没打🤔事后分析这种断电和上次看waifufly被雷普时断电原因差不多,su每次打完怪都会切换到一个纯2d的祝福选择界面,此时hsr完全不消耗gpu,无限接近于只开启waifu impact,那么后者打个怪物啥的就是会有几率触发断电🤔

但无论如何,到我醒来的那个时间点,这个号要打三回啊三回才能完成周su任务,我只打完了一回半(全恼🤔只能接着打下去力🤔还好我打得足够快,不到20分钟就搞定力,接下来我甚至还有时间给早柚酱小号coop刷女士周本🤔最后领了一个五星圣遗物一个武器原胚还有一个变换周本材料的玩意,好家伙,ar35小号压根就没有周本材料可以变换(恼🤔

thonk

而alsscan那边,感觉干得还行,现在已经是第二轮的第4小时,加起来已经过去了十小时甚至⑨小时🤔由于合并过程可以在任意时刻进行,出于某种申必原因我设置了一个每过10分钟甚至⑨分钟就进行一次合并的screen,目前alsscan的视频只剩817个没拖🤔

还行,我以为这玩意要干18小时甚至20小时,但目前看来也许14小时就能结束?🤔这下我对之后的metart主站雷普顿时充满了信心,它无非就两三万个图集,有啥难的(迫真🤔只要视频别拖到六小时以上,我就有至少1⑨小时甚至18小时来干图集(确信🤔但这也不好说,之前alsscan的四千个图集就拖了接近三小时半,可能主站的图集没那么大,这个就鬼知道力(悲🤔

但如果它真的过期之后也没拖完,我有没有可能再来一遍?🤔上个月过期的另外一个号也许可以拿出来用,它点击试用metart时应该不会报错,但信用卡是否能过就不好说力🤔

bruhfei

最终发现中途成功续了一次,又续失败一次,失败的一次是因为算错了时间(恼🤔最终导致所有号都有十几个到三十几个runners搁那儿排队🤔

但更蛋疼的是我能够观测到一大堆只有五位数字节的posts,说明它们里面一个视频或者图包都没有🤔而且它们的数量还能多到我能够观测到的程度🤔我写了一个脚本排查并在maindb里将它们恢复到状态码0,但我设置错了门槛大小,导致相当一部分被我漏掉力🤔当然就算我没有漏掉,alsscan也结束力,这还是在它给我多给了若干小时的情况下🤔

事后统计一下,基本上很多之前拖过的metart系站都或多或少出现过少东西的情况🤔随便打开一个看日志和拖下来的东西,aria2c提示list里面没有文件下,而list来自的metadata json只有一句话,找不到视频?wiebitte?🤔

我吴端猜测github actions的某些ip段被metart系站屏蔽力🤔既然如此,看来直接在runners里解析链接的省事方法搞不下去力,我得恢复2022年搞的那套cgi-bin玩意(恼🤔那么问题来力,我用哪台机子做cgi-bin机子捏🤔

或者格局打开,用php来解析,这样我就可以用pikapod力🤔

rosebitte.24.04.14

昨天睡(迫真)前突然想拖一顿rosefile站,花了大概一个小时对着之前用了114514年的kg系脚本和现在跑在github actions上的metart系脚本缝了1145.14秒,缝出了一个github actions用的脚本,一个站四个线程,12线程,启动!🤔但跑了一顿后出现了一大堆只有6xxxx字节的post,而且我下了其中某一个看上去不是6xxxx字节的post,它里面应该有两个rar但我最终下的东西里面只有一个(恼🤔

这说明多线程跑rosefile链接解析时,它的登录特性(一台机子登录后别的机子之前登录过生成的cookies光速失效)能够导致部分线程没法正常解析出链接🤔那么如果我设置成无限循环重试呢?它又会出现所有线程搞半天都处理不了任何一个文件的情形,此时它们估计忙着互相使对方的rosefile登录状态失效,最终没有一个号能解析出链接(撅望🤔

既然如此,在这些机子上完成rosefile链接解析基本上不可能力,如果是以前的话我肯定能光速撸一个cgi-bin脚本,rosefile只要能解析出cloudflare r2或者sharepoint的链接,接下来这些链接既不锁ip又不验证headers,随便哪个github线程都能随便下(确信🤔但我现在缺少撸这套玩意的基础设施,所以我还是在我的vps上跑单线程rosefile得了,那些github actions号如果实在是闲得没事干,不妨接着跑sexart去🤔

bruhfei

又跑了一两个sexart小站,某个github旧号有时候能跑20线程有时就只能跑1⑨个线程,此时我就需要对付它处于排队等待状态的那个线程(恼🤔比如我可以将它分配到的maindb.txt直接便乘一个空的,这样它哪怕到时候上线也只会光速结束(确信🤔然后我接着分配一次🤔

11451.4 secs later,,,

现在metart系只剩下一个alsscan和metart主站没拖🤔先拖alsscan,它有接近4000个图集和4000个视频🤔

这次我上了若干个号,某老号18线程,别的号5线程,总计33个🤔出于某种申必原因,这些号拖这4000个图集居然花了两小时半还没拖完,肉眼可见地要肝到三小时半甚至四小时(全恼🤔有没有可能因为这个alsscan,它有很大一部分图集体积是以GB计的?🤔

所以到该拖视频的时候,我是只开20线程呢,还是开个什么38线程?🤔但无论怎么开,我现在只需要短短的几句话,按下回车后它就会自动分割maindb自动分配任务,非常方便(确信🤔接下来我就要么坐等它完成,要么等六小时多十分钟甚至⑨分钟后自动合并,然后自动重新分配(确信🤔

barbruh

终于,alsscan的视频部分开拖力🤔上次我写了一个连续拖视频workflow直接导致我的某个老号被橄榄,所以这次我需要用github actions自身机制之外的玩意实现workflow无限续🤔而这其实相当好办,既然之前已经用repository_dispatch实现了几乎全自动分配任务,更早之前又实现了自动合并,那么我完全可以将这两者缝起来,也就是分配任务后定一个一个一个6小时零10分钟甚至⑨分钟的时,时间一到自动合并然后紧接着分配任务,以此重复三回啊三回(确信🤔至于定时,可以用简单的sleep来实现,也可以随便找个倒计时脚本,实现可视化的倒计时(确信🤔

现在理论上来说我再也不用人工干预这破玩意力,如果我不想人工干预的话🤔我要是中途想人工干预的话我就中断这个自动脚本的运行,停掉所有的workflows,然后重新开始这段脚本(确信🤔

只不过我现在这坨玩意跑在五个还是六个不同的github号上,而我懒得一个一个一个登录它们停掉workflows🤔我寻思下次我可以考虑写一个kill switch,换句话说它以后每次搞完并上传完后还会从某位置下载一个文件,根据文件内容来撅定继续还是中止整个脚本🤔但这次我懒得折腾力,github要是因为我跑满六小时就橄榄我的号就橄榄好了,懒得关心(吴慈悲🤔毕竟哪怕我接下来一整个月都没法用github actions,我现在雷普github actions生成的数据已经突破了0.05PB,就这样🤔

bruhfei.24.04.12

今天撸了十个甚至⑨个gmail账号🤔现在gmail还是挺便宜的,很多地方都能便宜到一块二一个🤔而且在各种乱七八糟的邮箱服务里面,gmail算是事最少的,登上去之后撅大多数情况下可以随便改密码和恢复邮箱,后者甚至不用输入发往原邮箱的验证码(当然也有可能是因为原恢复邮箱完全就没有通过验证,所以只能作为异地登录时的2fa项用),它估计默认只要能进到security页面的用户就十成甚至⑨成是合法用户⑧🤔而在别的地方或者机子上再次登录时居然只需要输一遍恢复邮箱的全名就可以过2fa(迫真),不用等什么恢复邮箱收到验证码🤔

但以后用它们的时候也许根本不需要登什么gmail,只需要设置好邮件转发,接下来就可以拿它注册github或者别的东西玩力(确信🤔

至于github账号注册方面,就很不幸力,注册了四个只存活了三个,到第三个时验证已经开始便乘了最难的那种,需要连续对五次(恼🤔第四个号分分钟被橄榄,一眼盯帧,鉴定为忘了上梯子(全恼🤔所以我换了台机子又注册了一个🤔而在github actions使用方面,前两个跑demo runner(只输出几行字符串)可以秒开,第三个会无限排队,过几个小时后才能秒开🤔第四个也在无限排队🤔

whatever,反正我现在不用它们,以后再说🤔先这样每天注册几个备用,我看啥时候攒到20个github账号再开干🤔

waifu impact上次那个射史莱姆活动被我一天rush完力,现在的新活动是一个一个一个撸猫活动,真的可以撸喵酱玩🤔这算什么,我下楼还可以撸喵酱irl(半恼🤔

thonk

下午又光速撸了十个甚至⑨个,现在我已经有了20个配置完成的gmail账号🤔github那边事情可能更多些,主要是我也没有什么办法买到已经折腾好的,github actions antics也不像az或者aws那样有114514人雷普,所以我只能一个一个一个手工注册🤔那么问题来力,我这边很难说是干净的注册环境,所以很多东西恐怕就很难办,比如我现在注册的几个搞不好它的actions处于某种受限状态,开不出20个runners,只能开十几个或者五个,或者注册了几天甚至一晚上就会被橄榄(恼🤔

那么什么算是比本地挂梯子干净的注册环境呢?用hetzner或者vultr的vps跑一个桌面环境,然后装个firefox,在它上面注册,这个应该算是比较干净的,除了ip可能是数据中心ip外🤔或者在某些众包平台(还得是国外的平台)人肉注册,限制一人只能注册一次🤔

AAAAAAAAqua

草,vps上注册的github号被光速橄榄🤔与此同时哪怕在本机需要输五重禁忌验证码,号都能稳定存活若干分钟🤔

另外一方面和gmail一样,github也能设置为不需要登账号就能启动actions🤔还记得我说过114514遍的repository_dispatch大法吗?它当然可以和需要登录的workflow_dispatch放同一个workflow文件里,只不过下载sh文件那行需要写成两种下载方式之间用||隔开的方式,这样使用workflow_dispatch方式触发workflow的话它就用填进去的链接作为变量下载sh,而忽略||后面的语句;而使用repository_dispatch触发的话||前面的下载语句当然会下载失败,自动执行||后面的语句(也就是用curl里的参数作为变量下载sh🤔

照例,我们需要设置一个一个一个pat,顺便在设置里面将github辣眼睛的迫真暗黑模式换掉🤔接下来就可以准备好curl语句,用在我的metart系控制脚本里面,比如下次分配maindb的时候除了上传切好的maindb片段到某pikapod站外,还可以接着立即启动各种github actions(确信🤔目前我已经有七个号可以用,差不多每个号如果能跑6个runners的话就能搞出40线程🤔反正现在我肯定不愿意一个一个一个粘贴那40个sh文件手动启动力🤔

我看再过一周我能不能撸比如24个不会被瞬间橄榄的github号🤔以每个号能跑五个runners算,我可以在跑某些小站的时候牺牲四个号来换取一段时间(比如一天)的20线程,接下来可以拿剩下的几十个号放个metart带烟花(确信🤔

或者我可以去挖掘一些可以开十几个runners的老号,将它们也添加进repository_dispatch战略储备?🤔那玩意尽管只能开12个runners,但它跑12个runners好几小时后居然没有被橄榄,不像我后面创建的一个号几小时后还是被橄榄力,所以这个号至少顶2.4个我这几天新创建的小号(确信🤔不错,我现在有8个号,四舍五入等于47台4GB内存的vps(迫真🤔

eulaAAAAAAAA.24.04.10

就在我离完成metart系全站的完全收录只差两块嗯骨头和三个新发现的小站时,突然啊,我用了一年多没啥屁事的github小号被橄榄力,actions没法用(撅望🤔换了另外一个号接着拖,它居然只能开12个runners,再注册一个号也只能再开五个,剩下三个还在排队状态🤔

现在看来如果我不事先准备上七八个小号并在某个impact cuties专用系统里装一个一个一个开启了身份标签页功能的firefox的话,恐怕我也没法啃最后两个嗯骨头(悲🤔它们可能得开40线程才能在24小时内完成🤔

或者25小时——前面拖的几个站目前也一个一个一个相继过期,按照它给我发开通和过期邮件的时间可以算出试用会员的持续时间通常在25小时左右,有一个极其特殊的是31小时,但只出现过一次,所以我不能将其设定为我的拖站行动的时间基准🤔

奇怪的是它们过期之前居然没有尝试从我的信用卡里扣一次款,不错,至少我不用面临海量异常交易(确信🤔

既然如此,恐怕我得休息几天力,至少我得多注册几个github小号,甚至准备上十个甚至⑨个,才能啃接下来的嗯骨头(悲🤔而且很明显这对我接下来有兴趣搞的kg系github actions项目也算是一种打击(恼🤔

thonk

事后推测我那个号被橄榄的原因可能就是它的四联装workflow,也许github单方面认为我这么安排jobs就是为了规避它的六小时限制,所以在跑了六小时进入第二轮时不到半小时,它们连同整个号都被橄榄🤔这个原因的可能性应该比别的原因高很多,毕竟如果说我对github actions资源消耗得太多的话,我可是连续五六天在上面跑了三四百次workflow runs的,很多也跑到六小时结束,但它一直没橄榄我的号,直到我的四联装workflow跑了六小时半才开始橄榄🤔

不过这个还算好(迫真)的,以前我尝试在workflow里跑ssh或者某种ssh服务器,那基本上才是几分钟就被橄榄,而且不是actions不可用这样的,而是连号都给🐑咯🤔

sayuAYAYA.24.04.08

今天中午早柚酱小号按照惯例抽卡,才抽了不到三发,好家伙,一道金光过来,水龙🤔草,这个号应该还远远没到出金的时候,而且它不是每次出金几乎都要歪吗🤔现在它不仅提前出力,甚至还没歪可还行🤔

反正我惊呆到甚至忘了开屏幕录制🤔whatever,是时候将蓄力时只会哼哼哼啊啊啊啊的臭 龙塞进🍪impact力🤔当然c0水龙没有霸体也没有+1某申必buff,需要三种元素和水反应才能最大化伤害,所以waifurina也不适合塞进去,那么就只能找个盾🤔这个号也没有钟离,那么laylawaifu,启动!🤔

thonkart

metart系拖站那边,得益于我的逆天20线程github actions基础设施(大嘘),我今天一天就雷普了五个站🤔加上昨天下午到今天凌晨之间拖完的metart x,外加早就拖完了的sexart,metart系的12个站里面我已经完全雷普了七个(确信🤔

剩下五个里面有图片四五千但视频只有七百多个的某站,图片三千多视频1500的某站,图片两万多但视频只有(?)两千左右的metart,某个和sexart规模差不多的站,还有一个有着四千多个视频的站🤔这里面很明显有两个难度极高的,metart主站也许我需要动用的不是20线程而是40线程,而另外一个?我能不能在一天内搞完都不好说(恼🤔

github actions v2.24.04.07

由于某种申必原因,我看了眼github actions的资源限制,发现了些很有意思的东西🤔

比如它一个白嫖账号可以跑的并行runners数量居然不是5或者10,而是20🤔但更有意思的是除了每个job最多六小时这种陈词滥调外,我还发现了一个一个一个有意思的玩意:每个workflow的最高运行时间长达35天🤔

至此我才意识到一个workflow里面不见得只能跑一个job,尽管我的各种脚本里面习惯性地只安排了一个🤔换句话说我完全可以安排多个jobs,比如考虑到sexart系试用号只能试用24小时,我可以安排四个jobs,将其串成一串来跑相同的脚本四遍(需要设置好这些jobs的依赖关系,不然它们就会并行运行,那肯定不是我想要的),这样我是不是就可以免得每6小时盯着看它搞完了没有(确信🤔

那么在这种情况下,下一个job(是一台全新的虚拟机)如何继承上一个job的maindb进度?🤔答案其实相当简单,我只需要每次搞完一个链接后除了照例将当前进度打包进guilded drive外,我还可以直接修改放在pikapod上用来下载到actions机器的maindb,这样下个job拖这些maindb开始处理时,自然拖的就是已经处理过一部分的力(确信🤔而如何修改它们呢?只需要一个一个一个简单的php脚本,外加一句curl文件上传语句,就可以搞定,反正比我之前用的sftp方便多力(确信🤔

接下来我需要写一个测试用例,一个只包括四行的maindb,还有一个每次for只出一行结果的脚本🤔测试下来基本上符合预期,第一行处理完成后这个job结束运行,可以看到下一个job的确从第二行开始处理,而放在pikapod上的maindb也便乘了第一行有链接🤔那么接下来两个基本上不用测力🤔

或者我可以将脚本里的只限处理一行这句删掉,看第三个job处理完剩下两个链接后,第四个job会做什么🤔它做的无非是打出四行红字,都已经处理过一遍力,然后退出(确信🤔

thonk.24.04.06

这两天某两款萌妹游戏的卡池里面什么都没出,所以我接着撸sexart相关玩意🤔

上次写了一个合并maindb的玩意,做了一点改进后我按照惯例检查合并前和合并后的maindb变化,发现某些行在合并后的maindb里面便乘了空行🤔后面一检查发现只有for循环外的cat *.txt都改成了temp目录下,循环里没改,所以它只能便乘空行,而没有便乘空行的其实是根目录就有而且一直在添加新东西的maindb(恼🤔改掉后再跑一遍,这次diff检查说明以后这玩意可以用来整别的玩意力(确信🤔

接下来从某个maindb开始分配线程的玩意也能随便撸出来,等我搞定github actions那边的事情,我就开始停止目前的两个线程,合并一次maindb,并以此来开始搞(确信🤔当然现在切换到真·多线程模式其实切不切换没啥太大关系,但等我真的想挑战什么24小时速通它的一系列分站甚至主站metart时,,,就有用力(确信🤔等等,主站可是足足有20TB内容的,24小时速通真的行吗(🤔

AYAYA

又经过了11451.4秒的哼哼雷普后,我终于将sexart脚本做了github actions适配🤔在多方面对比各种代码后,我发现了两点:

  • 拖视频post的代码和拖图片post的代码确实没法合并,因为它们需要抓取的网页元素不一样(悲🤔所以我最多只能按照post类型来分流,并将guilded drive上传语句从处理视频或图片的函数中挪到它外面,省得我每一个函数里面都写一句上传guilded drive🤔

  • 但github actions版本和本地版本确实可以合并,因为它们的区别居然只有具体的guilded drive脚本位置,还有github actions专属的处理后上传当前进度的功能🤔只需要找个办法判定当前是否在github actions里,设定一个一个一个flag或者不设定,然后在相关语句前加if即可(确信🤔

现在github actions既可以处理视频也可以处理图片,而且将它们塞进同一个maindb里也可以🤔讲真我寻思将它们塞进同一个成品maindb里,估计用cloudflare worker索引它们中的任意一个也是可以的,をたま就不信它们能恰巧共享同一个url,这个结论甚至可以扩大到metart系所有站,甚至将那三个kg系塞进去搞不好也可以(迫真🤔

为了方便将其投入多线程生产环境里,我还将某些初始化步骤做了抽离,便乘了五个初始化脚本,分别对应着github actions单账号能设置的五个线程,而它们会下载并调用同一个sexart处理脚本🤔不清楚前年我怎么想的居然在维护⑨个甚至⑧个除了某几行参数不一样别的玩意一毛一样的脚本(恼🤔

但更加牛批的是我停止那两台vps的处理,换这个脚本上,它也能和之前一样跑,基本上除了不会每上传一个视频再上传一个日志外和github actions版一毛一样(确信🤔

现在我在所有地方实现了统一脚本,以后只需要改一处就能改所有地方(确信🤔接下来趁着那两台vps继续跑视频时,sexart图片五线程github actions雷普,启动!🤔

another 11451.4 secs later,,,

极其生草的是,只有第一个线程两小时半跑完全程,别的线程三个小时才完成了三分之二🤔按理来说我分这些玩意的时候是均匀分配的,再说了它们都是只占300MB左右的图片,不是什么随着日期越来越新而逐渐增大的视频,结果有一个线程要么明显比别的线程东西少要么明显更快,wiebitte?🤔

whatever,收集起来它们所有的maindb,合并,再次分配,重新五线程跑🤔等这坨玩意跑完后,我就拿github actions处理剩下的亿点点视频,接下来才是真正的github actions时刻(确信🤔

然后再往脚本里面塞点东西🤔也许我有必要用time来统计一下某些操作的用时,但time这玩意只能加在某个函数里面某些命令的前面,它的结果才能被这个函数调用时后面加的重定向stderr写入日志文件(恼🤔所以我最后干脆若干个函数套娃,这样无论哪一步骤还是总体的拖视频或者图片时间都能记录到日志里,总用时也能显示到屏幕上或者github actions的日志里(确信🤔

除此之外我还需要从2022版断点续传玩意里移植点东西过来,比如不清楚为啥2023版居然没有统计进度的功能🤔这部分还是比较好搞的,但现在我已经开始跑力,下次再说🤔

thonk

又过去了将近40分钟,剩下的这点图片也全搞定力,合并后第一个全部拥有guilded drive链接的maindb便搞了出来🤔接下来当然是停掉某台arm vps的进度,将其当前的maindb还有大盘鸡上的maindb进行合并,撸出十个甚至⑨个线程的maindb,塞进github actions里🤔当然,我现在基本上可以将那台arm vps删掉力,这两天我用它只是没完成github actions脚本暂时顶着而已,但如果它完成力,那么接下来的sexart乃至metart系雷普,就基本上没我自己的vps啥事力(确信🤔

现在那台vps可以用来处理别的玩意,比如我又上传了一批游戏录屏,需要它处理下🤔

另外不清楚kg系能不能走github actions,但我寻思至少按照我写的那些脚本,恐怕它得,,,将html也塞进maindb或者,,,?🤔或者它干脆就直接访问那些网页得了,我撸sexart都能让它们随便拿sexart的cookies解析下载链接(而非我以前搞的cgi-bin中转),kg系站甚至都没有cookies,我怕啥🤔

话说rosefile站还有啥?我就不信wp搭建的rosefile站就那么三四个(其中一个我到今天都没实现分析),肯定有别的(恼🤔

AYAYA

到了今天晚上11点多,sexart剩下的一百多个视频也被十个甚至⑨个github actions线程雷普完成,至此经过三天啊三天的雷普后sexart全站告捷,统计下来视频13.9TB,图片709.9GB,还行🤔

现在我可以一个github号上十个甚至⑨个github actions机子,而我目前至少有两个号可以随便用,它至少今年貌似又管得松力,换句话说如果哪天我真的撅定要雷普它的主站力,我就开始20线程雷普,就算它真的有三万个图片posts,又如何?(吴慈悲🤔

但在此之前,我需要解决它那些东西少的小站🤔现在有两个我比较感兴趣的问题:

  • 在我获得它们的一天试用access前,我能不能先获取它们的视频列表来构造一个一个一个maindb?

  • 我在sexart上的cookies能不能在别的站用?

lisAYAYA.23.02.02

今天照例领某些矿场小号的最后5个纠缠之缘,发现它们里面有六个号居然能玩一把什么second blooming,领个lisa新衣服🤔接下来我发现它居然还是一个一个一个全程配音的活动,大概就和2.8的diluc新衣服活动一个待遇(确信🤔而且在须弥度假(迫真)的lisa也换上了新衣服,包括可游玩内容里的试用80级lisa(确信🤔

而在可游玩内容方面,貌似试用角色没法全程都用,但有意思的是某些位置的试用角色可以连续两盘或三盘用,某些位置不能,看它那些槽是连着的🤔反正最简单的那档难度,一盘只需要放一个试用角色就能无脑6000分,三档奖励居然能拿两档,这可真是太にま良心了(迫真🤔而想领lisa新衣服的话,五盘里面平均每盘居然只需要2000分,四舍五入几乎算是白送(确信🤔但我估计要是想全拿奖励的话,恐怕还是得迫真研究一下teamcomp和能用的buff(悲🤔

但这活动怎么说呢,目测又是个游玩十几分钟、剧情三小时(不算合影impact)的屑活动,我的那些号居然一个一个一个一个都被各种玩意卡住了,那几个小号需要完成lisa传说任务,而我的大号居然被魔神任务第二节卡住了,好家伙,连那些矿场小号都不如(全恼🤔现在唯一一个没有被卡的号是某eula chan大号,那个号已经快完成了须弥主线,我寻思到时候和lisa聊天时对话内容会变(确信🤔

thonkeqing

没想到昨天那个卖家最后还是把czechcasting的号发过来了🤔既然这次买卖做得这么愉快(迫真),等我拖完czechcasting了我就找他买naughty america(确信🤔

我不到一个小时就撸出了获取所有视频和图片链接的cgi-bin脚本,和去年搞的那套玩意一样,我可以用一台小🐔🐔来托管cgi-bin,链接解析啥的都由它来完成,反正和dirtyflix一样,czechcasting解析出的链接也是不限ip不限cookies的(确信🤔现在我可是有自己的常驻小🐔🐔的,一个月只要(迫真)3块钱,再也用不着woiden那套坑爹玩意了🤔

但它还有一个什么360度照片的玩意比较麻烦,本质上是不同角度的48张照片,但问题是它们被隐藏在了一个api后面,它要是有20组这样的照片我就得访问20次那个api,拖完全站少说也得雷普上个十万甚至⑨万次(恼🤔而且尽管它把请求这个api的方法写进了html内置javascript代码里,但bash整它还是有亿点点烦(半恼🤔我现在寻思要不要整它,实在不行完全跳过了也不是⑧行,反正这玩意和它的其他照片一样就是个噱头(恼🤔

但也有一说它访问那个api时可以不带站点cookies,只需要带一个什么csrf token,也许可以外包给下载脚本搞,这里先按下不表🤔

但无论如何,现在这个cgi-bin脚本已经可以将能下载的资源以aria2c列表的形式打印出来了🤔html我最后发现不好用文件的形式来提供,放cgi-bin里完全无法获取,放html里那个脚本并没有对html目录的任何权限,最后一想干脆也塞进响应体里得了(半恼🤔

到时候下载脚本可以将cgi-bin的响应分割开来,上半部分保存成aria2c列表,剩下的玩意保存成html文件,然后用aria2c批量下再开启guilded drive就vans了(确信🤔也许我可以将视频转guilded tube的github actions玩意也改成那个叫做啥来着,然后找出1080p和4k的视频,在cgi-bin里自动触发actions,免得我每次找到一个视频就得手动触发一次🤔

还有一种搞法,cgi-bin只返回html全文,而分析(和可能存在的雷普某api几十次的)工作扔给下载线程🤔最多把从html里分析视频链接并发送到github actions这件事暂时保留在cgi-bin里,但这个其实也可以外包掉(确信🤔

现在某台大盘鸡还在拖guosw,我估摸着czech casting想拖的话恐怕还是得上github actions(悲🤔project cosette此时还是没有开发出来,但我可以使用半个(迫真)project cosette的技术,比如拿已经实现了的cgi-bin技术来实时返回日志和将guilded drive链接塞进maindb,方法无非是将本地脚本里的那套sed语句做成cgi-bin格式(确信🤔和之前搞guilded tube时一样,它仍然有可能会出现写冲突,但实在不成我干脆把maindb也拆成线程数份得了,每个线程只读写和它绑定的maindb(确信🤔

但考虑到这一到两周我cuties impact的活动快要打不完了,主力工作(甚至包括处理截图啊啊啊啊啊啊啊啊啊啊啊啊)可能得拖到下周甚至下下周(全恼🤔现在我要是偶尔抽点时间的话,就只能写点子模块啥的了(悲🤔