dumpstatus.22.05.02

到今天dirtyflix才下了大概500个,还剩1000个(恼🤔我随便打开一个log文件一看,草,下载速度被限制到了16MB/s,难怪🤔

而xconfessions就快很多,我中途只续过一次,算下来总共10小时就搞完了🤔当然第一遍只用了4小时,但只处理了一遍视频轨,这次我可是所有轨都处理了一遍,更别说我还将所有分辨率的视频都打包到一个rar里面,那么上传这个rar的时间也会变得长很多🤔

现在看来,我尽管自诩pornsiterip中级高手,但如果让我一两天就拖完一整个大型pornsite(xconfessions很明显不算,它只有两百多个视频),那恐怕我真不行(悲🤔现在是个pornsite都发展到了极其离谱的规模,有些甚至都能update daily,那么算下来每个站数据量都是以TB计的🤔我能半个月拖完一个就不错了(半恼🤔

不过这事也没什么难的,我只需要每过6小时续一次就vans了,而且简单到手机也能操作,昨天我在外面时就在手机上尝试操作了下🤔当然这个也可以自动化,我可以用什么玩意监测github actions workflow的运行状态,如果发现它停机了,就从discord的消息记录里提取出最近50条消息或者怎么,从里面找到最新的currentprogress文件,然后拿它创建一个新的github actions线程🤔但这玩意写起来极其麻烦,主要验证其运行的正确性就极其麻烦,更别说保证它本身能24小时挂机了(🤔

当然github actions本身也有一些高级antics api可以用,比如它的一个runner可以开启另外一个runner,然后关闭自己啥的,那么可以在比如跑5小时的时候就等下一个currentprogress文件一生成,就启动另外一个runner并关闭自己(确信🤔当然我肯定懒得使用它提供的api,我会在浏览器启动github actions的地方抓包,然后用传统的bash antics搞(确信🤔这也会带来新的问题,比如我怎么搞这个用来统计时间的进程,bash?🤔另外时间一到怎么结束脚本?可以设置一个临时文件,我的其他dump脚本在每个循环里只要检测到那个临时文件存在,那么它就不再循环,这样那台runner什么时候关机其实也没那么重要了(确信🤔或者检测到那个临时文件存在直接让脚本exit 114514,这样github actions就会自动结束整个workflow(确信🤔

对了,我得想办法列举出所有metart的玩意,然后跑起来,不然第二个线程就得闲置🤔

thonkeqing

在我折腾了一个早上之后,metart终于开始跑了🤔这次我想办法搞到了它所有的视频和图片,不像dirtyflix我总是会缺一些项🤔原因可能是用本地cygwin总是会出现连接问题,导致某些页搞不到(恼🤔

而且metart支持从旧到新排序,这可真是太有用了,我可以从它1⑨⑨⑨年的老片子开始拖了,1⑨⑨⑨年它甚至都不叫metart,就像naughty america以前叫nerdybookworms,而defloration.com以前叫什么sexhymen一样🤔其实metart主要是卖照片的,1⑨⑨⑨年的照片分辨率也不算低,视频的话就是另外一种情况了🤔

现在它貌似才拖到04年,以一分钟三个的速率来估计,拖完它的23917个图集可能需要四五天(恼🤔

github actions thonk

对了,我在github actions入门(大嘘)里说过吗?在private repository里使用github actions是要收费的,尽管各种套餐里面附带了几千分钟可以说是聊胜于无的免费额度(好处也许是可以续到8小时,但也仅限于此了🤔但对于我们更熟悉的public repository来说,怎么用都是免费的,好像除了每个账号同时只能开五个外没有任何限制🤔这甚至都算不上什么限制,因为我完全可以创建一个新的github帐号,然后把代码重新上传一份,它真的只需要一个yml文件(🤔

public repository里运行的github actions和public repository里的任何东西一样,是可以被任何人看见的,无论是yml代码本身,还是运行日志和上传上去的artifact🤔当然未注册用户不能下载artifact,但至少可以看运行日志🤔而我在github actions上搞的一系列东西,除了最初的几个玩意之外,都是在将public actions当作private actions用(确信🤔

那么,我是如何做到github actions公车私有化(顺便一提这是个hentai术语)的?首先,代码里不想让别人看到的东西就不要写到yml里,或者上传到github🤔考虑到github actions的runner是个可以跑任何程序的无头vps,完全可以把这部分代码找别的地方放着(比如discord drive,但就像我不会在批信里骂腾讯、在中修的社交平台上骂中修一样,我也不会在discord drive上托管discord drive代码,所以放某个白嫖vps里也不错,反正它自带一个apache2),然后通过传参的方式,每次执行它时将下载这个文件的url传进去,下载并执行(确信🤔如果这个申必脚本还需要别的申必脚本(比如discord drive和discord tube),就在它里面加载它们,而不是yml🤔这个链接就相当于一把钥匙,而github actions的玩意就相当于一把锁(这里倒是更像某机器猫的任意门),没有钥匙肯定是开不了锁的,而没有提供这个链接的repository看起来就像一堆垃圾代码的集合,别壬就算是fork下来代码也跑不起来(确信🤔

再就是存储问题,github自带的artifact作为存储是不合格的,上传下载都只有10MB/s,而且只能存放90天,更离谱的是它上传前需要先打个包,算下上传它的时间比拖站还要长三四倍,我连拖pixiv公开内容这种足够public的项目都不喜欢用它,很快就切discord drive了(恼🤔这部分可以参见我年初写的玩意🤔

所以我的意思是说尽可能用第三方存储,除了discord drive外还可以尝试使用onedrive、google drive、backblaze等🤔我现在没有可以用的onedrive,不然我完全可以除了discord drive外再尝试上传一遍onedrive🤔当然我也可以事后用相同的workflow代码实现discord drive转onedrive,否则为什么那玩意叫做generic antics?🤔onedrive还可以用oneindex或者诸如此类的东西随便分享,尽管我肯定觉得onedrive没有discord drive好用,但它至少不会像discord drive一样高度依赖bash,所以对一般壬还是比较友好的(确信🤔

使用那三个drive需要往github actions里扔进去一个rclone,而且还需要想办法将配置文件在别的机子上面搞定,然后扔进正确的位置🤔我早在两年前就在ibm cloud上部署过rclone上传backblaze,那垃圾玩意跑discord drive还是够呛🤔

最后一个问题是日志,为了不将某些可能暴露项目内容的东西通过日志泄露出来,对于这些玩意应该用> log 2>&1或者诸如此类的玩意转储到某个文件里,然后打包到discord drive或者哪里,比如我的断点续传脚本就是这么做的,currentprogress文件除了保存了列表里剩下的项目之外,还保存了上次拖站时生成的日志文件🤔而对于没有保存需求的日志,应该用> /dev/null 2>&1直接橄榄(确信🤔遇到问题调试的时候可以注释掉这些重定向玩意,但调试完就取消注释,而且光速删掉github actions对应的运行记录,或者等三个月它会自动删掉🤔

这三点做到了,就能将白嫖的github public actions用出private actions的效果,最大效率薅美帝资本主义羊毛(确信🤔这可不是一般的羊毛,或者像ibm cloud那样的垃圾羊毛,这可是网速高达300MB/s还有最多50GB全ssd的114514k纯金羊毛,单机配置比我最好的存储vps都高级好多倍,更别说单账号可以同时开五个,理论并行度基本上没有上限(确信🤔当然我的项目得多大才能同时用到几十台github actions runners,一天拖完naughty america?🤔

另外美帝a片实在是撸不起来,欧洲的片子也许我可以考虑,如果有优惠的话我可以买一个月dump下🤔要么我们从czechcasting开始吧?🤔

发表评论