barbruh.22.05.11

昨天晚上sexart的拖站还剩478三个线程,今天将它们挂上去之后一个小时都没有出结果(恼🤔

去掉sexart脚本的日志记录之后,我发现它居然一直在向discord drive上传文件,却一个返回的链接都没看到🤔那基本上就意味着它一直在重试上传最初的几个片段,至少我的discord drive代码是这么写的🤔

所以,破天荒的discord drive出现了问题(半恼🤔我将这个discord drive脚本下到本地,开启返回消息的显示,然后我发现discord返回了这么一条玩意:

{"message": "Invalid request origin", "code": 50067}

有意思,是不是我之前在discord drive上传discord的函数里留着一条-H 'Origin: https://discord.com' \所致?🤔把这条删掉后discord drive恢复了正常,而我拖sexart的那几个线程也陆续返回了结果🤔这可真是太乌龙了(🤔

thonk

另外一方面,之前搞的截图8GB档现在也可以开始上传了🤔我现在只要压缩出截图就开始做8GB档,并立即挪到某个6TB矿渣里面🤔现在它还剩个737GB,大概还能整个五六次(确信🤔

thonkeqing

我最后折腾出了一系列bash脚本,用来在那几个metart系网站的discord drive链接文件里找出大小异常的文件、以这些文件为线索构造需要重新下载的链接,最后再用重新下载好的正确文件链接替换掉原链接文件里大小异常的文件链接(还有它们对应的currentprogress🤔生草的是这玩意撸一遍之后还能检测出大小异常的文件,需要再撸一遍(恼🤔当然我现在设置的大小异常的标准是1到6位数,换句话说比1MB小的文件肯定能查出来,至于比1MB大的文件里面有没有其实没下完的文件,就不好说了(恼🤔

mofosthonk

草,mofos和teamskeet一样,也是下载权限得另外解锁(恼🤔但生草的是我用1美元搞到了mofos的试用权限后居然用另外1美元搞到了它的另外一个站babes的完整权限🤔尽管我仍然不能下视频,但我居然可以看它的所有视频,这可真有意思🤔而且更有意思的是这玩意的价格是每周1美元,一个月4美元,从某种程度上说比metart还要便宜(迫真🤔

看来,是时候使用我的那啥转discord tube脚本来搞这些片子了🤔先看下它用的是不是cloudflare stream🤔

bruhfei

在我迫真研究了一番它的api后,我发现了一个好消息和一个坏消息🤔好消息是它其实提供了下载链接,只不过没有在网页里显示而已🤔是不是有点像某个申必在线教育网站呢?它也是将完整版链接藏在了json里面,如果我没记错的话🤔,坏消息是它需要验证ip(恼🤔

看来,这玩意要是用github actions的话还是有点风险的(🤔

但这个json api貌似换各种ip来访问都不会有什么问题,所以也许我可以通过将解析代码写进github actions拖站脚本的方式来多线程搞它(确信🤔

wiebitte

当然,我还是在一顿魔改后把它的在线hls视频转discord drive的脚本也撸出来了,这样也许我可以实现像xconfession那样的自适应discord tube,来略微提升下这狗逼玩意的使用体验,毕竟对着一堆discord drive链接我也撸不出来(恼🤔

问题是它的某些视频片段动不动429,而且我重试了十几遍依然如此,看来这玩意基本上不是重试可以解决的了,いいよ!来いよ!我懒得折腾discord tube了,直接下视频罢(恼🤔

我突然在想现在有什么好办法二次加工一下我拖下来的这么多片子了(🤔其实如果我能搞到一大堆白嫖discord nitro的话,情况也许能好很多,比如我再像去年一样搞一个充满了nitro webhook的聊天室,或者好几个,然后开始动用github actions的机子进行discord tube转换(🤔

bruhfei.22.05.09

昨天晚上装的机子只是个最小系统,今天还需要装上别的玩意🤔

11451.4秒之后,剩下的几个组件也陆续装进去了,声卡用矿龙的pcie线引了出来,甚至还插上了大概两年没插过的子卡,硬盘和蓝光刻录机也全部接了上去,网卡天线也接上了,现在这台机子可以正常用了🤔

尽管它现在打游戏啥的不会导致断电或者固态掉线等问题,但我发现它现在有几率出现数据损坏(恼🤔比如我的firefox历史记录文件就坏过一次,而服务器管理器需要的xml文件也坏过一次,还有什么文件坏了我也不清楚(🤔这可真にま蛋疼🤔

另外我发现sexart的视频链接里面既有视频又有图包zip,看来我不能直接拿着metart的代码搞,得加点东西🤔

但至少我不到两小时就搞完了它的所有图片,而且至少看上去像是一次性搞完了的样子(确信🤔那么,我可以让它挂着下视频,然后出去转了(确信🤔

bruh

我出去转的时候发现了一个问题,某些视频下载之后生成的文件只有几百字节🤔回去后看了下log,发现它请求那个白嫖vps一分钟都没有响应,超时了🤔那么我估计白嫖vps那边也出现了超时,而且更有意思的是它下载下来的metadata上面写着timeout,服务器签名写着nginx,但我的白嫖vps上面装的是apache🤔所以,很明显是他们那边出了问题(恼🤔

无论如何,我在白嫖vps的脚本里curl相关命令加入了超时重试选项,就像我在discord备份脚本里那样🤔那个脚本也出现了卡住几十秒的问题,其实加一个2秒算超时重试114514次就能解决问题(确信🤔

当然,我在之前拖的metart资源列表文件里也发现了一些只有几百字节的文件,而且只有可能是几百字节而非其他大小,有意思🤔到时候这种资源肯定得重新下载,但如何替换掉原来资源列表文件里的项,还真是一个问题(恼🤔

fischlthonk.22.05.08

今天终于开始回X都了🤔尽管和来时相比,我还多出来一个行李箱,但这次感觉轻松多了,因为X州站的5和6站台是有自动扶梯的,而我的车在5站台🤔

而且等我坐下后,发现我旁边的两个座都是空的,可以把行李放在我身边,淡季就是にま爽(确信🤔

再说了,我这次居然订到了靠窗座位,所以理论上来说我也没什么必要到处逛了,还不如一直坐到X元🤔然而,我把那台1060笔记本裹成了汤圆塞进了行李箱里,不然我倒是可以掏出来玩玩,比如我昨天晚上收拾台式机前往里面拷了一份dirtyflix拖完(迫真)的metadata列表,我可以施展点antics,找出并没有完成下载的视频列表,方便我重新拖一遍🤔

另外我到X都后还得找些新的pornsite来拖,naughty america肯定是首选,但如果metart的兄弟站sexart也能以5美元一个月搞到的话,或者最多10美元的话,其实我可以优先搞这个🤔我记得sexart没有美式浪叫,不像naughty america几乎全たま是🤔metart的10TB内容到手顶多再多一条用来吹牛逼的谈资,但那些玩意真的不实用(恼🤔

另外mofos貌似可以搞一个7美元一周的会员,但那玩意如果是完整会员的话,信不信我一两天就能全站dump下来,加上调试脚本的时间最多三天,我现在知道怎么做(哼哼🤔当然,它的cdn要是限制ip的话,那就当我什么都没说吧(悲🤔不过我一般来说见过绝大多数的cdn都是不限制ip的,顶多限制过期时间(确信🤔

bruhfei

草,哪个天才设计的X元站外换乘通道🤔不过无论如何,我赶在停止检票之前一分钟还是两分钟来着完成了检票,上了这辆快车,不到一小时半应该就在X都了(确信🤔

回去打算先把电源换掉🤔

JAJAJAJAJA

回去第零件事是把行李箱里的冻品赶紧扔进冷冻室,那么第一件事当然就是换电源啦🤔

1145.14秒后,最小系统装好了,进系统后第一件事就是买sexart的会员(确信🤔它也有5美元优惠,而且更生草的是metart相关代码改个域名就能完全用来解析sexart,爽死🤔就是sexart相关的玩意体积都有点夸张,动不动20GB的4k视频,这可真是个问题(恼🤔

memo.22.05.06

既然我接下来几天要回去了,买一块新的主存储也便乘了一件我需要考虑的事情(确信🤔

接下来我准备做一个简短的记录,关于各种容量的硬盘平均二手价格(其实,我现在不介意主存储也用二手)和每TB价格之类的,时效性仅限今天:

  • 20TB硬盘现在普遍没货
  • 18TB硬盘,希捷的st18000nm000j平均1600(有时还能看见一个1500的),88.9/TB🤔西数/hgst的hc550平均1500,83.3/TB🤔东芝貌似也有18TB,平均1700,94.5/TB🤔
  • > 希捷有一个特殊的产品,叫做hsmr,hybrid smr,据说可以做到cmr/smr双模,就像现在的固态已经普遍是slc/mlc/tlc/qlc多模一样,目前能买到的是cmr模式18TB,smr模式20TB,但切换模式的方法没跟着硬盘一块流出来,所以也许可以当作普通cmr硬盘用,1400左右,77.7/TB🤔另外和那块极其生草的4TB氦气盘一样,这玩意我也找不到product manual(恼🤔
  • 16TB硬盘,希捷的st16000nm001g平均1200,75/TB🤔hc550平均1150,71.9/TB(其实我想强行钦定平均价格1145的🤔东芝的16TB平均1100,68.75/TB🤔
  • 14TB硬盘,希捷有st14000nm0048和st14000nm001g两个型号,前者是x14,后者是x16,平均都在1000左右,71.4/TB🤔其实,撸一个14TB的sas当主存储用也许是个不错的主意(确信🤔hc530只要900左右,64.3/TB🤔东芝和西数/hgst一样🤔
  • 12TB硬盘,希捷的st12000nm0007(这是x12,别的希捷12TB就不建议买了,性能连hc330那块空气盘都不如)平均850,70.9/TB🤔西数的hc520平均800,66.7/TB🤔东芝平均750,62.5/TB🤔
  • 10TB硬盘,此时有氦气盘和空气盘两个选项,希捷的st10000nm0016(只推荐买x10,理由同上)平均650(大嘘),65/TB🤔著名的hc330平均700,70/TB🤔西数的氦气盘就没啥意思了,价格也在700左右,还不如买hc330,至少hc330速度还快🤔东芝也有10TB空气盘,最便宜能到600,但平均的话还是700左右,70/TB🤔我觉得那个10TB的sas挺有意思的,可以考虑买一个做副存储用,反正每次都用hc330和st6000nm0034也怪没意思的(确信🤔

剩下的几个容量我就懒得查了,8TB仍然没有车,6TB矿渣有意思的是希捷hgst东芝三家都低到300,更小的容量价格基本上万年没变过了(确信🤔而我也可以考虑下次搞垃圾盘的时候朝着10TB及以上容量搞了(确信🤔

thonkeqing.22.05.05

昨天晚上设置好八线程metart之后就去impact cuties了,打完日常意犹未尽去chasm挖了一个小时矿,挖完矿接着意犹未尽,上批乎刷攻略去了🤔好家伙,上批乎刷攻略,可以说是作死了,果然我到五点还没睡(恼🤔

k-kawaii zhiqiong chan ist mein waifu! time to cum inside her tight virgin pussy(错乱

再次起来那些github actions早都跑完好几个小时了🤔我随便下了一个currentprogress看了眼,原来一个线程有2063个图集等着下,现在只剩685个了🤔目测剩下的这些两三个小时就能下完(确信🤔看来动用八个线程的确有立竿见影的效果(确信🤔搞不好今天下午就可以开始整合了(确信🤔

接下来我已经定好了回X都的计划,如果没什么差错的话8号就可以回了,所以我准备让这些线程在搞完metart之后搞dirtyflix或者teamskeet,应该是dirtyflix优先🤔naughty america看情况,等我回到X都再考虑搞不搞吧(🤔

wiebitte

我听说cuties impact 2.6无限期延期了,ayaka池子直接设置了一个240天的超长过期时间,包括ayaka池子的试用任务🤔除此之外它还在接下来的时间里安排了一系列的填充时间用活动,比如这个:

从此可以看出2.6至少延期到了下一个月(恼🤔反正我是不觉得他们会在活动还没结束的时候就开始快进到下一个版本的,哪怕X海提前清零了,而且他们做好了发布2.7的所有准备🤔那么很明显延期要在这个基础上接着延,延到下下个月我都不会感到奇怪,要知道X海现在还一天好几千例呢(全恼🤔

所以X海什么时候清零啊啊啊啊啊(半恼🤔当然他们要是一直延期的话其实对我来说算是利好,因为只要他们延期一个月,我就可以给k-kawaii yelan chan又称五星行秋(大嘘)再准备上个30抽(确信🤔

metart finished

终于,在折腾了两三回之后,metart的图包部分也全搞完了,它其实也会出现下载不均匀的情况🤔事后归类统计的时候居然发现少一项,检查log发现压缩包下载啥的都没有问题,就在最后将discord drive链接发送到我的聊天室这一步骤时出了问题,而且也没有设计重试机制,实在是令人哭笑不得(🤔

对之前单线程搞的那些也做了检查,行数是对的,但currentprogress的行数比预期值少1,查到了错乱的行后发现有一个项目没有currentprogress,而另外一个项目多出了一个wiebitte.m3u8,绝对是我某个时候测试cf2discordtube的时候搞的hls(确信🤔这些都修复好后,现在终于能完全对应了,我可以假设那些图片全部上传上去了🤔至于metart这几天又上传了什么新图片,我也懒得关心了🤔

最后,照例做个统计:

cat /thonkeqing/wiebitte/metart.images.combined.txt | awk 'NR%2==1' | sed 's/^.*\///g;s/.metadata.rar//g;s/^.*\.//g' | awk '{sum+=$1} END {print sum}'
# 7721533739955

草,7.02TB🤔再加上视频,我已经拥有了10TB的metart片子,而且也就是这一两天发生的事情(确信🤔现在去跑dirtyflix🤔

bruhfei

然而dirtyflix并没有按照预期跑起来,只有第一个线程有内容输出,别的线程半个小时了都吐不出一个文件🤔

这有可能是因为我把参数填错了,但线程1的输出也没有混进其他线程的视频,它还是只输出了它自己线程的视频🤔我开始排查别的玩意,比如那台白嫖vps能否输入id返回视频链接🤔哦豁,它现在返回不了了(恼🤔

不错,看来我那dirtyflix试用会员的确到了该过期的时候🤔不过这仍然没有解决其他疑惑,比如那些线程获取不了视频链接,为什么它们会一直卡住?🤔

等等,这个bug在我早期调试dirtyflix脚本时也出现过,一旦它获取不了链接,打包currentprogress的那条rar语句会将整个当前目录的所有东西都打包了,包括discord drive脚本,这样接下来它就不会返回任何东西🤔

有意思,但上次出现这个bug之后脚本会立即结束还是会一直卡,我却忘了(🤔

无论如何,我恐怕得想办法再搞一次dirtyflix试用会员,再谈这件事(🤔当然我可能还有一个选择,去拖teamskeet,但这个我实在是没啥兴趣🤔

barbruh

回去一检查,发现我居然在dirtyflix除了线程1外的其他线程文件里面写错了discord drive的文件路径:barbruh:

难怪只有一个线程能发东西🤔而且深入研究我发现了更加生草的事情,我现在算dirtyflix的过期会员,但我仍然可以用申必链接直接下视频和图包🤔总感觉尽管dirtyflix无限接近于russianflix,但他们站长的文化程度也无限接近于搜书盘的站长(确信🤔

既然如此,那么我可以接着跑八线程脚本了🤔只不过这次我遇到了bug,很多线程的第一个视频都只能拖两个版本的视频,而非正常的6个或者7个版本,有时连一个版本都拖不下来,直接上传一个currentprogress上去🤔打开看log,貌似curl解析的时候返回了0字节内容🤔但我换个浏览器访问解析链接却能解析出正确的内容🤔

看来我只能先在那儿插入一个占位符,以后再说🤔

我的另外一个线程半天不更新东西,取消log重定向后我发现它由于某种申必原因,下载速度奇慢,慢到了3MB/s(恼🤔看来这个破站的cdn就是不行啊🤔

我估计这个到时候整合的时候反而容易很多,因为我当时列举视频的时候就没有按照顺序列举,那么整合的时候也不需要管顺序,发现哪些视频没下完直接重新下就vans了(确信🤔

所以,naughty america什么时候搞(🤔

wiebitte.22.05.04

昨天晚上突发奇想,把上次做discord账号注册测试生成的8个32线程webhook(其实还有第⑨个,但那个里面只有10个线程,所以我没用到)全™用起来了,现在我可以八线程拖站(确信🤔除去正在拖dirtyfilx的一号线程和正在拖metart图片的二号线程,我大概还有6个线程可以用来拖metart的视频🤔这点视频才一千多个,刚好可以用来测试这群多线程玩意🤔

没想到github public actions居然没有限制同时运行的runners数量,随便开八个(确信🤔我估计如果每个线程能有150MB/s下载速度的话,这6个线程加起来再怎么说也能逼近8Gbps了吧🤔可以说是拖站史上(大嘘)带宽最大的拖站了🤔metart看起来可以吃得下,但如果换成naughty america的话我就不清楚了🤔

thonkeqing

6个小时之后,那6个线程居然提前完成了四个,剩下两个是超时结束的🤔看来将那个视频列表均匀分割的确会造成有的提前结束有的超时了还没搞完,基本上就和多线程discord频道备份脚本一个尿性🤔既然如此,我可以将那两个线程没搞完的列表整合一下,再分割成六份重新多线程去🤔

无论如何,这的确会给我事后将它们合并成一个装满discord drive链接的列表文件这件事造成困扰(恼🤔所以我只能最大限度地降低这种困扰了,比如先用wiebitte表情分割每次拖站再说🤔线程1-4是正常完成的,直接合并就vans了🤔线程5需要先和线程1-2的新内容先进行合并,然后再和线程6合并,再合并线程3-6的新内容,这样我觉得最后顺序就应该能整合适了🤔除非我中途觉得某些线程仍然闲得蛋疼,再整合并重新分割一次🤔

但现在看来,我这8线程的确可以说是神速,我觉得这顿视频整合完毕之后图片也可以至少7个线程铺开,至于dirtyflix那个线程它爱啥时候搞完啥时候搞完,我懒得关心(吴慈悲🤔

然后,等我搞完metart我就去搞naughty america🤔

stat

折腾了1145.14秒后终于将那几个频道备份了下来,一番迫真处理之后终于把metart所有视频的链接收集齐了,至少视频的数量貌似能对应上(确信🤔但在处理xconfessions时发现除以3居然比视频数量少1/3,一检查发现某个视频的currentprogress文件由于某种申必原因没有上传上去🤔当然这不是什么大问题,从别处复制一个占位就vans了🤔

接下来由于我的每一个单文件discord drive文件名后面都带有文件大小的准确字节数,我可以直接开始统计这些站的资源总量了,比如metart:

cat /lickeqing/metart.videos.txt | awk 'NR%2==1' | sed 's/^.*\///g;s/.metadata.rar//g;s/^.*\.//g' | awk '{sum+=$1} END {print sum}'
# 3353971940423
cat /lickeqing/metart.images.txt | awk 'NR%2==1' | sed 's/^.*\///g;s/.metadata.rar//g;s/^.*\.//g' | awk '{sum+=$1} END {print sum}'
# 1916462601911
cat /lickeqing/xconfessions.txt | awk 'NR%3==2' | sed 's/^.*\///g;s/.metadata.rar//g;s/^.*\.//g' | awk '{sum+=$1} END {print sum}'
# 202315174465

草,metart的视频总量居然高达3TB,而这些图片现在也占用了高达1.74TB的空间,我甚至还没有拖完,我觉得可能连三分之一都没达到🤔严格点来说这些视频我只花了将近10小时就搞完了(确信🤔看来,我得将接下来剩下的图片也八线程撸了,dirtyfilx可以以后再说(吴慈悲🤔至于xconfessions加起来只有188.42GB,如果我没有将每一个分辨率的视频都保存一遍的话恐怕只会更低(恼🤔

bruhskeet.22.05.03

实在是睡不着,起来随便分析了下teamskeet🤔它貌似根本就没有什么json api,直接分析网页就能分析出m3u8🤔但上次不清楚为啥触发了cf浏览器检查,我当时猜测是ip原因,这次我尝试用bitvise的ssh tunnel功能,通过这个ssh tunnel登录并且访问它的网页🤔这次终于可以从那台白嫖vps里解析出链接了,做成cgi-bin也能搞,输入id返回m3u8链接🤔就是不清楚过段时间它还能用不,因为至少浏览器那边它动不动就需要重新登录,每次重新登录都要来一波google验证🤔

它还有一个图集功能,很不幸的是下载链接会检查ip,换成github actions的话肯定没法下(恼🤔如果我用cgi-bin将那个压缩包的内容直接echo到stdout呢?理论上来说是可行的,设好content-type后哪怕浏览器都能直接下载,但我没那么闲得蛋疼🤔等等,如果它是302呢?如果302跳转后的那个链接不检查ip呢?

bruhfei

另外我发现czech casting居然没有任何优惠,所以恐怕我得上某个网站看白嫖版了🤔好家伙,它现在是把那个站的视频全删了吗,怎么一个一个一个一个都没了(恼?看来我得翻下旧硬盘了,打开笔记本硬盘备份,挂载11号盘,成功找到🤔

现在我有点怀念那个叫做0.5TB人类性爱艺术博物馆(大嘘)的onedrive了(悲🤔那时porntrex还非常好使,反正比现在好使多了,能按人物精确索引到任意pornsite的对应视频(确信🤔现在它只会瞎鸡巴取标题(恼🤔

反正无论如何,30美元我是真难以下手,我还是等那两个搞完后搞naughty america吧(🤔

要不我学那些迫真siterip壬挂盈利网盘盈利吼不吼啊?🤔我这再不堪也算是真·siterip,比那堆虫豸高级1145141919810893倍(确信🤔然后再以战养战🤔

proxy

最后我发现curl有一个叫做-i的参数可以返回整个响应体,基本上去除第一行就可以直接输出到stdout了🤔这样的话,我可以将teamskeet图片压缩包的内容直接返回给浏览器或者别的玩意,连http响应头都不用构造,四舍五入相当于代理了(确信🤔现在可能只能用单线程,因为我没什么办法传递range请求头进去(🤔

当然这一招也可以用来搞nitro delegation,只不过我现在不清楚cgi-bin如何将请求头也传进脚本,然后再传给脚本里的curl🤔而且这玩意执行起来肯定会比cloudflare workers慢很多就是了(恼🤔之所以teamskeet不用cloudflare worker,还不是因为后者的ip不固定,而这死🐴玩意干什么都检查ip(全恼🤔

而且既然它那么喜欢每过几个小时就重新登录,我再也不能将凭据硬编码到sh文化里了,得单独放个地方🤔然后每次凭据变了之后直接改那个文件即可🤔

除此之外我突然想到cloudflare能够代理ipv6网站,但它只支持代理那么几个端口,好在apache2支持同时监听多个端口,这样我就可以让它既保持对旧申必脚本的兼容性(因为里面地址全都是ip:端口这种形式)又加上对人类的兼容性(大嘘)了🤔它这个nat ipv4映射居然是ipv6的端口完全对应ipv4的端口可还行,不需要额外设置🤔

dumpstatus.22.05.02

到今天dirtyflix才下了大概500个,还剩1000个(恼🤔我随便打开一个log文件一看,草,下载速度被限制到了16MB/s,难怪🤔

而xconfessions就快很多,我中途只续过一次,算下来总共10小时就搞完了🤔当然第一遍只用了4小时,但只处理了一遍视频轨,这次我可是所有轨都处理了一遍,更别说我还将所有分辨率的视频都打包到一个rar里面,那么上传这个rar的时间也会变得长很多🤔

现在看来,我尽管自诩pornsiterip中级高手,但如果让我一两天就拖完一整个大型pornsite(xconfessions很明显不算,它只有两百多个视频),那恐怕我真不行(悲🤔现在是个pornsite都发展到了极其离谱的规模,有些甚至都能update daily,那么算下来每个站数据量都是以TB计的🤔我能半个月拖完一个就不错了(半恼🤔

不过这事也没什么难的,我只需要每过6小时续一次就vans了,而且简单到手机也能操作,昨天我在外面时就在手机上尝试操作了下🤔当然这个也可以自动化,我可以用什么玩意监测github actions workflow的运行状态,如果发现它停机了,就从discord的消息记录里提取出最近50条消息或者怎么,从里面找到最新的currentprogress文件,然后拿它创建一个新的github actions线程🤔但这玩意写起来极其麻烦,主要验证其运行的正确性就极其麻烦,更别说保证它本身能24小时挂机了(🤔

当然github actions本身也有一些高级antics api可以用,比如它的一个runner可以开启另外一个runner,然后关闭自己啥的,那么可以在比如跑5小时的时候就等下一个currentprogress文件一生成,就启动另外一个runner并关闭自己(确信🤔当然我肯定懒得使用它提供的api,我会在浏览器启动github actions的地方抓包,然后用传统的bash antics搞(确信🤔这也会带来新的问题,比如我怎么搞这个用来统计时间的进程,bash?🤔另外时间一到怎么结束脚本?可以设置一个临时文件,我的其他dump脚本在每个循环里只要检测到那个临时文件存在,那么它就不再循环,这样那台runner什么时候关机其实也没那么重要了(确信🤔或者检测到那个临时文件存在直接让脚本exit 114514,这样github actions就会自动结束整个workflow(确信🤔

对了,我得想办法列举出所有metart的玩意,然后跑起来,不然第二个线程就得闲置🤔

thonkeqing

在我折腾了一个早上之后,metart终于开始跑了🤔这次我想办法搞到了它所有的视频和图片,不像dirtyflix我总是会缺一些项🤔原因可能是用本地cygwin总是会出现连接问题,导致某些页搞不到(恼🤔

而且metart支持从旧到新排序,这可真是太有用了,我可以从它1⑨⑨⑨年的老片子开始拖了,1⑨⑨⑨年它甚至都不叫metart,就像naughty america以前叫nerdybookworms,而defloration.com以前叫什么sexhymen一样🤔其实metart主要是卖照片的,1⑨⑨⑨年的照片分辨率也不算低,视频的话就是另外一种情况了🤔

现在它貌似才拖到04年,以一分钟三个的速率来估计,拖完它的23917个图集可能需要四五天(恼🤔

github actions thonk

对了,我在github actions入门(大嘘)里说过吗?在private repository里使用github actions是要收费的,尽管各种套餐里面附带了几千分钟可以说是聊胜于无的免费额度(好处也许是可以续到8小时,但也仅限于此了🤔但对于我们更熟悉的public repository来说,怎么用都是免费的,好像除了每个账号同时只能开五个外没有任何限制🤔这甚至都算不上什么限制,因为我完全可以创建一个新的github帐号,然后把代码重新上传一份,它真的只需要一个yml文件(🤔

public repository里运行的github actions和public repository里的任何东西一样,是可以被任何人看见的,无论是yml代码本身,还是运行日志和上传上去的artifact🤔当然未注册用户不能下载artifact,但至少可以看运行日志🤔而我在github actions上搞的一系列东西,除了最初的几个玩意之外,都是在将public actions当作private actions用(确信🤔

那么,我是如何做到github actions公车私有化(顺便一提这是个hentai术语)的?首先,代码里不想让别人看到的东西就不要写到yml里,或者上传到github🤔考虑到github actions的runner是个可以跑任何程序的无头vps,完全可以把这部分代码找别的地方放着(比如discord drive,但就像我不会在批信里骂腾讯、在中修的社交平台上骂中修一样,我也不会在discord drive上托管discord drive代码,所以放某个白嫖vps里也不错,反正它自带一个apache2),然后通过传参的方式,每次执行它时将下载这个文件的url传进去,下载并执行(确信🤔如果这个申必脚本还需要别的申必脚本(比如discord drive和discord tube),就在它里面加载它们,而不是yml🤔这个链接就相当于一把钥匙,而github actions的玩意就相当于一把锁(这里倒是更像某机器猫的任意门),没有钥匙肯定是开不了锁的,而没有提供这个链接的repository看起来就像一堆垃圾代码的集合,别壬就算是fork下来代码也跑不起来(确信🤔

再就是存储问题,github自带的artifact作为存储是不合格的,上传下载都只有10MB/s,而且只能存放90天,更离谱的是它上传前需要先打个包,算下上传它的时间比拖站还要长三四倍,我连拖pixiv公开内容这种足够public的项目都不喜欢用它,很快就切discord drive了(恼🤔这部分可以参见我年初写的玩意🤔

所以我的意思是说尽可能用第三方存储,除了discord drive外还可以尝试使用onedrive、google drive、backblaze等🤔我现在没有可以用的onedrive,不然我完全可以除了discord drive外再尝试上传一遍onedrive🤔当然我也可以事后用相同的workflow代码实现discord drive转onedrive,否则为什么那玩意叫做generic antics?🤔onedrive还可以用oneindex或者诸如此类的东西随便分享,尽管我肯定觉得onedrive没有discord drive好用,但它至少不会像discord drive一样高度依赖bash,所以对一般壬还是比较友好的(确信🤔

使用那三个drive需要往github actions里扔进去一个rclone,而且还需要想办法将配置文件在别的机子上面搞定,然后扔进正确的位置🤔我早在两年前就在ibm cloud上部署过rclone上传backblaze,那垃圾玩意跑discord drive还是够呛🤔

最后一个问题是日志,为了不将某些可能暴露项目内容的东西通过日志泄露出来,对于这些玩意应该用> log 2>&1或者诸如此类的玩意转储到某个文件里,然后打包到discord drive或者哪里,比如我的断点续传脚本就是这么做的,currentprogress文件除了保存了列表里剩下的项目之外,还保存了上次拖站时生成的日志文件🤔而对于没有保存需求的日志,应该用> /dev/null 2>&1直接橄榄(确信🤔遇到问题调试的时候可以注释掉这些重定向玩意,但调试完就取消注释,而且光速删掉github actions对应的运行记录,或者等三个月它会自动删掉🤔

这三点做到了,就能将白嫖的github public actions用出private actions的效果,最大效率薅美帝资本主义羊毛(确信🤔这可不是一般的羊毛,或者像ibm cloud那样的垃圾羊毛,这可是网速高达300MB/s还有最多50GB全ssd的114514k纯金羊毛,单机配置比我最好的存储vps都高级好多倍,更别说单账号可以同时开五个,理论并行度基本上没有上限(确信🤔当然我的项目得多大才能同时用到几十台github actions runners,一天拖完naughty america?🤔

另外美帝a片实在是撸不起来,欧洲的片子也许我可以考虑,如果有优惠的话我可以买一个月dump下🤔要么我们从czechcasting开始吧?🤔

wiebitte.22.05.01

在我哼哼折腾了基本上一整天后,一个cloudflare stream转discord tube脚本被我撸出来了🤔它播放起来和原版m3u8基本上完全一样,可以自适应分辨率,可以加载字幕,除了没有过期时间:wiebitte:

但在此过程中我还顺便(迫真)实现了另外一个功能,在下载分片文件的过程中顺便(迫真)将视频轨、音频轨和字幕缝合成一个mp4文件,将每个字幕对应的语言也设置好,并将英文设置为默认语言🤔由于视频轨有多个,所以我还生成了多个视频文件,然后就可以加入到xconfessions拖站脚本里了(确信🤔

接下来当我把这套玩意按照惯例移植到github actions里的时候,我也按照惯例感到头疼🤔由于它里面有一个用到aria2c下载的环节,而此处我肯定更想用魔改版aria2c,我发现怎么用相对路径都定位不到那玩意了,最后只能找到它的绝对路径填了进去(恼🤔这当然对它的可移植性造成了阻碍,但我懒的管这么多了,xconfessions开始拖全站了🤔

这玩意很快就vans了,接下来搞什么?metart?这个比xconfession简单多了(确信🤔脚本我前几天就写好了,甚至过了初步的github actions测试,只等想办法列举出全站资源就可以去拖全站了(🤔

当然,目前这套断点续传(确信)系统是我搞rosefile的时候开发的,现在用起来仍然很爽🤔甚至如果我在外边发现它超时了的话,用手机都能继续拖(确信🤔

说实话我现在发现拖片子比打飞机还たま爽🤔xconfessions也不是什么优秀的fap material,反倒是当艺术片看更不错,它现在还上了几个德语、法语和西班牙语的片子,这样它的四国字幕终于有点卵用了(大嘘🤔metart我发现实用性连某个韩国画家的eula chan色图都不如🤔所以我看哪天可以拖naughty america了,那玩意能拿来撸不(恼🤔

但总体来说,拥有真·inserts pornsite name here siterip对我来说更像是吹牛逼用的谈资(确信🤔感谢(迫真)discord drive,我这个第三世界穷逼也能便乘digital porn librarian(迫真)大手子(大嘘🤔

bruhfei

草,今天出门坐班车,发现我最后一排的宝座居然坐满了人(恼🤔既然如此,我坐第一排好了,理论上来说那里风景最好,基本上仅次于司机了(确信🤔我来回坐了几十次都没尝试过第一排,这次我试下体验如何(🤔

再怎么说,我也是两个月没出过门了,就和砂糖酱的某句待机语音一样(恼🤔

当然如果我真的便乘了司机的话,也许我会把相机架在车顶,装一个遥控云台啥的,然后装一个遥控快门,这样我只需要在方向盘上装一个按钮一按下去就能拍照了(确信🤔而且我可能还需要一个可以预览拍照效果的玩意,最好做成抬头显示器甚至智能眼镜的形式🤔

显然现在所有的相机都没法满足我的这些需求(恼🤔更别说我还想用便宜存储,tf卡还不够便宜🤔貌似佳能尼康都可以用普通的nvme ssd魔改成cf express,就索尼事情多,插魔改卡不给开4k录影啥的,估计总有一天我要润佳能(恼🤔当然这是我的下一台相机的事,现在我可以不用管这个🤔

jajaja.22.04.30

至此我已经搞定了那三个站的github actions拖站脚本,而且出于某种申必原因,我都配置成了白嫖vps解析链接,包括xconfessions🤔

但我还做了另外一件事:我动用了另外一份discord drive conf,建立起了单文件discord drive的另外一份副本(确信🤔这样我就可以并行拖两个站了,比如xconfessions和dirtyflix,或者metart和dirtyflix🤔此时它们同时上传文件片段,也不会导致ratelimit(确信🤔

再说了,github actions本身就支持并行,我记得一个号最多可以同时跑五台机子,想要跑更多的话还可以再加几个小号🤔

bruhfei

我发现一件极其尴尬的事情,xconfessions拖下来的视频没有音频轨🤔它那个m3u8里面视频、音频和字幕轨居然是分开的(恼🤔如果想搞出完整视频,估计得分别下载然后合并🤔到时候我再看它是需要先合出完整视频/音频再合并,还是可以在它们仍然是分片的情况下完成合并🤔如果是前者的话discord tube基本上别想了,后者的话它还有戏(🤔

我下载了对应的几个m3u8看了眼,极其尴尬地发现:视频和音频的m3u8时间其实并非完全对应,尽管差别只有可能几十毫秒,但我怀疑强行在分片阶段合并的话,到时候discord tube那边仍然会出现音画不同步的现象(恼🤔其实数量也对应不上(全恼🤔

字幕m3u8也是存在的,打开一看基本上只有一个分片,当然它也没什么可能有多个分片anyway🤔hls视频播放器可以同时接受这三种流并将它们缝合在一起,但我这边可能会比较蛋疼🤔

当然也许我可以选择将它那个m3u8文件里的所有子m3u8流文件里的对应片段全部转存在discord drive里面,将其按照一个整体转存了,播放的时候按照一个整体从discord drive源加载🤔

这样的话,需要我写一个新的脚本了,它的输入是某一个使用了cloudflare stream技术的综合型m3u8文件链接,输出是相同的综合型m3u8文件的discord drive链接,其中里面所有资源,从子m3u8文件到子m3u8文件里面的所有分片文件都保存到discord drive里面(确信🤔