fischlthonk.22.05.21

昨天晚上合并了playboy tv,两行合并后的行数等于去除currentprogress后的行数,也等于最初列表文件的行数,基本上算是搞完了🤔但grep检查时仍然出现了超过一次的匹配🤔

仔细看了下grep结果,它某些链接果然匹配了两遍,但这两个结果来自不同的线程🤔我对此的迫真猜测是它的标题其实不全,它这个玩意貌似标题由系列和系列内的标题两部分构成,我只取了其中一部分,所以导致系列不同但标题相同所以匹配了两次这种现象发生(确信🤔

当然,也有可能是相同的视频在我最初的列表文件里就出现了两遍呢🤔这个我就不清楚了🤔

但我懒得折腾了,再说了vtt我还不清楚啥时候拖呢🤔另外adulttime现在看来只剩下两天时间了,我可真是去たま的(恼🤔

bruh

与此同时我上次买的30块钱电子垃圾也到了,是个东芝的电子垃圾🤔但它看上去不像是5mm硬盘,而且我将型号输进去一查,好家伙,它果然不是5mm,它是7mm(半恼🤔看来下次我买硬盘车之前最好还是从图片里面找到型号查下(🤔

不过盘片貌似只有一个,所以这狗逼玩意还行吧🤔我现在不清楚拿这玩意搞什么,实在不行往里面塞点片子吧(

bruhfei.22.05.20

我原先预计的是这周4天时间拖playboy系列三天时间拖adulttime,到现在进度远远落后预期,playboy plus刚完成整理,而playboy tv还在拖(恼🤔

pbp的替换基本上顺利,除了二次dump仍然产生了一系列缺失currentprogress和资源的链接文件,给替换过程造成了一定困扰🤔修正后它仍然有五个链接需要下第三次,那就下第三次,可以论证我那玩意是可以增量替换的,那就替换三回啊三回(确信🤔

反正替换并合并文件后,拿原始list进行grep查重/查缺,全部都是1,基本上说明生成了符合预期的资源文件,统计出3.6TB资源(确信🤔

pbtv那边就极其坑爹了,由于有的视频几分钟就撸完了有的视频撸20分钟都撸不完,所以三四天过去后,搞完了四个线程,还有四个线程,其中两个还剩60个,一个剩110,而另外一个剩230(恼🤔

既然如此,我只能将那两个60的继续进度了,110的拆分成两个线程,230的拆分成四个线程,这样它也许就搞完了🤔现在仍然有一个线程就是不动,可能得重新跑一次了(全恼🤔

对了,我到今天还没拖vtt🤔另外我仍然可能需要撸一个所有资源metadata之类的玩意,将它们打包到一个大压缩包里面,方便以后我索引和使用这些玩意(确信🤔

bruhboy.22.05.18

草,playboy plus缺的内容有点多,达到了3500个帖子(恼🤔在我一顿迫真分析后,我发现脚本居然跑一半甚至不到一半就停止了,而停止的原因令壬极其哭笑不得,某些链接的标题居然把-放在了最前面,这样绝大多数的linux命令会将其理解为参数,然后直接gg(全恼🤔

而且哪怕我在playboy plus的脚本里面用--来忽略标题里的-,不再将其作为参数来处理,discord drive脚本仍然会被-橄榄(🤔所以最后我决定直接在确定标题的时候再加一次处理,干掉开头的-🤔

然后我需要筛选出来没有下载或者没有被列在discord drive里的链接,我发现278线程怎么列举链接都是全下完的,但统计行数就是对不上(恼🤔绝对是currentprogress文件缺了,搞不好下次我再统计的时候完全不要currentprogress了,烦的批爆,反正我也不需要currentprogress存在才能统计出哪些链接需要重新下(🤔

再说了,和metart或者teamskeet不同,这玩意很难完不成下载,反倒是资源检索不出来或者下载了但上传不到我的discord频道更加常见(确信🤔

但愿playboy tv不要给我搞这么多幺蛾子,这样我也许只需要半天就能修复好playboy plus链接了罢(悲🤔

bruhfei

草,我突然想到一个更加蛋疼的问题,我忘了下vtt(恼🤔这也许不是什么难事,比如我可以再写个脚本将它们一次性下了,多不多线程随便,一个vtt又能占多少体积,估计一个小时就撸完了,然后一次性打包(确信🤔但如果我待会儿发现它每个视频还有图包的话,估计我就要傻眼了(🤔

thonk

无论如何,在11451.4秒后,我搞了一套极其复杂的玩意来排查它哪些文件没有完成下载(确信🤔

首先,我将合并完成的资源文件重新分为了8份,对应当初拖的8个线程🤔但在将其两行合并为一行然后筛选出需要重新下载的链接时,数字总是对应不上(恼🤔一番迫真分析后我得以发现那些分片文件里缺失很多currentprogress和很多资源文件🤔也许我设置currentprogress除了断点续传外还想用来恢复缺失的链接,但既然我现在已经开始上了grep大法,那么没有对应文件的currentprogress不要也罢(🤔

哼哼修复了一番之后,所有数字都能对应上了,两行合并成一行后的文件行数等于去除currentprogress行后的文件行数,基本上意味着源文件的格式是正确的,奇数行是资源而偶数行是对应或者不对应的currentprogress(论证过程略🤔这样,两行合并成一行后,就能用来替换其他文件里的对应行,比如我接下来要做的:

既然我折腾资源补全的目标是折腾出与最初被扔进github actions的列表文件里面的顺序严格对应的奇数行资源偶数行currentprogress的资源文件,那么我直接拿上面的合并后文件按行替换掉列表文件里的对应行,这样的文件不就出来了吗(确信🤔而且我甚至都不用管之前的资源文件顺序有没有对,或者它是否完整,只要我在若干次下载后的确下载完了所有文件,那么几轮替换后我要的资源文件就能生成出来,q. e. d. (论证过程略🤔

合并之后可以再做一次统计,比如统计里面残留的链接个数,和上一步筛选出的需要重新下的文件时候对应🤔统计结果是完全对应的,这说明的确有这么多链接需要重新下(确信🤔

bruh

与此同时playboy tv还在拖,而且一时半会没有搞完的迹象,我只能动用本来用来做测试的⑨号线程来下它们了🤔这玩意写明了用来做测试,但偶尔用来托管下生产环境也不是不行(迫真🤔

fischlthonk

由于⑨号线程只有⑨个discord drive线程,它比剩下八个线程很明显慢很多,四十分钟才能搞定150多个帖子,四小时才能搞定810个帖子(恼🤔那么我还有两个线程大概还剩一千多个帖子,它不得跑到超时?🤔

然而,我发现了大量的帖子需要所谓的playboy vip membership才能解锁,这些帖子大概只能生成几千字节的rar🤔我反正不打算解锁它们,毕竟我买这坑爹玩意只花了1美元还是2美元来着,这狗逼需要再加10美元,谁爱玩玩去,我不玩了(全恼🤔

既然如此,也许在超时之前跑完一千多个帖子会便乘可能,毕竟没有访问权限的帖子真的就字面意义上地秒过了(确信🤔

与此同时playboy tv的拖站也不太乐观,部分视频有几率会触发429错误,这样的话它们会退化到单线程下载,25分钟才能下载完一个视频(恼🤔所以我统计的时候发现了严重的线程不均匀现象,有的线程只剩几十个了,有的线程还剩五百多个,到时候重新分配线程的时候一定会便乘一坨比playboy plus还要屑的翔,更别说我还没拖vtt(🤔

这么下来,我恐怕只有四天时间搞adulttime了(恼🤔也许我需要encore一波,我的意思是搞一张新的信用卡来再嫖一次1美元一周的活动(确信🤔

playboyplus.22.05.17

playboy plus拖起来还行,它尽管某些地方貌似既用了html又用了json,但json内容也绝大多数是html,所以按照html的方法处理就vans了(确信🤔

通过对html的分析,我们可以非常轻松地将视频、图包和图片全部提取出来扔进list,而且如果页面没有视频或者图包的话,list只不过没有这些链接而已,不会出现其他奇怪的东西🤔解析出来的链接没有ip限制,而它本身也没有ip限制,所以根本不用什么c/s模式,直接aria2c -i撸vans🤔

所以,昨天晚上部署之后,它现在已经拖完了1356线程,24线程在第二次拖的时候也光速搞完了🤔现在仍然在搞的是7和8,非常有可能第二次也搞不完,需要拆分🤔它这个资源其实不算多,每个帖子里面经常只有几张甚至一张照片🤔后面的资源倒是有视频,但分辨率连4k都没有,所以哪怕把所有分辨率的视频都保存一遍,它也很难超过1GB(确信🤔

接下来我们搞playboy tv,那玩意可能和playboy plus的详情页非常像,但貌似遍历所有视频可能会便乘一个问题,因为它的每一个视频都是一个系列,直接点开只能看到系列的第一部,还得再遍历一遍(恼🤔

我发现xconfessions居然也在playboy tv里面有视频,不清楚是那个西班牙的xconfession,还是另外一家🤔无论如何,总感觉playboy系列不是用来打飞机的,而是用来欣赏的(确信🤔adulttime才是用来打飞机的🤔

thonkeqing

其实playboy tv也有一个页面叫做episodes,是传统的每页一个视频的分类(确信🤔不过我看了它的极早期页面,发现它也没解决数字排序问题,episode1之后是episode10,然后是episode100,这就非常生草了🤔

playboy tv无论是遍历页还是详情页都没有用到json,详情页也没有评论,一条极其简单的grep就能搞到所有视频的url🤔然而它的下载选项没有1080p的,在线播放选项居然有1080p,而且在线播放的源文件和下载的文件url基本上一毛一样,什么坑爹玩意(半恼🤔

我在拖完(确信)playboy plus之后就马上安排了playboy tv的拖站,单元测试(确信)一次过,直接撸就vans了(确信🤔

回去检查下playboy plus拖完了没有,然后做个统计🤔

bruhfei.22.05.16

昨天我嫌teamskeet下载速度太寄吧慢,准备将其从c/s模式改成本地解析模式🤔改了半天代码之后一跑发现本地解析根本没法搞🤔

原因极其生草,teamskeet的服务器会对任何一台没有cf浏览器验证过的请求ip进行cf浏览器验证,而目前我所知道的过验证方法只有用那台vps开一个ssh tunnel,然后通过那个ssh tunnel上至少一遍teamskeet才能搞🤔这个条件,没有任何远程控制方法的github actions怎么可能实现(全恼🤔

或者我可以试下无头浏览器?如果无头浏览器可以用来过cf浏览器验证,这将是件非常生草的事情,至少github actions的机器性能跑这狗逼玩意是没啥问题的(确信🤔

但无论如何,我现在已经切回c/s模式了,除非这方面我有什么突破(🤔不过至少我现在想起来了,为什么两周前我搞出了c/s模式这种玩意,表面上是用来干brcc的,实际上就是用来干teamskeet的(恼🤔

barbruh

另外我发现线程4一直卡住不输出视频链接的原因居然是某些视频的hls分片大于8MB,草🤔看来接下来我还是直接取消分片功能比较好🤔

thonkeqing

这teamskeet拖得人真nm恼火,我准备开启一些新的projects🤔比如在某申必网站上面,playboy视频站playboy tv正在搞活动,0美元七天,但搞它还能开启图片站playboy plus的1美元八天,就像那天我搞mofos试用意外解锁了babes所有内容一样,只不过这次两个站都是全解锁(确信🤔

当然由于某种申必原因,playboy tv扣费了1美元但没退,所以其实我还是花了2美元🤔接下来我看了下它的offers,居然有一个我一直比较感兴趣的按摩网站nurumassage也有1美元七天活动🤔草,接下来一周我没得闲了,得同时对付三个站(恼🤔

但这几个站事情其实算比较少的,而且playboy以其藏有比metart还要上古的上古收藏而著名,我要是把它全部dump下来了,那可比metart+sexart全拖下来还能吹嘘一番(确信🤔

而nurumassage,它是adulttime网络的一部分,我现在除了它外还解锁了几十个小站的视频,它也不像mofos/teamskeet那样事情多,我现在直接全解锁了(确信🤔极其生草的是它只有年度会员可以解锁下载,但我对其视频streaming的抓包显示,它甚至不屑于使用hls/dash,直接在线播放mp4,而且mp4解析出链接就能直接下,下载后的体积和它的下载预览体积甚至完全一致(确信🤔这限制下载大概限制了寂寞🤔

iiyo!koiyo!一周搞完三个站,写程序+拖完全站,请(吴慈悲

thonk

草,我发现adulttime的metadata极其复杂,貌似请求和响应都是一大坨json(恼🤔而且有的视频用的是mp4,有的视频用的是hls🤔我实在是找不到哪个请求里面包括了视频链接,所以最后用到了firefox的打包所有请求(和对应的响应)为har功能,最后极其生草地在最开始的html里面找到了视频链接🤔那么hls怎么办?🤔

其实只要grep 'window.defaultStateScene',如果结果全是mp4就直接下,如果结果出现了hls就执行下载后传mp4的函数,它并没有音视频分离,所以直接下就vans了🤔

asoulbitte.22.05.15

最近很火(大嘘)的asoul某vtuber揭露行业内幕事件,有114514壬报道过,我就不重复了(确信🤔只不过这个asoul对炎上的回应可真にま生草的:

给10%提成就不算压榨了?wiebitte?asoul的资本家和所有壬脑子是被资本轮奸过114514次了罢(全恼🤔说真的,不会发公告就不要发嘛,就算在那儿迫真控诉司马睿啥都不干就抽掉了50%直播打赏都比这好使(大嘘🤔

等等,asoul的后台是字节蠕动?🤔草,难怪asoul剥削vtuber中之壬能敲骨吸髓到如此程度,一家用先进技术奴役全体人类、自家员工猝死都能掩饰过去的屑公司有什么好说的(全恼🤔按理来说自从vtuber便乘中之壬100%营业之后,中之壬其实比vtuber运营方权力大1145141919810倍,运营方能收个百分之几的佣金就不错了,比如cover株式会社我估计就是这么运作的🤔至于为什么asoul不是这样,而是相反的情况,我暂且蒙在中修特色资本主义里(半恼🤔

说实话我一开始是想着手撸出一个刺杀asoul老板的详细计划的,但看到它后台是字节蠕动之后,事情便得困难很多了(恼🤔我一般来说不是联帝反修壬,但此时我也有若干微秒的时间想联帝反修一次了,比如美帝再制裁一次tiktok吼不吼啊?🤔草,原来我也事一个一个一个一个加速壬啊啊啊啊啊(全恼🤔

但无论如何,这次事件再怎样,也算是有点正面作用的(迫真),比如以某个中之壬的悲惨(确信)遭遇,再一次向一般通过二刺螈揭露了vtuber这种商业模式是如何的反人类(如果真的是一般通过而非魔怔vtuber壬的话,很难不对相关中之壬的遭遇表示同情,并以中修朴素的反资文化氛围,开始厌弃它的对立面,也就是asoul和字节蠕动的资本家势力,以及vtuber这种玩意🤔

接下来非常有可能发生的不是asoul的老板或者字节蠕动的老板和它们的全家被吊路灯(顺便一提,如果中修现在真的已经便乘cyberpunk2022了的话,的确有壬需要像johnny手银一样提着小型核弹nuke掉字节蠕动/X度/X讯/X里四选一,或者用四颗小型核弹把它们分别nuke一遍,或者我建议你们暂且放过X里罢,不然你们上哪儿买服务器硬盘车,暗网吗(半恼),而是越来越少的壬会去看vtuber以及给它们打钱,这将从根本上橄榄vtuber剥削广大二刺螈incel的王道征途(确信🤔所以asoul啊,恁也和cover株式会社一样,事本世纪20年代二刺螈帝国主义最薄弱的一环啊啊啊啊啊(意味深🤔

或者它现在已经开始发生了:

没关系,20年代还剩七年半,大概还够你们这些死🐴玩意再翻上个六七次车,自裁,请(吴慈悲🤔搞不好vtuber这种屑商业模式,根本活不到2030也说不定呢(🤔2030搞不好有更顶的娱乐产品,比如全ai合成语音的二刺螈萌妹,完全不需要真壬配音的那种🤔每个壬都有智能二刺螈waifu,而且还要开源🤔

thonkeqing

当然,作为精神fsf壬和it反帝乐子壬,我觉得和反vtuber乐子壬的联合(迫真)还是挺有必要搞的,毕竟我们的敌人是it帝国主义,他们的敌人是二刺螈帝国主义,那么当it帝国主义和二刺螈帝国主义开始交配的时候,比如asoul的后台居然(大嘘)是字节蠕动,理论上来说我们就有共同的敌人(确信🤔其实我也极其讨厌整个vtuber业界和二刺螈帝国主义,所以我本来就是双料乐子壬(确信🤔

yajuubitte.22.05.14

这是今年第二个野兽节(确信🤔X都在下雨,而我在室内居然读出了比室外还高两倍的pm2.5,这足以说明我的某些邻居是多么的死🐴(恼

当然,我现在除了睡觉外很少在这鬼地方待了,而我不在的时候,只能用抽油烟机来强行通风(全恼🤔

babesbitte.22.05.12

昨天和今天的babes拖站基本上比较顺利,除了它的凭据貌似极易失效,大概每两小时到三小时失效一次(恼🤔但至少,我可以同时用8个ip拖它们,而不用像那个司马brcc一样担心经常换ip会橄榄我的账号🤔无论如何,有json的pornsite就是好拖,不像内容全在html里的低级网站(大嘘🤔至于凭据失效后生成的一大堆空文件,我大可直接忽略它们,然后用最后一个好文件伴随生成的currentprogress来重新开启github actions线程(确信🤔

另外一方面,在我对完成的文件查缺的过程中发现它的文件数量居然比应该有的数量多,这可真是太にま生草了,查缺直接便乘查重(半恼🤔那么,我用grep -c的方式查,也许我在指望看到一个0,但我只看到了1和2🤔既然如此,我得写个算法(迫真)去重,但无论如何我至少不用再和mofos打交道了(确信🤔

既然如此,接下来我们搞哪个站?naughty america?🤔

bruhfei

我对naughty america进行了一番迫真分析,发现它又改版了,而且这次改成了下载什么都需要来一遍验证码,麻烦程度仅次于xconfessions(恼🤔更坑爹的是它没有任何json,所有信息都扔进html里面,这样的话像mofos那样在json里面泄漏视频链接啥的也别指望了(全恼🤔

所以,哪怕我有114514美元我也不会去拖naughty america了,更别说我没有(🤔那么接下来还有什么站可以拖?czech casting?🤔还是接着搞完teamskeet?🤔

thonkeqing

所以我接着分析teamskeet去了,上次我只实现了单个链接的转discord tube和转mp4,但如何遍历链接我还没搞🤔这次我来看它的链接列表,此时它居然用到了json,但极其生草的是它大概只有前面一部分长得像json,后面基本上是纯html,然后np++的json解析器直接摆烂(全恼🤔所以此时还是得用分析html的方法,或者我一般来说懒得关心它用的是html还是json,毕竟它们都得用grep给正则了(确信🤔但what if我哪天开窍(迫真)了准备给github actions装上jq?🤔

barbruh.22.05.11

昨天晚上sexart的拖站还剩478三个线程,今天将它们挂上去之后一个小时都没有出结果(恼🤔

去掉sexart脚本的日志记录之后,我发现它居然一直在向discord drive上传文件,却一个返回的链接都没看到🤔那基本上就意味着它一直在重试上传最初的几个片段,至少我的discord drive代码是这么写的🤔

所以,破天荒的discord drive出现了问题(半恼🤔我将这个discord drive脚本下到本地,开启返回消息的显示,然后我发现discord返回了这么一条玩意:

{"message": "Invalid request origin", "code": 50067}

有意思,是不是我之前在discord drive上传discord的函数里留着一条-H 'Origin: https://discord.com' \所致?🤔把这条删掉后discord drive恢复了正常,而我拖sexart的那几个线程也陆续返回了结果🤔这可真是太乌龙了(🤔

thonk

另外一方面,之前搞的截图8GB档现在也可以开始上传了🤔我现在只要压缩出截图就开始做8GB档,并立即挪到某个6TB矿渣里面🤔现在它还剩个737GB,大概还能整个五六次(确信🤔

thonkeqing

我最后折腾出了一系列bash脚本,用来在那几个metart系网站的discord drive链接文件里找出大小异常的文件、以这些文件为线索构造需要重新下载的链接,最后再用重新下载好的正确文件链接替换掉原链接文件里大小异常的文件链接(还有它们对应的currentprogress🤔生草的是这玩意撸一遍之后还能检测出大小异常的文件,需要再撸一遍(恼🤔当然我现在设置的大小异常的标准是1到6位数,换句话说比1MB小的文件肯定能查出来,至于比1MB大的文件里面有没有其实没下完的文件,就不好说了(恼🤔

mofosthonk

草,mofos和teamskeet一样,也是下载权限得另外解锁(恼🤔但生草的是我用1美元搞到了mofos的试用权限后居然用另外1美元搞到了它的另外一个站babes的完整权限🤔尽管我仍然不能下视频,但我居然可以看它的所有视频,这可真有意思🤔而且更有意思的是这玩意的价格是每周1美元,一个月4美元,从某种程度上说比metart还要便宜(迫真🤔

看来,是时候使用我的那啥转discord tube脚本来搞这些片子了🤔先看下它用的是不是cloudflare stream🤔

bruhfei

在我迫真研究了一番它的api后,我发现了一个好消息和一个坏消息🤔好消息是它其实提供了下载链接,只不过没有在网页里显示而已🤔是不是有点像某个申必在线教育网站呢?它也是将完整版链接藏在了json里面,如果我没记错的话🤔,坏消息是它需要验证ip(恼🤔

看来,这玩意要是用github actions的话还是有点风险的(🤔

但这个json api貌似换各种ip来访问都不会有什么问题,所以也许我可以通过将解析代码写进github actions拖站脚本的方式来多线程搞它(确信🤔

wiebitte

当然,我还是在一顿魔改后把它的在线hls视频转discord drive的脚本也撸出来了,这样也许我可以实现像xconfession那样的自适应discord tube,来略微提升下这狗逼玩意的使用体验,毕竟对着一堆discord drive链接我也撸不出来(恼🤔

问题是它的某些视频片段动不动429,而且我重试了十几遍依然如此,看来这玩意基本上不是重试可以解决的了,いいよ!来いよ!我懒得折腾discord tube了,直接下视频罢(恼🤔

我突然在想现在有什么好办法二次加工一下我拖下来的这么多片子了(🤔其实如果我能搞到一大堆白嫖discord nitro的话,情况也许能好很多,比如我再像去年一样搞一个充满了nitro webhook的聊天室,或者好几个,然后开始动用github actions的机子进行discord tube转换(🤔

bruhfei.22.05.09

昨天晚上装的机子只是个最小系统,今天还需要装上别的玩意🤔

11451.4秒之后,剩下的几个组件也陆续装进去了,声卡用矿龙的pcie线引了出来,甚至还插上了大概两年没插过的子卡,硬盘和蓝光刻录机也全部接了上去,网卡天线也接上了,现在这台机子可以正常用了🤔

尽管它现在打游戏啥的不会导致断电或者固态掉线等问题,但我发现它现在有几率出现数据损坏(恼🤔比如我的firefox历史记录文件就坏过一次,而服务器管理器需要的xml文件也坏过一次,还有什么文件坏了我也不清楚(🤔这可真にま蛋疼🤔

另外我发现sexart的视频链接里面既有视频又有图包zip,看来我不能直接拿着metart的代码搞,得加点东西🤔

但至少我不到两小时就搞完了它的所有图片,而且至少看上去像是一次性搞完了的样子(确信🤔那么,我可以让它挂着下视频,然后出去转了(确信🤔

bruh

我出去转的时候发现了一个问题,某些视频下载之后生成的文件只有几百字节🤔回去后看了下log,发现它请求那个白嫖vps一分钟都没有响应,超时了🤔那么我估计白嫖vps那边也出现了超时,而且更有意思的是它下载下来的metadata上面写着timeout,服务器签名写着nginx,但我的白嫖vps上面装的是apache🤔所以,很明显是他们那边出了问题(恼🤔

无论如何,我在白嫖vps的脚本里curl相关命令加入了超时重试选项,就像我在discord备份脚本里那样🤔那个脚本也出现了卡住几十秒的问题,其实加一个2秒算超时重试114514次就能解决问题(确信🤔

当然,我在之前拖的metart资源列表文件里也发现了一些只有几百字节的文件,而且只有可能是几百字节而非其他大小,有意思🤔到时候这种资源肯定得重新下载,但如何替换掉原来资源列表文件里的项,还真是一个问题(恼🤔