好家伙,rosefile还在拖啊,都快20小时了,那个账号居然还没改密码,有意思🤔
看来它那个什么号中号说的4小时只是重新开放购买的时限,但有意思的就是,rosefile的账号系统是这么一坨玩意,另外一个登录的用户会把之前登录的用户直接顶下线,使其打开文件的时候跳转到重新登录页面🤔所以我的rosefile下载脚本每下一个文件会先直接登录一次(还好它不需要验证码,要是像moopan那种我就得寄),获取cookies.txt,然后curl -b
或者aria2c --load-cookies
就vans了(确信🤔所以理论上来说我就算整十几个线程同时雷普它,只要它们别真的同一时间访问下载链接解析api,应该能同时下载文件(确信🤔
rosefile还有一个极其有意思的地方,它们的站长貌似在phpdisk的基础上作了亿点点魔改,几乎所有资源都有一个叫做down-node.com
的镜像站,而访问这个镜像站的链接时,它会302到一个叫做rosenode.sharepoint.com
的域名,很明显他们搞了一个onedrive for business镜像,而down-node.com就像我撸的那群oneindex站一样,只是个解析站而已(确信🤔所以在我的脚本里,rosefile下载文件基本上可以跑到带宽上限,比别的phpdisk站不知高到哪儿去了🤔
话说回来假如rosefile的站长用的是25TB的黑色高级sharepoint sites的话,现在它们这些site的编号已经到了node44,我是不是可以认为它们全站已经有1100TB的数据了?🤔
但onedrive这玩意我们都知道,它会动不动429,我这次就给它加上了之前没有(或者说也许有但不够完善)的fallback功能🤔毕竟它解析出的一堆链接里,第一个是它自己的文件服务器,第二个和第三个是onedrive镜像,那么我完全可以将这几条链接进行一个tac,这样onedrive镜像排最前面,它自己的源排最后,然后外面套个for一个一个一个一个进行下载啊啊啊啊啊🤔考虑到无论下载哪个链接,aria2c里都指定了文件名,所以这三个链接如果都能下的话,剩下两个肯定会被自动跳过(确信🤔而如果前两个onedrive镜像站都429了,那它肯定会去最后一个链接,以30MB/s到50MB/s的速度下文件(确信🤔
综上所述,无论rosefile的onedrive镜像准不准备整什么429烂活,我的脚本114514%能将指定文件下下来,全程不需要任何人工干预(确信🤔现在我基本上可以放心将其塞入任何拖114514个文件的大工程里了🤔
wiebitte
话说我搞了将近一天,它居然还剩四千个帖子?这么算的话不得整十天甚至⑨天?🤔看来我要么就图一乐得了,要么重新研究如何多线程搞这玩意🤔
但就这些可能10%都没有的玩意,就已经有将近2TB了,这已经是我那台机子的最大速度,看来这些玩意的全集想必又(?)是个20TB大小的庞然大物,我这么整的话离拥有0.1PB数据貌似不远了(迫真🤔
thonkbitte
现在已经两天过去了,它还在搞,更离谱的是我的挂机iftop捕捉出4245GB的下载可还行🤔看来我这个大盘鸡处理这些东西的速度大概是一天2TB(确信🤔
那么我们来看现在它处理了多少帖子了?随便整点迫真脚本,可得现在已经处理(也就是状态码被设为1)的帖子数量是2623,而等待处理的帖子数量是1581🤔有意思,这么搞的话再搞个一两天应该能彻底搞完(确信🤔只不过现在我得做下度盘转双盘,等它搞完了再恢复这玩意🤔
lickeqing
一小时后,度盘转双盘也搞完了,现在接着拖rosefile站,三回啊三回(大嘘🤔
简直不可思议,现在貌似应该已经两天半了,我居然还能接着拖🤔这么搞下来,我这几天甚至有可能将其他几个rosefile站也拖一拖了(确信🤔我记得还有一个cosplay片子的,我到时候去看看🤔
需不需要上hetzner租一个vps?我还在调研这种可能性(大嘘🤔理论上来说onedrive可以在ipv6下运行,但guilded我就不清楚了🤔至于github actions我就有点累觉不爱了(悲🤔
paimonthonk
接下来我又折腾了其他几个rosefile站的拖帖子和分析🤔它们和我现在还在拖的那个大差不差,就某些链接的细节可能有亿点点差别,照着改了就vans了(确信🤔
基本上我可以将html和maindb接着保存到某台大盘鸡上,而具体的拖站可以部署到别处,比如我可以去hetzner开几台机子,或者如果现在是去年的话,我会扔到github actions上(确信🤔接下来可以考虑每拖一个帖子就往discord频道发送一次cuttentprogress,里面包含日志和修改后的maindb(确信🤔这样如果某种不可抗力发生了,比如我的github小号又双叒叕被橄榄力,我就能直接开始断点续传(确信🤔
然后我发现了一个极其奇葩的rosefile站,它一个帖子居然有几十个资源🤔这就极其离谱了,我现在整的玩意是以帖子id为单位的,无论是分析还是拖资源,它这么整真的给我整不会了(全恼🤔
现在看来要么我硬着头皮将一个帖子对应的所有资源真的一次性全拖下来(以我的大盘鸡的剩余空间,这个真的可以有),要么我针对它写一个精耕细作的分析函数,比如往maindb或者auxdb里一次插入若干行🤔此时maindb或者auxdb里的postid格式便乘了原来的postid加上一个partno(确信🤔拖站函数需要具备根据maindb里的partno准确定位到需要拖的资源的能力🤔考虑到它一个帖子里的多个资源之间没有任何div分割或者诸如此类的玩意,就是连续的几行文本,我估计这玩意不会好办(悲🤔