rosebitte.23.01.15

好家伙,rosefile还在拖啊,都快20小时了,那个账号居然还没改密码,有意思🤔

看来它那个什么号中号说的4小时只是重新开放购买的时限,但有意思的就是,rosefile的账号系统是这么一坨玩意,另外一个登录的用户会把之前登录的用户直接顶下线,使其打开文件的时候跳转到重新登录页面🤔所以我的rosefile下载脚本每下一个文件会先直接登录一次(还好它不需要验证码,要是像moopan那种我就得寄),获取cookies.txt,然后curl -b或者aria2c --load-cookies就vans了(确信🤔所以理论上来说我就算整十几个线程同时雷普它,只要它们别真的同一时间访问下载链接解析api,应该能同时下载文件(确信🤔

rosefile还有一个极其有意思的地方,它们的站长貌似在phpdisk的基础上作了亿点点魔改,几乎所有资源都有一个叫做down-node.com的镜像站,而访问这个镜像站的链接时,它会302到一个叫做rosenode.sharepoint.com的域名,很明显他们搞了一个onedrive for business镜像,而down-node.com就像我撸的那群oneindex站一样,只是个解析站而已(确信🤔所以在我的脚本里,rosefile下载文件基本上可以跑到带宽上限,比别的phpdisk站不知高到哪儿去了🤔

话说回来假如rosefile的站长用的是25TB的黑色高级sharepoint sites的话,现在它们这些site的编号已经到了node44,我是不是可以认为它们全站已经有1100TB的数据了?🤔

但onedrive这玩意我们都知道,它会动不动429,我这次就给它加上了之前没有的fallback功能🤔毕竟它解析出的一堆链接里,第一个是它自己的文件服务器,第二个和第三个是onedrive镜像,那么我完全可以将这几条链接进行一个tac,这样onedrive镜像排最前面,它自己的源排最后,然后外面套个for一个一个一个一个进行下载啊啊啊啊啊🤔考虑到无论下载哪个链接,aria2c里都指定了文件名,所以这三个链接如果都能下的话,剩下两个肯定会被自动跳过(确信🤔而如果前两个onedrive镜像站都429了,那它肯定会去最后一个链接,以30MB/s到50MB/s的速度下文件(确信🤔

综上所述,无论rosefile的onedrive镜像准不准备整什么429烂活,我的脚本114514%能将指定文件下下来,全程不需要任何人工干预(确信🤔现在我基本上可以放心将其塞入任何拖114514个文件的大工程里了🤔

wiebitte

话说我搞了将近一天,它居然还剩四千个帖子?这么算的话不得整十天甚至⑨天?🤔看来我要么就图一乐得了,要么重新研究如何多线程搞这玩意🤔

但就这些可能10%都没有的玩意,就已经有将近2TB了,这已经是我那台机子的最大速度,看来这些玩意的全集想必又(?)是个20TB大小的庞然大物,我这么整的话离拥有0.1PB数据貌似不远了(迫真🤔

thonkbitte

现在已经两天过去了,它还在搞,更离谱的是我的挂机iftop捕捉出4245GB的下载可还行🤔看来我这个大盘鸡处理这些东西的速度大概是一天2TB(确信🤔

那么我们来看现在它处理了多少帖子了?随便整点迫真脚本,可得现在已经处理(也就是状态码被设为1)的帖子数量是2623,而等待处理的帖子数量是1581🤔有意思,这么搞的话再搞个一两天应该能彻底搞完(确信🤔只不过现在我得做下度盘转双盘,等它搞完了再恢复这玩意🤔

lickeqing

一小时后,度盘转双盘也搞完了,现在接着拖rosefile站,三回啊三回(大嘘🤔

简直不可思议,现在貌似应该已经两天半了,我居然还能接着拖🤔这么搞下来,我这几天甚至有可能将其他几个rosefile站也拖一拖了(确信🤔我记得还有一个cosplay片子的,我到时候去看看🤔

需不需要上hetzner租一个vps?我还在调研这种可能性(大嘘🤔理论上来说onedrive可以在ipv6下运行,但guilded我就不清楚了🤔至于github actions我就有点累觉不爱了(悲🤔

paimonthonk

接下来我又折腾了其他几个rosefile站的拖帖子和分析🤔它们和我现在还在拖的那个大差不差,就某些链接的细节可能有亿点点差别,照着改了就vans了(确信🤔

基本上我可以将html和maindb接着保存到某台大盘鸡上,而具体的拖站可以部署到别处,比如我可以去hetzner开几台机子,或者如果现在是去年的话,我会扔到github actions上(确信🤔接下来可以考虑每拖一个帖子就往discord频道发送一次cuttentprogress,里面包含日志和修改后的maindb(确信🤔这样如果某种不可抗力发生了,比如我的github小号又双叒叕被橄榄力,我就能直接开始断点续传(确信🤔

然后我发现了一个极其奇葩的rosefile站,它一个帖子居然有几十个资源🤔这就极其离谱了,我现在整的玩意是以帖子id为单位的,无论是分析还是拖资源,它这么整真的给我整不会了(全恼🤔

现在看来要么我硬着头皮将一个帖子对应的所有资源真的一次性全拖下来(以我的大盘鸡的剩余空间,这个真的可以有),要么我针对它写一个精耕细作的分析函数,比如往maindb或者auxdb里一次插入若干行🤔此时maindb或者auxdb里的postid格式便乘了原来的postid加上一个partno(确信🤔拖站函数需要具备根据maindb里的partno准确定位到需要拖的资源的能力🤔考虑到它一个帖子里的多个资源之间没有任何div分割或者诸如此类的玩意,就是连续的几行文本,我估计这玩意不会好办(悲🤔

rosethonk.23.01.14

今天是一个一个一个一个野兽节啊啊啊啊啊(半恼🤔既然如此,我们来搞点野兽antics,比如再拖一次某rosefile站🤔

其实去年年初我就拖过它(的一部分),但那时我并没有系统性地拖它🤔为了实现所谓系统性的拖站,我肯定需要先将其每个帖子的html(包括所有metadata)都存放在本地,就像我若干年前搞ddg那样🤔一个aria2c就能批量搞定,而且不像ddg,这玩意貌似没装什么乱七八糟的服务器安全狗,可以直接aria2c雷普(确信🤔

接下来对这些html进行迫真分析🤔和以前不同,我这次用了一个迫真文件数据库来保存各种数据,说是数据库,其实只不过是一个类似csv那样的文本文件,只不过我喜欢用|而非逗号来分割列🤔它的第一列是post id,第二列是状态,0表示这个post可以拖,1表示拖完了,别的状态表示别的情况(比如post里面并没有rosefile链接或者别的🤔每次分析时遍历所有之前保存的(以post id为名的)本地html,再一个一个一个一个和maindb文件进行grep,如果grep出了的话说明它已经出现在maindb里面,不用添加了🤔不然的话做一个简单的链接分析,grep出链接就添加进maindb,并且挖掘一下它的标题和解压密码,并保保存到auxdb里🤔挖掘不出链接的话也添加进maindb,但状态码就不是0了🤔

在处理阶段,它会直接一次性for循环整个maindb,在循环内部检查状态码,如果是0的话就开搞,使用rosefile函数下载post里面的所有链接到post id为名的文件夹里,把html也拷进去,接下来直接跑guilded drive🤔最后生成的链接可以在results.txt里面grep,选取最后一条,并修改maindb的对应行,使其状态码便乘1,并插进去guilded drive信息🤔

就这样,我可以实现这玩意的长期断点续传,并在它每天都要更新114514个视频的情况下随时跑一发,将其上面能下载的东西全下载并重新上传到guilded drive上(确信🤔

psuthonk

草,impact个cuties直接唐突断电,做个图像处理(迫真)也能有一两个文件checksum对不上🤔以我114514年的迫真经验,这十成甚至⑨成是电源的问题,外加这个破电源每天impact cuties时都在浪叫,实在是受不了,早就想换了(恼🤔

我这次打算上个80plus钛金的电源,因为我可以迫真论证,能量转换效率越高,用来浪叫的能量就越少,也许浪叫声就会越小(大嘘🤔

找了半天最后确定了两款,evga的850t2和海盗船的ax850🤔1000W的都贵得离谱,尤其是我想要的钛金这个级别,所以我只能退而求其次买个850W的了(悲🤔

接下来我看上了一款400块钱的ax850,付款发货啥的都谈好了,然后我发现了两个致命问题:

  1. 海盗船有两种ax850,一个是金牌,一个是钛金,而且极其离谱的是它们都叫做ax850,这真是离谱たま给离谱开门🤔而多方面对比(包括铭牌和模组接口布局),我发现我买的是金牌ax850(恼🤔

  2. 那个狗逼卖家送的模组线里没有ide线,而我找了114514个模组线卖家没一个能正常发货的(恼🤔没ide线我用じば驱动我那几块sas硬盘啊(全恼🤔退114514步讲,我买个400块钱的电源居然还要再花25买条线,怎么想怎么离谱🤔

所以最后我只能退了,又得从头开始(全恼🤔再回头一看,钛金ax850可不是五六百就能买到的,至少得750🤔看来我只能去看下evga的电源了(半恼🤔

联系了好几个都没搭理我可还行🤔

barbruh

我还想把现在用的显卡也换掉🤔好家伙,现在6900xt貌似涨了,我上次看的时候只有3000,现在又涨到了均价4000,3000左右只能买到一款联想oem猴版🤔

猴版就猴版,反正我这段时间以及之后很长的时间都只用它来impact cuties,我估计如果是6900xt的话impact cuties能占用60%的gpu就很了不起了(确信🤔

它还有一个叫做蓝宝石毒药的顶级非公,双槽风冷+360冷排水冷,大概相当于n卡里的evga kingpin(大嘘🤔这玩意最便宜的也得4500,尽管只(迫真)比均价多了500,但问题是6900xt我只做过渡卡用,以后有条件了恐怕要升级什么4090+5k显示器,所以我不是很想在6900xt上花太多钱,至少不想到什么4500这个级别🤔再说了,剩下1000块钱干什么不好,买个硬盘都能买16TB到18TB的,当然如果是0034垃圾的话不清楚能买几块🤔

但话又说回来,我要是只impact cuties的话,买个1080ti也能随便impact,它只需要一千甚至⑨00(确信🤔问题是我既然要花钱买新显卡了,那我肯定想让room girl也能4k流畅运行,或者至少给我上到45fps,1080ti肯定是做不到这款优化极差的游戏4k流畅的,所以还是想办法撸个6900xt⑧🤔~或者实在不成我先去zodgame上找找这玩意的整合包?看更新之后是不是优化好些了🤔~

AYAYA

在我哼哼沟通了114514个卖家之后,显卡和电源都确定下来了,显卡是那个3300的联想猴版6900xt,电源是个514.19的850t2,这价格实在是太臭了,臭 源(半恼🤔

搞了半天那个显卡卖家一回到家就喝了一天的酒,但在我观看了一顿商品留言时,我至少确定他回家时把卡带身上了(确信🤔而且既然我发现了潜在的竞争者,我现在不先买下来难道等明天那玩意被别人买下了,我再去花3500从卡贩子甚至矿蛆那里买?开什么じば玩笑(恼🤔我对这玩意的价格预期就是3000,这300块钱就算我大意了没有前几个月买的代价(迫真🤔

至于850W电源能不能用来驱动6900xt,我看的情况是毒药也只(迫真)需要一个850W电源,我这玩意肯定频率远远不如毒药,甚至不如amd公版,搞不好850W电源还能跑在它的50%负载状态(确信🤔

当然目前还有两个小问题,我要是换a卡的话geforce experience很明显我是想都别想用了,那么我要是想录屏的话就得找amd那边的工具,或者用第三方🤔截图应该还是fraps,反正到时候再说就是了🤔

还有一个问题是parsec是否支持a卡串流,h265编码之类的🤔话说parsec如果只支持n卡和intel核显的话就太にま离谱了(🤔