defloration.20.05.15

哇,这个破站的东西比我预想的还要多,现在拖到了2016年,由于现在1440p的视频也有了,每年的archive已经高达120GB,onedrive还好,discord drive已经变成了煎熬,毕竟加入了checksum之后以前要是能搞50MB/s的话现在可能只有坑爹的30MB/s甚至20MB/s了🙃

这不,我昨天就已经搞到2014了,今天才勉强把discord drive上传到2014,并勉强推进了两年;现在我的vps可用空间只够我暂存两年了,而我敢肯定的是这250GB的东西要是搞onedrive可能也就是一个晚上的事情,但如果搞discord drive,恐怕一个白天都不够

所以我加了一台新的存储vps来搞剩下的三年半,那个letbox最近搞活动,我上了1TB的存储,2Gbps网络和双核(迫真)CPU最后只要⑨.⑨美元一个月,我去,这简直比我现在用的两台机子加起来还要屌(除了内存有点小

它有多屌我马上就可以体会到了,但首先它不是即时开通的,我还要等某人给我开通🤔

另外我还折腾好了备份图片的脚本,和以前一样先列举出图片链接按照aria2格式写入文件,然后用aria2c批量下载,唯一的区别是需要设置好http headers🙃但我没有开始搞这个,毕竟那是视频搞完后做的事情,我估计等我开始dump图片几分钟到几小时后我的帐号就要被橄榄了,所以我打算先搞完视频再说

为了在我被橄榄之前多搞点图片,我打算迫真研究下社会工程学,比如他们网管啥时候在睡大觉之类的🙃

extras (hakushin

如何只利用bash自带工具处理html?我的意思是像使用了html解析器那样处理html?

比如在defloration脚本里有时候需要获取div级别的信息,比如它的2020和2019系列居然在同一个html页面里面,区分它们的仅仅有<div class="images_block">里的子div里的字符串;那么如何获得这么大一串div里面的所有内容?

其实bash的文本处理基本上是以行为单位的,我们只需让这个层级的div每个占据一行即可,而换行符对于html来说完全没有意义,因为它其实是按照树形来解析的;那么很明显我们可以先删掉原来html里的所有换行符(需要高级sed,但你八成也不需要管这个,直接用代码就可以了,比如sed ':label;N;s/\n/ /;b label'),然后重新插入换行符

重新插入换行符的位置当然是在<div class="images_block"的开头,这样我们基本上可以确保这个级别的div就占据了一行,而在html的角度来看,这样做其实相当于把html树分割成了以这个div为根结点的森林,这样就可以接下来用grep命令挑出我们需要的树或者说div代码块而忽略其他部分

甚至都不用什么复杂的grep,一句“Archive 2019”或者“Latest sets”就足够区分它们了;接下来还可以重复这个过程,通过继续在部分位置插入换行符来将树进行更细的分割,然后接着从森林里用grep挑出需要的树(它肯定有某个特征),直到挑出需要的东西为止,其实就有点像html解析器里的xmlpath,只不过需要写的代码更长而已,偶尔还得插进去几个for循环

这样搞html反正比通过正则表达式强行匹配好玩多了🤔

onedrive antics

某天我上hostloc乱转,然后发现有人在用25TB的sharepoint玩意,我看了下,除了收了几个onedrive账号外,sharepoint还可以连接rclone甚至连接上oneindex;而且sharepoint还有一个好处,哪怕没有25TB,只有1TB(听说这玩意是动态调整大小的,你先想办法塞1TB东西进去再说吧),一个账号可以建立无限个sharepoint站点,这样就拥有无限容量的空间了;不像辣鸡google drive,onedrive的全局管理员都能买到,很多人买来建立子账号或者卖钱或者给人白嫖

首先登进office.com,作为office365迫真学生订阅的一部分,sharepoint应该有显示,不然的话(比如我后面白嫖的几个账号里面居然找不到sharepoint的选项了)可以用https://[sitename].sharepoint.com/_layouts/15/sharepoint.aspx来进入,实在不行可以上api大法:打开graph explorer,授权当前账号后查询https://graph.microsoft.com/v1.0/sites/root/lists就能找到sharepoint的站点名称

然后就有一个create site按钮可以用来创建一个sharepoint站点,创建后就可以在graph explorer里使用https://graph.microsoft.com/v1.0/me/memberOf查询到id了

然后用https://graph.microsoft.com/v1.0/groups/[上一步查询到的id]/drives来查到以b!打头的drive id了,现在就可以在rclone的高级设置里填这个drive id来使用这个sharepoint站点了,或者通过某种设置装备到oneindex上(但我还不知道该装哪儿

ref.
https://www.lizi.tw/soft/6579.html
http://blog.jialezi.net/?post=157

new vps

新vps果然极其奥利给,下东西速度170MB/s,我感觉甚至有点overpower了,以这个速度可能两个小时我就可以结束战斗了🤔

再说了它什么都可以加,连流量都可以加,5TB不够了可以加到10TB,实在是太™爽了,也许我错过了virmach的车,但这车也不错

然而这破玩意尽管下载惊人,但至少discord drive完全不行,都卡成丢人的90Mbps了,它还有nvme ssd加速临时文件处理,我实在是想不出来问题出在哪儿,是cpu限制还是网络限制?反正以这个速度一天都上传不完

而且更坑爹的是尽管2015和2016东西超多,但后面几年都没啥东西,换句话说1TB的这玩意完全就是在浪费钱,我打算等到月末的时候缩了,缩成512或者别的啥,这破玩意还真™是只能做存储的vps,但我存储又完全不用vps,我还不如开四台vultr的100GB实例,反正搞完我就删了

update (hakushin

那个vultr的vps也翻车了,尽管从cloudfront下东西的速度超快,做checksum的速度能上500,但它居然完全连不上discord的服务器🤔有一次它连上了,然而速度也只有300Mbps,我估计这玩意的瓶颈还真在线程数上(假如它能一直连上discord的话

疑似只有LA的vps可以上传discord,NYNJ的不行,话说回来discord不是用的cloudflare吗,为啥还有这种限制?还是vultr的网络太渣?

而我的那台存储vps在另外一次上传中跑出了374Mbps的惊人上传,可能搞不好还真和时段有关,有些时候母鸡上的人少

与此同时主盘也在上传,速度如下

现在的进度是onedrive那边上传到了16年,discord drive上传到了15年,16年应该正在上传,17年上传完毕,19年正在传,18年之前翻车了接下来应该还是用那台新存储vps上传,20年就一点点,估计很快就搞完了

从某种程度上来说我的主存储vps已经可以搞图片了,因为我已经下载了defloration.com上面所有能下下来的视频(那些4k片子一个就要12欧元,我肯定不会去下),而且很快至少它不会被用来处理视频了(另外一台机子可能正在处理视频,但也很快就完了);我看什么时候拖图片最合适,能在我的账号被橄榄之前拖到尽可能多的图片

发表评论