没想到这个系列已经连载了十天甚至⑨天🤔今天继续折腾什么ocr🤔在装好了套件后我随便找了几个真的合同让ai来处理,在这台连avx都没有的破机子上,处理一页需要一分钟(悲🤔我寻思这么慢的话哪怕我找台普通的内网机器来部署,那它也不会快到哪儿去🤔下一步有可能让它写一个二号方案,那就是用某种vllm直接上传文档进行处理🤔在成熟的c端llm(比如豆包gemini等)里做这个事情很容易,但如果只有api的话,哪怕接入的确实是同款顶级模型,我寻思也不好办,因为c端llm可能做了某种预处理,比如将图片pdf/docx等先拆成了文字和图片,然后再调用api,,,🤔
另外ui也得重做,现在这个agent的迫真ui主要是调试用的,最终用户需要一个类似于其他c端llm的界面,它应该只有一个对话框,然后没了🤔不应该出现像现在这个版本那样的充满整个页面的llm调试日志等窗口和多行文本框,如果有什么中间信息(比如当前获取了xxx份合同,现在正在处理第xx份,进度114/514之类的)或者最终信息需要反馈给用户的话,只能通过类似于llm的文字形式返回🤔
而且这种ui还可以实现别的功能,比如它也像那些c端llm那样,支持上传附件,然后就像nano bannna一样(?),它将这个附件当作合同正文,识别并上传🤔至于现在写的石山代码要不要重构一遍,要拿什么重构,要不要维持这个session,到时候再说🤔
AAAAAAAA
这几天gpt business基本上算是没法用,它要么压根就买不到号,要么买到号然后在激活界面看到令人心 肺 停 止的剩余车位:0,哪怕能兑换workspace也会两三天橄榄,就算没橄榄也会光速用完5h额度(有一说一openALABAMA真的考虑过拿gpt business编程过吗,还是它们真的考虑过,然后结论是逼人开gpt enterprise),而这些批事发生时我就得花不少时间切换auth(全恼🤔
所以我现在将所有玩意切换到了中转api上,某些机子已经写了py脚本用于将指定会话往各种提供商随意切换,另外一些机子没有装py所以我用codex手动切🤔接下来我发现了一件极其生草的事,那个100token美元卖4块钱的消耗token速度居然比2块钱的快很多,前者是19M的token消耗44.7token美元,另外一个是17.8M的token消耗8.9token美元,啊?🤔
而且更草的是,这两个会轮流歇菜,所以我仍然需要时不时切换auth,然后重启vscode插件(全恼🤔但它已经比切workspace快很多力🤔这样迟早有一天我可能需要做个二次中转站,然后集成好几个中转api和gpt business订阅轮询,哪个能用就用哪个,然后向外开放一个api🤔