没想到这个系列已经连载了十天甚至⑨天🤔今天继续折腾什么ocr🤔在装好了套件后我随便找了几个真的合同让ai来处理，在这台连avx都没有的破机子上，处理一页需要一分钟（悲🤔我寻思这么慢的话哪怕我找台普通的内网机器来部署，那它也不会快到哪儿去🤔下一步有可能让它写一个二号方案，那就是用某种vllm直接上传文档进行处理🤔在成熟的c端llm（比如豆包gemini等）里做这个事情很容易，但如果只有api的话，哪怕接入的确实是同款顶级模型，我寻思也不好办，因为c端llm可能做了某种预处理，比如将图片pdf/docx等先拆成了文字和图片，然后再调用api，，，🤔

另外ui也得重做，现在这个agent的迫真ui主要是调试用的，最终用户需要一个类似于其他c端llm的界面，它应该只有一个对话框，然后没了🤔不应该出现像现在这个版本那样的充满整个页面的llm调试日志等窗口和多行文本框，如果有什么中间信息（比如当前获取了xxx份合同，现在正在处理第xx份，进度114/514之类的）或者最终信息需要反馈给用户的话，只能通过类似于llm的文字形式返回🤔

而且这种ui还可以实现别的功能，比如它也像那些c端llm那样，支持上传附件，然后就像nano bannna一样（？），它将这个附件当作合同正文，识别并上传🤔至于现在写的石山代码要不要重构一遍，要拿什么重构，要不要维持这个session，到时候再说🤔

AAAAAAAA

这几天gpt business基本上算是没法用，它要么压根就买不到号，要么买到号然后在激活界面看到令人心肺停止的剩余车位：0，哪怕能兑换workspace也会两三天橄榄，就算没橄榄也会光速用完5h额度（有一说一openALABAMA真的考虑过拿gpt business编程过吗，还是它们真的考虑过，然后结论是逼人开gpt enterprise），而这些批事发生时我就得花不少时间切换auth（全恼🤔

所以我现在将所有玩意切换到了中转api上，某些机子已经写了py脚本用于将指定会话往各种提供商随意切换，另外一些机子没有装py所以我用codex手动切🤔接下来我发现了一件极其生草的事，那个100token美元卖4块钱的消耗token速度居然比2块钱的快很多，前者是19M的token消耗44.7token美元，另外一个是17.8M的token消耗8.9token美元，啊？🤔

而且更草的是，这两个会轮流歇菜，所以我仍然需要时不时切换auth，然后重启vscode插件（全恼🤔但它已经比切workspace快很多力🤔这样迟早有一天我可能需要做个二次中转站，然后集成好几个中转api和gpt business订阅轮询，哪个能用就用哪个，然后向外开放一个api🤔

bruhfei.26.04.09

AAAAAAAA

发表评论取消回复

AAAAAAAA

发表评论 取消回复

发表评论取消回复