×
img

DataFun:2025年大模型驱动下的知识图谱应用解析:实践与案例

发布者:wx****63
2025-07-04
16 MB 161 页
文件列表:
DataFun:2025年大模型驱动下的知识图谱应用解析:实践与案例.pdf
下载文档

OCR-PIPELINE 方案具有以下优点:其一,能够获取 bounding box 信息、版 式标签信息等,并进行相应处理;其二,模块灵活,可单独做优化;其三,支持 CPU 离线部署,对于垂直场景可研发版式分析的轻量模型;其四,支持扫描版 文档。 然而,该方案也存在缺点:OCR 链路依赖于场景数据,现在大部分是采用目标 检测的方案去做版式划分,导致泛化性较差;另外,精度不高,在版式分析、表 格解析、段落合并等环节均有改进空间;第三,CPU 环境下速度较慢,涉及模 块众多,整体速度较慢。 OCR-FREE 方案利用近期开源的 OCR 大模型 olmOCR 和 mistral ORC 等, 端到端地解析出 markdown 格式,为模型做预加工。尽管模型官方宣称效果很 好,但实际测试结果显示欠佳。


加载中...

本文档仅能预览20页

继续阅读请下载文档

网友评论>

开通智库会员享超值特权
专享文档
免费下载
免广告
更多特权
立即开通

发布机构

更多>>