OCR-PIPELINE 方案具有以下优点:其一,能够获取 bounding box 信息、版 式标签信息等,并进行相应处理;其二,模块灵活,可单独做优化;其三,支持 CPU 离线部署,对于垂直场景可研发版式分析的轻量模型;其四,支持扫描版 文档。 然而,该方案也存在缺点:OCR 链路依赖于场景数据,现在大部分是采用目标 检测的方案去做版式划分,导致泛化性较差;另外,精度不高,在版式分析、表 格解析、段落合并等环节均有改进空间;第三,CPU 环境下速度较慢,涉及模 块众多,整体速度较慢。 ...