文档结构化解析

Posted by mjTree on November 3, 2023

更新于:2023-11-17 17:55

一、什么是文档?

文档:一种数据媒体和其上所记录的数据。它具有永久性并可以由人或机器阅读。文档有很多种类型,从格式上进行分类,有常见的 word、excel、ppt、txt、pdf 等,小众格式的 md、html、ofd 以及其他格式等。

二、为什么要文档结构化?

做文档结构化是为了让机器理解文字内容并自动进行处理分析的,进而提高企业的工作效率之类的介绍。但是功能终究离不开需求,这里就需要讨论为是否有这类需求,以及这类需求能否养活一家公司,如果不能那么今天我可能就不会写这篇文章了。
文档结构化能处理的常见需求有:文档的表格提取、文档比对、文档抽取等等,但这些属于是比较传统的表面需求,依靠这些很难在国内站稳脚跟。在国内,据我了解目前大多数行业对文档处理需求不是很强烈(或者说购买意愿不强烈)。主要行业对文档处理需求的不多,而且使用少部分人力即可满足企业自身需求。
所以对于文档结构化这个通俗意义上的需求来说,需要对其进行细致性的划分,或者说是垂直领域方面的需求领域。通过在文档结构化的上层增加多种业务,解决一类客户的痛点,便可推广自己的产品。

三、实现文档结构化的方案?

在文档类型中,PDF(Portable Document Format)的格式文档是目前常见且流行的文档。其最主要的优点是移植性高,和操作系统、软硬件无关,大家看到的都是一致的。针对 PDF 格式文件进行解析就成了不二之选,解析 PDF 方案有多种,简单说明几个有价值的方案,有 CV 模型识别、解析 pdf 协议码、单纯写规则、或者前三个方案相互搭配用。

CV模型识别:优点是其自身的通用性,可自己训练模型定制化处理特定类型文档案例,对创业公司后续融资起到一定帮助;缺点就是前期启动耗时较多,需要花费一定的人力物力时间来完成的。
解析pdf协议码:优点是针对常规电子文档的 PDF 效果较好,可通过一些组件(开源/第三方收费)或者自行研究 PDF 协议码对文件进行解析,缺点就是应用面窄,相关行业的文档历史以及新增的大多以扫描件(将纸质的文件扫描到计算机上的一种电子档案)为主。
单纯写规则:和第二种方案相似,优点是更简单上手,通过一些开源组件快速解析电子文档 PDF 基础信息后,按照一定规则完成文档结构化解析,缺点不仅应用面窄,效果可能也不如第二种方案,属于很多初创公司的首选方案。
混合方案:顾名思义,上面方案相互结合取长补短,比较灵活。

考虑到垂直领域(银行/金融)行业的 PDF 文件特殊性,从个人看法觉得 CV模型方案对处理 PDF 格式的解析优先级较高,但是实际需要看客户需求场景通过混合方案处理。

四、文档结构化实现路线

实现路线会在后续文章当中介绍,后续会贴上对应链接。