mjTree Blog

青春是一本太仓促的书,我们含着泪,一边翻一边笑。

提取文档中表格结构

更新于:2024-04-04 14:30 一、简介 在前面的文章当中,介绍了一些深度学习算法的模型,通过模型对文档对进行版面元素识别分类。对于文档中的一些元素(页眉、页脚、标题、段落、图片、脚注等)只需要模型的区域即可,但是Table元素无法只能依靠一个区域就能解决的,我们需要获取表格中的线条信息来构建完整的表格结构。 二、表格类型介绍 表格的基本组成单位是单元格,表格的基本组...

基于算法的通用文档解析实现

更新于:2024-05-18 15:00 一、引言 上图所示,本篇文章主要对第三个处理单元的版面分析进行介绍,在 文档结构化解析 文章中就提到了多种方案,今天主要对《基于算法的通用文档解析实现》进行讨论。 这里所指的算法是深度学习的算法(CV方向),依靠深度学习的训练的模型在”通用”场景下能得到较满意的效果。而通过深度学习训练的模型进行文档版面识别的方法,已经成为当下版面解...

国产ofd文件组成结构

更新于:2024-01-28 16:30 一、关于OFD格式 引用百度百科介绍: OFD(Open Fixed-layout Document) ,是由工业和信息化部软件司牵头中国电子技术标准化研究院成立的版式编写组制定的版式文档国家标准,属于中国的一种自主格式,要打破政府部门和党委机关电子公文格式不统一,以方便地进行电子文档的存储、读取以及编辑 。 2016-10-1...

关于pdf加密

更新于:2024-03-08 16:30 一、关于加密文档 从 PDF V-1.1 版本开始,PDF 文档可以使用各种行业标准方案进行加密,这些方案多年来增加了复杂性和安全性。 此外,PDF 标准还提供了封装第三方加密和安全策略的一般机制。除少数例外情况外,加密适用于文件中的流和字符串,但不加密数字或其他PDF数据类型,也不对整个文件进行加密。因此,文档的对象结构在不需要解密的情况...

浅谈pdf协议码

更新于:2023-12-25 12:00 一、PDF 简介 PDF(Portable Document Format) 是一种广泛使用的文档格式,由 Adobe Systems 开发。它以其可跨平台和保真度高而著称,能够在不同设备和操作系统上保持一致的显示效果。 下面展示 Adobe 的 PDF 版本,具体版本的信息可以参考 维基百科 。 年份 ...

关于ooxml协议的opc

更新于:2023-12-14 12:00,与GPT4共同撰写 一、引言 在现代办公软件中,文档格式的标准化和兼容性是至关重要的。Microsoft Office Open XML (OOXML) 格式自推出以来,已成为文档存储和交换的一个重要标准。OOXML 标准中的一个关键部分是 Open Packaging Conventions (OPC),它定义了一种文件打包的机制,使得文...

python高并发任务处理教程

更新于:2023-12-08 16:30 一、高并发的重要性 在 Python 编程开发时,经常会遇到一些需要并发处理的任务。而高并发任务处理在现代编程中非常重要,特别是在处理大量数据或高性能计算时。Python 通过提供不同类型的执行器来应对不同种类的任务,主要分为I/O密集型和CPU密集型任务。了解这两种任务的处理方式对于编写高效的 Python 程序至关重要。 二、高并发任...

python内存排查工具

更新于:2023-12-07 13:30 一、内存排查背景 python 做为弱语言类型的编程语言,不具备像 java 编程语言的的 JVM 机制,也没有高级 GC 算法。内存溢出、内存泄漏这类问题便成了 python 开发者的痛苦,虽然python服务启动快依靠快速重启解决,但考虑到重启的影响。一般都需要把内存问题定位处理,因此获取运行时态的内存情况便成为重要的排查手段。 py...

使用四色定理处理问题

更新于:2023-12-04 15:30 一、定理介绍 四色定理:是世界近代三大数学难题之一,又称四色猜想、四色问题,是一个著名的数学定理。它对应的四色问题是:如果在平面上划出一些邻接的有限区域,那么可以用四种颜色来给这些区域染色,使得每两个邻接区域染的颜色都不一样。另一个通俗的说法是:每个无外飞地的地图都可 以用不多于四种颜色来染色,而且不会有两个邻接的区域颜色相同。被称...

基于ooxml协议解析office文件

更新于:2023-11-30 13:37 一、OOXML协议 引用 官方网站 的一句话: Office Open XML,也称为 OpenXML 或 OOXML,是一种基于 XML 的办公文档格式,包括文字处理文档、电子表格、演示文稿以及图表、图表、形状和其他图形材料。 该规范由Microsoft开发,并于 2006 年被ECMA International采用为EC...