mjTree Blog

青春是一本太仓促的书,我们含着泪,一边翻一边笑。

文档结构化场景(版面排序)

更新于:2024-12-17 一、背景 当使用 layout 算法分析出版面区域时,识别的区域如果按从上到下、从左到右排序的话,可能会出现与人类阅读顺序不符的场景。以论文这类多栏文档为例,简单的排序会导致不同列的区域混合在一起,导致提取出来的文本内容出现上下文不对应问题。 因此需要一种版面区域排序算法,将离散的元素区域组织成 行、列、页 的版面结构。保证元素间的文本内容连续。 ...

文档结构化场景(标题与目录)

更新于:2024-12-02 一、引言 在现代文档处理系统中,文档结构化是非常重要的一环,尤其是在处理复杂文档(如学术论文、报告或书籍等)时。文档结构化的核心目标是将文档内容按照一定的层级关系进行归类和标识,以便于后续的处理、索引、检索和展示。标题层级的正确识别是文档结构化中的关键问题之一。然而,传统的基于版面布局(Layout)的方法通常无法准确区分标题元素的层级,导致标题信息的...

SegmentTree数据结构

更新于:2024-11-12 一、引言 在软件开发过程中,许多问题涉及区间(range)查询和区间更新。常见的如区间和查询、区间最小值查询等问题。这些问题要求高效地处理对数组或序列的多个查询和更新操作。在这些问题中,SegmentTree(线段树)是一种非常有效的解决方案。SegmentTree 是一种树形数据结构,它能够在对数时间复杂度内处理区间查询和区间更新,尤其适用于动态变化...

文档解析揭秘:结构化信息提取的技术、挑战与前景

更新于:2024-11-06 本篇文章是翻译 文档解析揭秘:结构化信息提取的技术、挑战与前景 论文。 文档解析揭秘:结构化信息提取的技术、挑战与前景 Qintong Zhang, Victor Shea-Jay Huang, Bin Wang, Junyuan Zhang, Zhengren Wang, Hao Liang, Shawn Wang, Matthieu Lin...

文档结构化场景(非常规文件)

更新于:2024-09-27 09:50 一、引言 由于工作涉及文档结构化的模块,我经常遇到一些不常见的文件和奇怪的协议码文件,这导致原有系统无法提供正确的输出。涉及的格式很多,有 Excel、Word、PDF 和图像等。接下来,我将介绍一些在工作中遇到的非常规文件及其处理方案。 二、非常规文件举例 IMAGE 格式 在图片类型中,很少遇到一些非常规或不常见的文件。在文档结构化中...

文档结构化场景(rag)

更新于:2024-08-27 20:00 一、RAG简介 提到 RAG ,我们需要知道它是什么,做什么的,为什么需要它,以及什么时候用到它?针对这些问题,我们一点一点说明。 RAG是什么,做什么的? RAG(Retrieval Augmented Generation)是一种结合了信息检索和自然语言生成两种方式的混合模型,通过检索外部知识库或数据源,并利用检索到的信息作为上下文,...

前端渲染文件实现

更新于:2024-08-20 14:00 一、业务场景介绍 本篇文件会提到关于 word、excel、pdf 文件如何在前端渲染以及涉及到的编辑功能,但不是多人在线编辑的功能,请注意。关于前端渲染文件的需求与场景,涉及的跨平台访问、实时协作、安全性等等不做讨论,我们主要讨论的和文档结构化的需求关联。在上篇文章提到的文档比对场景中,当后端完成了解析和比对的工作后,如何让前端展示呢? ...

S3的预签名URL

更新于:2024-07-31 20:00 一、概要 默认情况下,所有 Amazon S3 对象都是私有的,只有对象拥有者才具有访问它们的权限。但对象拥有者可以通过创建预签名 URL 与其他人共享对象。预签名 URL 使用安全凭证来授予下载对象的限时权限。可以在浏览器中输入此 URL,或者程序使用此 URL 来下载对象。生成预签名 URL 时,可以设置过期时间来限制其他人对该资源的读...

文档结构化场景(文档比对)

更新于:2024-08-15 16:00 一、业务场景介绍 概念介绍 文本比对又称为文本比较或差异分析,是识别和展示两个文本文件之间差异的过程。这种技术在软件开发(代码审查)、法律文件修订、学术研究等多个领域都有应用,而本节要说的文档比对则是熟悉文本比对的范畴。 背景来源 在日常合同审核和对比工作中,密集的人力校正工作往往耗费大量资源,导致对比效率低下,管理风险较高。随着业务量的...

pdf去水印实现

更新于:2024-06-09 15:00 一、PDF的相关运算符 1. 概述 想要删除 pdf 文件中的水印,就需要了解一些水印在 pdf 中的一些运算符。下面是需要了解的相关知识点概览: 1. PDF页面由一个或多个内容流组成,由页面对象中的 `/Contents` 条目定义,可以通过读写其内容流修改对应页面的内容 2. 页面结构里的 `/Contents` 就是我们用于解析水...