mjTree Blog

青春是一本太仓促的书,我们含着泪,一边翻一边笑。

基于开源组件实现通用文档解析

更新于:2023-11-28 21:35 一、前提介绍 在实现解析之前,我们需要保证的是前两篇文章已经熟悉并且相关服务已经实现。因为我们针对 word/excel/ppt/pdf 等不同格式等文件解析,都是需要统一转换成 PDF 格式进行解析。在《文档结构化解析》 文章中提供的四种方案也都是基于 PDF 处理的,本篇文章按照第三种方案进行实现。 二、服务流程图 三、开源的P...

自定义文档结构化的数据结构

更新于:2023-11-22 23:30 一、参考资料 参考上篇文章《基于linux的通用格式转换》中提到的微软官方 OfficeVBA 接口文档,仔细看一下能得到很多信息。有 Document、Pane.Pages、HeadersFooters、Field、Shape、Table、InlineShape、OMath、Paragraph、Range、Word、Character 等...

基于linux系统的通用格式转换

更新于:2023-11-21 20:10 一、简介 本章是继 《文档结构化解析》 之后的文章,之所以要先写这篇文章主要是为了引入微软的官方VBA接口开发文档,方便后续文章的概念便于理解,另外该接口后续也是用于 word/excel 解析使用。 本章主要介绍在 Linux 系统以及在 Docker 容器内部运行的一种文档格式转换的服务,因为有了转换服务,就可以将其他格式转换成 PD...

文档结构化解析

更新于:2023-11-17 17:55 一、什么是文档? 文档:一种数据媒体和其上所记录的数据。它具有永久性并可以由人或机器阅读。文档有很多种类型,从格式上进行分类,有常见的 word、excel、ppt、txt、pdf 等,小众格式的 md、html、ofd 以及其他格式等。 二、为什么要文档结构化? 做文档结构化是为了让机器理解文字内容并自动进行处理分析的,进而提高企业的工...

附近的商店

打开美团看看附近店铺有没有好吃,排序按照距离优先,还有附近几公里之内的店铺。想了解这个功能怎么实现的,查了网上资料,得到的常用的算法是geohash和S2。 Geohash https://www.jianshu.com/p/2fd0cf12e5ba https://halfrost.com/go_spatial_search/ https://phrozen.github.io/...

自我介绍

大家好,我叫雪桐,目前从事计算机行业。曾在通信行业的央企做过通信服务业务的相关工作,目前在一家创业公司做文档解析业务的相关工作,后面我会把我所做的工作内容、经验分享到博客中。