新足迹

 找回密码
 注册

精华好帖回顾

· 用微软家庭(Microsoft Family) 管理家用电脑互联网访问 (2020-7-3) 商务车 · 我看MEL西区ALTONA(仅代表个人观点) (2006-7-1) snowbird
· 公司近全员确诊新冠,分享真实故事。。总结建议更新202 (2021-12-31) 平安2020 · 女儿与中文 (2007-12-18) wangjing_ku
Advertisement
Advertisement
查看: 3114|回复: 12

持分请教:PDF格式都一样,如何批量提取数据,形成Excel表格? [复制链接]

发表于 2022-10-6 17:45 |显示全部楼层
此文章由 am123 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 am123 所有!转贴必须注明作者、出处和本声明,并保持内容完整
经常会有几十上百张的pdf文件,需要我从中选取数据然后填到excel表格当中。当然前提是所有这些pdf表格的格式都是一模一样的.


如果会用vba,当然这个问题就很容易解决了,但是在不会用vba的情况下,有没有什么app是能够帮助我们能够很快的从pdf单中提取数据形成excel表格的?

在google上搜了一下,没有搜到答案,只好来这里求助大家了

分分伺候!

补充内容 (2022-10-13 09:14):
我的意思是,比如,1个PDF文件有100页,每页上有发票时间,金额等信息,我是希望这个APP能够把这100页上的核心信息提取出来,形成一页A4大小的Excel...
Advertisement
Advertisement

2008年度奖章获得者

发表于 2022-10-6 18:01 |显示全部楼层
此文章由 jungle 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jungle 所有!转贴必须注明作者、出处和本声明,并保持内容完整
打开PDF,  CTRAL+ A 然后 CTRL + C

打开EXCEL,  CTRL + V

然后你自己看看能怎么用分列功能把各个数据列分出来,有可能是分隔符,有可能是固定宽度,也有可能根本分不出来,那取决于你原来的PDF文件的情况。

如果在EXCEL里面各个数据列能分出来,那么就再全选上个FILTER,多半就可以把无用的各种行都删掉,
只留下有用数据。

以上方法有大概50%成功率。

发表于 2022-10-6 18:09 来自手机 |显示全部楼层
此文章由 scorpiusd 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 scorpiusd 所有!转贴必须注明作者、出处和本声明,并保持内容完整
买个付费的PDF Editor然后用它转Excel

Time is money,friend

发表于 2022-10-7 23:37 |显示全部楼层
此文章由 Evo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Evo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
jungle 发表于 2022-10-6 18:01
打开PDF,  CTRAL+ A 然后 CTRL + C

打开EXCEL,  CTRL + V

如果原PDF文件是Excel或者Word直接生成的,你说的这种复制粘贴的办法可行。

如果原PDF文件是从扫描生成的,要用PDF或者OCR工具转化后才能复制粘贴。

There Are Three Types of People: Those Who Make Things Happen, Those Who Watch Things Happen, and Those Who Wonder What Happened

发表于 2022-10-8 05:20 来自手机 |显示全部楼层
此文章由 ozkids2011 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozkids2011 所有!转贴必须注明作者、出处和本声明,并保持内容完整
手工做吧,且做且珍惜这个磨洋工的机会

发表于 2022-10-8 05:50 |显示全部楼层
此文章由 shuyuanli 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 shuyuanli 所有!转贴必须注明作者、出处和本声明,并保持内容完整
批量转换pdf to excel可以用 ABBYY Finereader,最强OCR软件之一

如果你的PDF表格本身就是数字格式,那就直接用ADOBE ACROBAT PRO DC生成EXCEL

但是无论用什么软件生成EXCEL,成品格式都很难保持一致,想用VBA批量转换不太容易,最后还是要手工校正的。

需要NAATI三级翻译的请联系我
Advertisement
Advertisement

发表于 2022-10-8 05:56 来自手机 |显示全部楼层
此文章由 xintianyi977 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xintianyi977 所有!转贴必须注明作者、出处和本声明,并保持内容完整
就这样的问题应该很多人都遇到过,虽然我不会,但是我记得PayPal在生成报告的时候会有Excel和PDF选项,楼主的问题应该有答案

发表于 2022-10-8 06:22 来自手机 |显示全部楼层
此文章由 aqldu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 aqldu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 aqldu 于 2022-10-8 07:31 编辑

如果会编程的话,可以
1. 用Java库,把文字提取出来,然后用regx把具体每个域提取。
或者
2. 调aws或者谷歌api
如果不会编程,可以试一下bgl smart doc。
https://doc.com.ai/home.html

评分

参与人数 1积分 +2 收起 理由
am123 + 2 你太有才了

查看全部评分

发表于 2022-10-8 06:24 来自手机 |显示全部楼层
此文章由 吃貨一個 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 吃貨一個 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 吃貨一個 于 2022-10-8 07:29 编辑

有现成的软件,譬如说Teleform,专门干这些事情的,自带OCR。类似的软件可以看https://www.g2.com/products/teleform/competitors/alternatives

发表于 2023-7-21 06:03 来自手机 |显示全部楼层
此文章由 一苇 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 一苇 所有!转贴必须注明作者、出处和本声明,并保持内容完整
可以试试用power query, 选择get data from PDF

发表于 2023-7-21 14:38 |显示全部楼层
此文章由 leyan 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 leyan 所有!转贴必须注明作者、出处和本声明,并保持内容完整

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
Advertisement
Advertisement

发表于 2023-7-21 14:40 |显示全部楼层
此文章由 leyan 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 leyan 所有!转贴必须注明作者、出处和本声明,并保持内容完整
如果PDF 一页里混了文字和表格  那就用EXCEL 自带的
如果本身就都是数字表格  有很多自动转换的网站 搜索PDF TO EXCEL 就有了

发表于 2023-7-22 10:01 来自手机 |显示全部楼层
此文章由 sky3g 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 sky3g 所有!转贴必须注明作者、出处和本声明,并保持内容完整
power query -》get data from folder

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部