告别「复制+粘贴」,基于深度学习的OCR,实现PDF转文本
csdh11 2024-12-31 10:26 4 浏览
选自Towardsdatascience
作者:Lucas Soares
机器之心编译
编辑:陈萍
对很多人来说,将 PDF 转换为可编辑的文本是个刚需,却苦于没有简单方法。在本文介绍的项目中,来自 K1 Digital 的高级机器学习工程师 Lucas Soares,尝试使用 OCR(光学字符识别)自动转录 pdf 幻灯片,转录效果还不错。
传统的讲座通常伴随着一组 pdf 幻灯片。一般来说,想要对此类讲座做笔记,需要从 pdf 复制、粘贴很多内容。
最近,来自 K1 Digital 的高级机器学习工程师 Lucas Soares 一直在尝试通过使用 OCR(光学字符识别)自动转录 pdf 幻灯片,以便直接在 markdown 文件中操作它们的内容,从而避免手动复制和粘贴 pdf 内容,实现这一过程的自动化。
项目地址:https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides
为什么不使用传统的 pdf 转文本工具呢?
Lucas Soares 发现传统工具往往会带来更多的问题,需要花时间解决。他曾经尝试使用传统的 Python 软件包,但是遇到了很多问题(例如必须使用复杂的正则表达式模式解析最终输出等),因此决定尝试使用目标检测和 OCR 来解决。
基本过程可分为以下步骤:
- 将 pdf 转换为图片;
- 检测和识别图像中的文本;
- 展示示例输出。
基于深度学习的 OCR 将 pdf 转录为文本
将 pdf 转换为图像
Soares 使用的 pdf 幻灯片来自于 David Silver 的增强学习(参见以下 pdf 幻灯片地址)。使用「pdf2image」包将每张幻灯片转换为 png 图像格式。
地址:https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf
代码如下:
from pdf2image import convert_from_path
from pdf2image.exceptions import (
PDFInfoNotInstalledError,
PDFPageCountError,
PDFSyntaxError
)
pdf_path = "path/to/file/intro_RL_Lecture1.pdf"
images = convert_from_path(pdf_path)
for i, image in enumerate(images):
fname = "image" + str(i) + ".png"
image.save(fname, "PNG")
经过处理后,所有的 pdf 幻灯片都转换成 png 格式的图像:
检测和识别图像中的文本
为了检测和识别 png 图像中的文本,Soares 使用 ocr.pytorch 库中的文本检测器。按照说明下载模型并将模型保存在 checkpoints 文件夹中。
ocr.pytorch 库地址:https://github.com/courao/ocr.pytorch
代码如下:
# adapted from this source: https://github.com/courao/ocr.pytorch
%load_ext autoreload
%autoreload 2
import os
from ocr import ocr
import time
import shutil
import numpy as np
import pathlib
from PIL import Image
from glob import glob
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
import pytesseract
def single_pic_proc(image_file):
image = np.array(Image.open(image_file).convert('RGB'))
result, image_framed = ocr(image)
return result,image_framed
image_files = glob('./input_images/*.*')
result_dir = './output_images_with_boxes/'
# If the output folder exists we will remove it and redo it.
if os.path.exists(result_dir):
shutil.rmtree(result_dir)
os.mkdir(result_dir)
for image_file in sorted(image_files):
result, image_framed = single_pic_proc(image_file) # detecting and recognizing the text
filename = pathlib.Path(image_file).name
output_file = os.path.join(result_dir, image_file.split('/')[-1])
txt_file = os.path.join(result_dir, image_file.split('/')[-1].split('.')[0]+'.txt')
txt_f = open(txt_file, 'w')
Image.fromarray(image_framed).save(output_file)
for key in result:
txt_f.write(result[key][1]+'\n')
txt_f.close()
设置输入和输出文件夹,接着遍历所有输入图像(转换后的 pdf 幻灯片),然后通过 single_pic_proc() 函数运行 OCR 模块中的检测和识别模型,最后将输出保存到输出文件夹。
其中检测继承(inherit)了 Pytorch CTPN 模型,识别继承了 Pytorch CRNN 模型,两者都存在于 OCR 模块中。
示例输出
代码如下:
import cv2 as cv
output_dir = pathlib.Path("./output_images_with_boxes")
# image = cv.imread(str(np.random.choice(list(output_dir.iterdir()),1)[0]))
image = cv.imread(f"{output_dir}/image7.png")
size_reshaped = (int(image.shape[1]),int(image.shape[0]))
image = cv.resize(image, size_reshaped)
cv.imshow("image", image)
cv.waitKey(0)
cv.destroyAllWindows()
下图左为原始 pdf 幻灯片,图右为转录后的输出文本,转录后的准确率非常高。
文本识别输出如下:
filename = f"{output_dir}/image7.txt"
with open(filename, "r") as text:
for line in text.readlines():
print(line.strip("\n"))
通过上述方法,最终你可以得到一个非常强大的工具来转录各种文档,从检测和识别手写笔记到检测和识别照片中的随机文本。拥有自己的 OCR 工具来处理一些文本内容,这比依赖外部软件来转录文档要好的多。
原文链接:https://towardsdatascience.com/faster-notes-with-python-and-deep-learning-b713bbb3c186
相关推荐
- 重温2010年总决赛,黄绿大战,科比真的抢了加索尔FMVP吗
-
2010年NBA总决赛,已经过去了10多年。不过,提起那一年的总决赛,很多球迷还是记忆犹新,在他们心里,这一年的总决赛是21世纪以来最为精彩的一次总决赛。2010年总决赛,凯尔特人和湖人时隔2年再次相...
- 始料未及的屠戮——简述2010世界杯阿根廷德国之战
-
2010年四分之一决赛,德国队以一个令人震惊的比分击败阿根廷,追平连续3届闯进半决赛的纪录,同时创造12次入围4强的新纪录。如果论及世界杯中的冤家球队,英格兰和阿根廷是一对,巴西和法国是一对,阿根廷和...
- 10年总决赛湖人4:3凯尔特人——科比和加索尔每场具体数据
-
以下7图为2009-2010赛季总决赛湖人4:3凯尔特人——科比和加索尔每场具体数据:湖人首发:安德鲁·拜纳姆、保罗·加索尔、梅塔·沃尔德·皮斯(慈世平)、...
- 2020年和2010年的热刺相比,到底提高了多少?
-
虽然本赛季状态并不太好,但近些年托特纳姆热刺在各方面应该说有了很大的进步。按照这个思路,我们来比较一下热刺在2010年和如今的一下数据。联赛位置2009/2010赛季是热刺崛起的开始,他们逐渐成为联赛...
- 2010季后赛詹姆斯VS罗斯 老詹关键三分锁定胜局
-
直播吧6月6日讯2010年季后赛克利夫兰骑士与芝加哥公牛在首轮相遇。整个系列赛,身为当赛季常规赛MVP的詹姆斯场均得到31.8分9.2篮板8.2助攻,而刚进入联盟两年的罗斯亦表现抢眼场均贡献26.8...
- 攻势犀利未翻盘,出线希望变暗淡,韩国不敌加纳离16强远了
-
来源:环球时报【环球时报驻埃及特派记者黄培昭环球时报特约记者李佳寅唐牧茂】北京时间28日晚,韩国队在世界杯H组第二轮比赛中2∶3不敌加纳队,这是两支球队在世界杯赛场上的首次碰面。两支球队此前...
- VC++与MFC入门简介:它们的区别是什么&如何挑选开发组件
-
C++编程入门系列给大家讲了C++的编程入门知识,大家对C++语言在语法和设计思想上应该有了一定的了解了。但是教程中讲的例子只是一个个简单的例程,并没有可视化窗口。在这套VS2010/MFC编程入门教...
- 哪款C语言编译器(IDE)适合初学者?
-
这里我们把“编译器”和“IDE(集成开发环境)”当做一个概念,不再加以区分。C语言的集成开发环境有很多种,尤其是Windows下,多如牛毛,初学者往往不知道该如何选择,本节我们就针对Window...
- 八强硬碰硬 往事涌心头
-
晨报记者孙俊毅北京时间昨天凌晨,随着欧洲杯最后两场1/8决赛结束,八强球队全部产生:上半区的4支球队为瑞士、西班牙、比利时和意大利,下半区的4支球队则是捷克、丹麦、英格兰和乌克兰。1/4决赛将于北京...
- 无缘十四年后顶峰相遇!10年世界杯决赛荷兰vs西班牙,还记得吗?
-
欧洲杯半决赛荷兰队无缘与西班牙顶峰相遇,被英格兰所淘汰。荷兰队2010年世界杯决赛正是和西班牙对决,当时0-1惜败巅峰西班牙。(欢迎大家点点关注,随老相馆一起追忆往昔)...
- (2)初学C++:如何使用Visual Stdio 2010调试C++程序?
-
一、创建解决方案和项目1.打开Vs2010,单击...
- 「连载」 .Net cad二次开发(一)
-
平常都用arx/c++/mfc来进行cad开发,业余时间学习下.net/C#开发,在此做下记录,同时以供大家参考,交流,共同进步。ps:我也是现学的,如果有什么不对的地方可以指出来,在此谢谢大家!!一...
- 今日图集:2010年湖人VS热火圣诞大战
-
詹姆斯撒镁粉科比面对詹姆斯跳投科比防守詹姆斯詹姆斯、丹皮尔、科比韦德飞身上篮科比对抗韦德詹姆斯与阿泰斯特奥多姆与波什...
- Visual Studio 2010(VS)--消消乐定制版?--添加反应计时
-
VisualStudio2010(VS)--消消乐定制版?--添加反应计时上期回顾(上期主要是把原来16格,扩展到了36格的,带18组文字图形的消消乐):本期将给他加一个计时,就是当第一次按下的时...
- 【项目实战】C/C++自制程序:双人击球游戏
-
每天一个编程小项目,提升你的编程能力!游戏说明Player1玩家通过W、S按键控制左板上下移动,Player2玩家通过O、L按键控制右板上下移动。在游戏过程中,小球的速度会随着接触木板的次...
- 一周热门
-
-
一文读懂关于MySQL Datetime字段允许插入0000-00-00无效日期
-
一款全能的看图软件,速度快、功能强、免费用
-
Boston Dynamics Founder to Attend the 2024 T-EDGE Conference
-
IDC机房服务器托管可提供的服务
-
新版腾讯QQ更新Windows 9.9.7、Mac 6.9.25、Linux 3.2.5版本
-
MySQL数据库关于表的一系列操作 mysql 表操作
-
Serv-u 提权
-
一文看懂mysql时间函数now()、current_timestamp() 和sysdate()
-
详解PostgreSQL 如何获取当前日期时间
-
流星蝴蝶剑:76邵氏精华版,强化了流星,消失了蝴蝶
-
- 最近发表
- 标签列表
-
- huaweiupdateextractor (27)
- mysql 时间索引 (31)
- mydisktest_v298 (34)
- sql 日期比较 (26)
- document.appendchild (35)
- 头像打包下载 (61)
- acmecadconverter_8.52绿色版 (39)
- oracle timestamp比较大小 (28)
- word文档批量处理大师破解版 (36)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- 加密与解密第四版pdf (30)
- jemeter官网 (31)
- parsevideo (33)
- 个人网站源码 (37)
- ckeditor4中文文档 (27)
- exe4j_java_home (30)
- centos7.4下载 (33)
- xlsx.full.min.js下载 (32)
- 深度学习 pdf (28)
- mysql 查询今天的数据 (34)
- intouch2014r2sp1永久授权 (36)
- 先锋影音源资2019 (35)
- usb2.0-serial驱动下载 (30)
- vs2010官网 (31)