百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术教程 > 正文

用于处理 PDF 文档的开放源码 Java 工具

csdh11 2025-01-10 12:44 3 浏览


哈喽,我是老鱼,一名致力于在技术道路上的终身学习者、实践者、分享者!

该项目允许创建新的 PDF 文档、对现有文档进行操作以及从文档中提取内容。PDFBox 还包括几个命令行实用程序。PDFBox 是在 Apache 2.0 版许可下发布的。


默认构建将编译 Java 源代码并打包二进制文件 类到JAR 包中。请参阅 Maven 文档了解所有 其他可用的构建选

添加依赖:

<dependency>
  <groupId>org.apache.pdfbox</groupId>
  <artifactId>pdfbox</artifactId>
  <version>2.0.27</version>
</dependency>

功能:

提取文本:从 PDF 文件中提取 Unicode 文本。


拆分和合并:将单个 PDF 拆分为多个文件或合并多个 PDF 文件。

填写表格:从 PDF 表单中提取数据或填写 PDF 表单。

印前检查:根据 PDF/A-1b 标准验证 PDF 文件。

打印:使用标准 Java 打印 API 打印 PDF 文件。

另存为图像:将 PDF 另存为图像文件,如 PNG 或 JPEG。

创建文档:使用嵌入的字体和图像从头开始创建 PDF。

签署:对 PDF 文件进行数字签名。

将 PDFBox 与 Java 8 1.8.0_191 之前版本或 Java 9 9.0.4 之前版本一起使用时的重要注意事项

由于java色彩管理模块向“LittleCMS”方向的转变,用户在色彩操作中可能会遇到性能下降的情况。一种解决方案是通过以下方式禁用 LittleCMS,转而使用旧的 KCMS(柯达色彩管理系统):

  • 以或开头-Dsun.java2d.cmm=sun.java2d.cmm.kcms.KcmsServiceProvider
  • System.setProperty("sun.java2d.cmm", "sun.java2d.cmm.kcms.KcmsServiceProvider")

来源:https://bugs.openjdk.java.net/browse/JDK-8041125


自 PDFBox 2.0.4 起


PDFBox 2.0.4 引入了新的命令行设置

-Dorg.apache.pdfbox.rendering.UsePureJavaCMYKConversion=true

相关推荐

JNDI注入详解

JNDI简介JNDI是java命名与目录接口(javaNamingandDirectoryInterface),在J2EE规范中是重要的规范之一。通过调用JNDI的API应用程序可以定位资源和...

Java 近期新闻:Hibernate 6.0、JobRunr 5.0、JHipster 7.8.0

本期Java近期新闻综述内容涉及JDK19、SpringBoot、SpringCVEs、ApacheTomcat点版本、QuarkusToolsforVisualStudio...

2023年200多道Java基础面试题

最近有很多人后台问我,有什么方法能够快速提升自己,通过阿里、腾讯、字节跳动、京东等互联网大厂的面试,我觉得短时间提升自己最快的手段就是背面试题,最近总结了Java常用的面试题,分享给大家,希望大家都能...

完全零基础入门Fastjson系列漏洞

一、前置知识1.fastjson怎么用?fastjson是啥百度就有,看了之后不熟悉的人还是会一脸懵逼,我们可以通过以下这个小例子来快速学会使用...

解密阿里线上问题诊断工具Arthas和jvm-sandbox

大纲目录这篇文章是之前学习Arthas和jvm-sandbox的一些心得和总结,希望能帮助到大家。本文字较多,可以根据目录进行对应的阅读。背景:现在的问题所在?Arthas:Arthas能帮助你干什...

Java 服务 Docker 容器化最佳实践

一、概述当我们在容器中运行Java应用程序时,可能希望对其进行调整参数以充分利用资源。...

“堆内存持续占用高 且 ygc回收效果不佳” 排查处理实践

作者:京东零售王江波说明:部分素材来源于网络,数据分析全为真实数据。一、问题背景自建的两套工具,运行一段时间后均出现内存占用高触发报警,频繁younggc且效果不佳。曾经尝试多次解决,因各种原...

log4j2 JNDI注入分析笔记

前言ApacheLog4j2是一款优秀的Java日志框架,最近爆出了一个jndi注入的漏洞,影响面非常广,各大厂商都被波及。Log4j2作为日志记录的第三方库,被广泛得到使用,这次主要分享一下,最近...

Linux-常用操作命令介绍

1.帮助命令1.1help命令...

基于容器的Java内存参数解析

在基于物理的服务器(此处主要与容器平台进行区分,故此描述)上运行Java应用程序时,我们通常会使用Java虚拟机参数"-Xms、-Xmx"来指定Java堆内存的初始值和最大值。如果要将...

用于处理 PDF 文档的开放源码 Java 工具

哈喽,我是老鱼,一名致力于在技术道路上的终身学习者、实践者、分享者!...

Log4j 严重漏洞修最新修复方案参考

CVE-2021-44228,原理上是log4j-core代码中的JNDI注入漏洞。这个漏洞可以直接导致服务器被入侵,而且由于“日志”场景的特性,攻击数据可以多层传导,甚至可以威胁到纯内网的服...

JVM性能监控工具

生产环境慎用的命令JDK中带有了一堆的工具是可以用来查看运行状况,排查问题的,但对于这些工具还是要比较清楚执行后会发生什么,否则有可能会因为执行了一个命令就导致严重故障,重点讲下影响比较大的jmap。...

一招教你在linux服务器配置Jenkins持续集成神器

01配置插件...

谈JVM xmx, xms等内存相关参数合理性设置

作者:京东零售刘乐上一篇文章说到JVM垃圾回收算法的两个优化标的:吞吐量和停顿时长,并提到这两个优化目标是有冲突的。那么有没有可能提高吞吐量而不影响停顿时长,甚至缩短停顿时长呢?答案是有可能的,提高...