一种pdf文档压缩方法、装置及电子设备

文档序号：1784901 发布日期：2019-12-06 浏览：21次 >En<

阅读说明：本技术 一种pdf文档压缩方法、装置及电子设备 (PDF document compression method and device and electronic equipment ) 是由邓斌章庆元于 2018-05-28 设计创作，主要内容包括：本发明实施例提供了一种PDF文档压缩方法、装置及电子设备,涉及数据处理技术领域,所述方法包括：获得PDF文件中每个原始图像的大小；从各个原始图像中,选择满足预设清晰度条件的原始图像作为待压缩的原始图像；根据所述预设清晰度条件,确定各个待压缩的原始图像的目标大小；将每个待压缩的原始图像压缩至其对应的目标大小。采用本发明可以兼顾压缩效果和图像清晰度有效地压缩带有图片的PDF文档。(The embodiment of the invention provides a PDF document compression method, a device and electronic equipment, and relates to the technical field of data processing, wherein the method comprises the following steps: obtaining the size of each original image in the PDF file; selecting an original image meeting a preset definition condition from all original images as an original image to be compressed; determining the target size of each original image to be compressed according to the preset definition condition; and compressing each original image to be compressed to the corresponding target size. The invention can effectively compress the PDF document with the picture by taking the compression effect and the image definition into consideration.)

一种PDF文档压缩方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种PDF文档压缩方法、装置及电子设备。

背景技术

可移植文档格式(Portable Document Format，PDF)是独特的跨平台文件格式，是便携文档格式的外语简称，它可把文档的文本、格式、字体、颜色、分辨率、链接及图形图像、声音、动态影像等所有的信息封装在一个特殊的整合文件中。人们想要快速传输数据，且不喜欢大量空间占用，所以人们常常需要压缩PDF文档。这是在不丢失有用信息的前提下，缩减数据量以减少存储空间，提高其传输、存储和处理效率，或按照一定的算法对数据进行重新组织，减少数据的冗余和存储的空间的一种技术方法。

然而，发明人在实现本发明的过程中发现，现有技术至少存在如下问题：

传统的文档压缩方法主要有以下两种：

ZIP压缩非常适用于具有单一颜色或重复图案的大型区域的图像，以及包含重复图案的黑白图像。Acrobat仅支持8位ZIP压缩，它是“无损的”；它不会删除数据来减少文件大小，所以图像质量不会受到影响，但是压缩后的文件大小依然较大。

JPEG压缩适合灰度或彩色图像，例如色调连续的照片。JPEG是“有损”压缩，也就是说其会删除图像数据而且可能会降低图像质量，其尝试在丢失信息最少的情况下减少文件大小。由于JPEG压缩会删除数据，因此，与ZIP压缩相比，虽然它所产生的文件大小可能会小很多，但是却会对图像的清晰度有所影响。

可见，现有技术的PDF文档压缩方法不能够兼顾压缩效果和图像清晰度有效地压缩带有图片的PDF文档。

发明内容

本发明实施例的目的在于提供一种文档压缩方法及装置，以实现兼顾压缩效果和图像清晰度有效地压缩带有图片的PDF文档。具体技术方案如下：

第一方面，提供了一种PDF文档压缩方法，所述方法包括：

获得PDF文件中每个原始图像的大小；

从各个原始图像中，选择满足预设清晰度条件的原始图像作为待压缩的原始图像；

根据所述预设清晰度条件，确定各个待压缩的原始图像的目标大小；

将每个待压缩的原始图像压缩至其对应的目标大小。

可选的，所述方法还包括：获得PDF文件中的图像显示信息，所述图像显示信息中包括每一个图像显示大小；

从各个原始图像中，选择满足预设的清晰度条件的原始图像作为待压缩的原始图像的步骤，包括：

根据每个图像显示大小和所述每个原始图像大小，从各个原始图像中，确定满足所述预设的清晰度条件的待压缩的原始图像。

可选的，所述根据每个图像显示大小和所述每个原始图像大小，从各个原始图像中，确定满足所述预设的清晰度条件的待压缩的原始图像的步骤，包括：

计算每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；

将分辨率大于预设阈值的各个原始图像，确定为满足预设的清晰度条件的待压缩的原始图像；

所述根据预设的清晰度条件，确定每个待压缩的原始图像压缩后的目标大小的步骤，包括：

根据所述预设阈值对各个待压缩的原始图像进行计算，获得每个待压缩的原始图像压缩后的目标大小。

可选的，计算每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率的步骤，包括：

在文档100％显示比例下，用每个原始图像宽度除以该图像的显示图像宽度，得到每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；其中，所述宽度为水平方向的长度。

可选的，所述计算获得每个待压缩的原始图像压缩后的目标大小的步骤，包括：

计算原始图像宽度乘以预设阈值除以所述分辨率，得到目标宽度并取整；其中，所述宽度为水平方向的长度；

根据原始图像宽度和高度的比值及目标图像宽度，等比地计算出目标高度并取整；其中，所述高度为竖直方向的长度。

可选的，所述将每个待压缩的原始图像压缩至其对应的目标大小的步骤，包括：

采用临近取样算法等比地将每个待压缩原始图像大小缩小至其对应的目标大小。

第二方面，提供了一种PDF文档压缩装置，所述装置包括：

获得模块，用于获得PDF文件中每个原始图像的大小；

选择模块，用于从各个原始图像中，选择满足预设清晰度条件的原始图像作为待压缩的原始图像；

确定模块，用于根据所述预设清晰度条件，确定各个待压缩的原始图像的目标大小；

压缩模块，用于将每个待压缩的原始图像压缩至其对应的目标大小。

可选的，所述装置还包括：图像显示获得模块，用于获得PDF文件中的图像显示信息，所述图像显示信息中包括每一个图像显示大小；

所述选择模块，具体用于根据每个图像显示大小和所述每个原始图像大小，从各个原始图像中，确定满足所述预设的清晰度条件的待压缩的原始图像。

可选的，所述选择模块，包括：分辨率计算单元和待压缩图像确定单元；

所述分辨率计算单元，用于计算每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；

所述待压缩图像确定单元，用于将分辨率大于预设阈值的各个原始图像，确定为满足预设的清晰度条件的待压缩的原始图像；

所述确定模块，具体用于根据所述预设阈值对各个待压缩的原始图像进行计算，获得每个待压缩的原始图像压缩后的目标大小。

可选的，所述分辨率计算单元，具体用于：

可选的，所述确定模块，包括：目标宽度计算单元和目标高度计算单元；

目标宽度计算单元，用于计算原始图像宽度乘以预设阈值除以所述分辨率，得到目标宽度并取整；其中，所述宽度为水平方向的长度；

目标高度计算单元，用于根据原始图像宽度和高度的比值及目标图像宽度，等比地计算出目标高度；其中，所述高度为竖直方向的长度。

可选的，所述压缩模块，具体用于：

采用临近取样算法等比地将每个待压缩原始图像大小缩小至其对应的目标大小。

第三方面，提供了一种电子设备，所述电子设备包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-5任一所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的PDF文档压缩方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的PDF文档压缩方法。

本发明实施例提供的一种PDF文档压缩方法、装置及电子设备，能够针对PDF文件中满足预设清晰度条件的原始图像进行压缩。可见，应用本发明实施例能够只针对满足预设清晰度条件的原始图像进行压缩，既保持了图片的清晰度，又可以将PDF文档压缩至合适的大小，因此兼顾了压缩效果和图像清晰度有效地压缩了带有图片的PDF文档。

当然，实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例的一种PDF文档压缩方法的一种流程图；

图2为本发明实施例的一种PDF文档压缩方法的另一种流程图；

图3为本发明实施例的一种PDF文档压缩装置结构示意图；

图4为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种PDF文档压缩方法，该方法可以由电子设备实现。

本发明实施例中，电子设备可以是电脑、手机、平板电脑等可以处理PDF格式文件的任何电子设备。

如图1所示，该方法可以包括以下步骤：

步骤101，获得PDF文件中每个原始图像的大小。

一种实现方式中，PDF文档中包含原始图像文件，原始图像文件中储存了图像的属性信息，其中包含有图像大小，电子设备可以从原始图像文件中获取图像大小。

步骤102，从各个原始图像中，选择满足预设清晰度条件的原始图像作为待压缩的原始图像。

一种实现方式中，A4纸宽度约为8英寸，可以将原始图像宽度除以8英寸所得的值大于225pixel/inch的原始图像确定为待压缩图像，即可以将预设清晰度条件设置为原始图像宽度大于1800pixel，将宽度大于1800pixel的原始图像确定为待压缩的原始图像。

步骤103，根据所述预设清晰度条件，确定各个待压缩的原始图像的目标大小。

一种实现方式中，可以计算225*8＝1800pixel，确定目标大小为1800pixel。

步骤104，将每个待压缩的原始图像压缩至其对应的目标大小。

一种实现方式中，可以等比缩小图像的像素至对应的目标大小。

本发明实施例提供的一种PDF文档压缩方法，能够针对PDF文件中满足预设清晰度条件的原始图像进行压缩。可见，应用本发明实施例能够只针对满足预设清晰度条件的原始图像进行压缩，既保持了图片的清晰度，又可以将PDF文档压缩至合适的大小，因此兼顾了压缩效果和图像清晰度有效地压缩了带有图片的PDF文档。

参见图2，图2为本发明实施例的一种PDF文档压缩方法的另一种流程图。

步骤201，获得PDF文件中的图像显示信息，所述图像显示信息中包括每一个图像显示大小。

一种实现方式中，由电子设备获取PDF文件中的图像显示信息，图像显示信息中包括图像显示的位置信息和图像显示大小。

步骤202，获得PDF文件中每个原始图像的大小。

步骤203，根据每个图像显示大小和所述每个原始图像大小，确定待压缩的原始图像。

具体的，首先，计算每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；再将分辨率大于预设阈值的各个原始图像，确定为待压缩的原始图像。本实施例中，分辨率大于预设阈值的各个原始图像，就是满足预设清晰度条件的原始图像作为待压缩的原始图像。

具体的，在文档100％显示比例下，用每个原始图像宽度除以该图像的显示图像宽度，得到每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；其中，所述宽度为水平方向的长度。

一种实现方式中，分辨率(Pixels Per Inch，PPI)的计算公式为：

其中，原始图像的单位是像素，图像显示的单位是英寸。

例如，原始图像大小为450*450pixel，图像显示的大小为30*30point，其中72point等于1inch，则图像的分辨率为450/30*72＝1080pixel/inch。

一种实现方式中，将阈值设置为225pixel/inch，在不同的分辨率下对相同的文件进行压缩，经过多次测试发现，当分辨率大于225pixel/inch时，在文档100％显示比例下，人眼看不出显示图像与原始图像的区别。

步骤204，计算获得每个待压缩的原始图像压缩后的目标大小。

具体的，可以根据所述预设阈值对各个待压缩的原始图像进行计算，获得每个待压缩的原始图像压缩后的目标大小。

具体的，可以计算原始图像宽度乘以预设阈值除以所述分辨率，得到目标宽度并取整；其中，所述宽度为水平方向的长度；

根据原始图像宽度和高度的比值及目标图像宽度，等比地计算出目标高度；其中，所述高度为竖直方向的长度。

一种实现方式中，目标宽度的计算公式为：

目标高度的计算公式为：

例如，原始图像大小为450*450pixel，图像的分辨率为1080pixel/inch，大于225pixel/inch，这时计算目标宽度：450*225/1080＝93.75pixel，取整数，得到目标宽度为94pixel，根据原始图像宽度与高度比值及目标宽度，计算目标高度并取整：450*94/450＝94pixel。

步骤205，将每个待压缩的原始图像压缩至其对应的目标大小。

具体的，采用临近取样算法等比地将每个待压缩原始图像大小缩小至其对应的目标大小。

例如，若将原始图像大小缩小至原来的1/2，可以从相邻的两个像素点中选取一个像素点；若将原始图像大小缩小至原来的1/3，可以将每三个像素点分为一组，从每组像素点中任意选取一个像素点。

当然，也可以采用其他压缩算法，例如缩减像素采样方法。

可见，应用本发明实施例提供的方法，可以由电子设备确定待压缩的原始图像，并基于图像分辨率将待压缩的原始图像压缩至目标大小，这样既保持了图像的清晰度，又可以有效的压缩PDF文档，使用方便。

由于相同的技术构思，相应于图1所示方法实施例，本发明实施例还提供了一种PDF文档压缩装置，如图3所示，该装置包括：

获得模块301，用于获得PDF文件中每个原始图像的大小；

选择模块302，用于从各个原始图像中，选择满足预设清晰度条件的原始图像作为待压缩的原始图像；

确定模块303，用于根据所述预设清晰度条件，确定各个待压缩的原始图像的目标大小；

压缩模块304，用于将每个待压缩的原始图像压缩至其对应的目标大小。

具体的，所述装置还包括：图像显示获得模块，用于获得PDF文件中的图像显示信息，所述图像显示信息中包括每一个图像显示大小；

所述选择模块，具体用于根据每个图像显示大小和所述每个原始图像大小，从各个原始图像中，确定满足所述预设的清晰度条件的待压缩的原始图像。

具体的，所述选择模块，包括：分辨率计算单元和待压缩图像确定单元；

所述分辨率计算单元，用于计算每个原始图像大小与其图像显示大小之间的比例，作为该原始图像的分辨率；

所述待压缩图像确定单元，用于将分辨率大于预设阈值的各个原始图像，确定为满足预设的清晰度条件的待压缩的原始图像；

所述确定模块，具体用于根据所述预设阈值对各个待压缩的原始图像进行计算，获得每个待压缩的原始图像压缩后的目标大小。

具体的，所述分辨率计算单元，具体用于：

具体的，所述确定模块，包括：目标宽度计算单元和目标高度计算单元；

目标宽度计算单元，用于计算原始图像宽度乘以预设阈值除以所述分辨率，得到目标宽度并取整；其中，所述宽度为水平方向的长度；

目标高度计算单元，用于根据原始图像宽度和高度的比值及目标图像宽度，等比地计算出目标高度；其中，所述高度为竖直方向的长度。

具体的，所述压缩模块，具体用于：

采用临近取样算法等比地将每个待压缩原始图像大小缩小至其对应的目标大小。

本发明实施例提供的一种PDF文档压缩装置，能够针对PDF文件中满足预设清晰度条件的原始图像进行压缩。可见，应用本发明实施例能够只针对满足预设清晰度条件的原始图像进行压缩，既保持了图片的清晰度，又可以将PDF文档压缩至合适的大小，因此兼顾了压缩效果和图像清晰度有效地压缩了带有图片的PDF文档。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存放计算机程序；

处理器401，用于执行存储器403上所存放的程序时，实现如下步骤：

获得PDF文件中每个原始图像的大小；

从各个原始图像中，选择满足预设清晰度条件的原始图像作为待压缩的原始图像；

根据所述预设清晰度条件，确定各个待压缩的原始图像的目标大小；

将每个待压缩的原始图像压缩至其对应的目标大小。

本发明实施例提供的一种PDF文档压缩电子设备，能够针对PDF文件中满足预设清晰度条件的原始图像进行压缩。可见，应用本发明实施例能够只针对满足预设清晰度条件的原始图像进行压缩，既保持了图片的清晰度，又可以将PDF文档压缩至合适的大小，因此兼顾了压缩效果和图像清晰度有效地压缩了带有图片的PDF文档。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral PomponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Ne twork Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Applica tion SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的PDF文档压缩方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的PDF文档压缩方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备等实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

14页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种运动估计方法及装置、服务器及计算机可读存储介质

一种pdf文档压缩方法、装置及电子设备

相关技术

网友询问留言