PyPDF2 合并 PDF 文件

基础示例

from PyPDF2 import PdfWriter

merger = PdfWriter()

for pdf in ["file1.pdf", "file2.pdf", "file3.pdf"]:
    merger.append(pdf)

merger.write("merged-pdf.pdf")
merger.close()

有关详细信息，请参阅 Paul Rooney 在 StackOverflow 上的出色回答。

显示更多合并选项

from PyPDF2 import PdfWriter

merger = PdfWriter()

input1 = open("document1.pdf", "rb")
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")

# add the first 3 pages of input1 document to output
merger.append(fileobj=input1, pages=(0, 3))

# insert the first page of input2 into the output beginning after the second page
merger.merge(position=2, fileobj=input2, pages=(0, 1))

# append entire input3 document to the end of the output document
merger.append(input3)

# Write to an output PDF document
output = open("document-output.pdf", "wb")
merger.write(output)

# Close File Descriptors
merger.close()
output.close()

append

append 在 PdfWriter 中得到了轻微的扩展。

参数:

fileobj：要合并的 PdfReader 或文件名

outline_item：指向插入文件开头的大纲/书签字符串。如果没有或省略，则不会添加书签。

pages：要合并的页面；您还可以提供要合并的页面列表 None（默认）意味着将合并整个文档。

import_outline：从源中导入/忽略相关轮廓（默认为 True）

excluded_fields：导入对象要忽略的键列表；如果“/Annots”是列表的一部分，注释将被忽略如果“/B”是列表的一部分，文章将被忽略

示例:

writer.append("source.pdf",(0,10)) # append the first 10 pages of source.pdf

writer.append(reader,"page 1 and 10",[0,9]) #append first and 10th page from reader and create an outline)

在合并过程中，相关的命名目的地也将被导入。

如果你想在目的地中间插入页面，使用merge（它提供（插入）位置）

您现在可以多次插入同一页。您还可以使用列表一次多次插入同一页面：

例如: writer.append(reader,[0,1,0,2,0]) 将插入第 (1)、(2) 页，第 (0) 页之前、中间和之后

add_page / insert_page

建议改用append或merge

reset_translation

在克隆过程中，如果一个对象已经被克隆过，则不会再次克隆它，返回一个这个之前克隆过的对象的指针。因此，如果您添加/合并一个已经添加的页面，相同的对象将被第二次添加。如果以后修改这两个页面中的任何一个，两个页面都可以独立修改。

要重置，请调用 writer.reset_translation(reader)

Advanced cloning

为了防止页面/对象之间的副作用，对象和所有链接的对象在合并期间被链接。

如果您使用 PdfWriter.append/merge/add_page/insert_page，此过程将自动应用。如果您想在“手动”附加对象之前克隆一个对象，请使用任何 PdfObject 的克隆函数：例如：

cloned_object = object.clone(writer)

如果你尝试克隆一个已经属于 writer 的对象，它会返回相同的对象

cloned_object == object.clone(writer) # -> returns True

同样，如果您尝试克隆一个对象两次，它将返回先前克隆的对象

object.clone(writer) == object.clone(writer) # -> returns True

另外请注意，如果您克隆一个对象，您将克隆下面的所有对象，包括 IndirectObject 指向的对象。因为如果你克隆一个包含一些文章（“/B”）的页面，那么不仅是第一篇文章，还有所有链接的文章，以及可以阅读这些文章的页面都会被复制。这意味着您可以复制很多对象，这些对象将保存在输出 pdf 中。

为了防止，您可以提供要忽略的字典中已定义字段的列表：

例如: new_page = writer.add_page(reader.pages[0],excluded_fields=["/B"])