PDF PYTHON ЧТЕНИЕ

Python предлагает множество библиотек для работы с pdf файлами, но для чтения могут быть наиболее подходящими PyPDF2 и pdfminer. PyPDF2 позволяет извлекать текст, изображения и объекты из pdf-файлов, позволяет объединять и разбивать pdf-файлы.

import PyPDF2
pdf_file = open('example.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print(page_content)

Библиотека pdfminer также может использоваться для извлечения информации из pdf-файлов, например, для получения информации о шрифтах, описаниях изображений, координатах текста.

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io

def pdf_to_text(path):
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)

with open(path, 'rb') as fh:
for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()

converter.close()
fake_file_handle.close()

if text:
return text

Какой способ использовать зависит от задачи и того, какую информацию нужно извлечь из pdf-файла.

Extract Text from any PDF File in Python 3.10 Tutorial

#18 Python Tutorial - Read files- آموزش مقدماتی برنامه نویسی پایتون، درس هجدهم: خواندن فایل ها

How To Read PDF Files in Python using PyPDF2

PyPDF2 Crash Course - Working with PDFs in Python [2023]

[15] Use Python to extract invoice lines from a semistructured PDF AP Report

I've read over 100 coding books. Here's what I learned

BLGPG-9EE6926CF7E1-24-11-24-00

Новые материалы: