PDF PYTHON ЧТЕНИЕ
Python предлагает множество библиотек для работы с pdf файлами, но для чтения могут быть наиболее подходящими PyPDF2 и pdfminer. PyPDF2 позволяет извлекать текст, изображения и объекты из pdf-файлов, позволяет объединять и разбивать pdf-файлы.
import PyPDF2
pdf_file = open('example.pdf', 'rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
number_of_pages = read_pdf.getNumPages()
page = read_pdf.getPage(0)
page_content = page.extractText()
print(page_content)
Библиотека pdfminer также может использоваться для извлечения информации из pdf-файлов, например, для получения информации о шрифтах, описаниях изображений, координатах текста.
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io
def pdf_to_text(path):
resource_manager = PDFResourceManager()
fake_file_handle = io.StringIO()
converter = TextConverter(resource_manager, fake_file_handle, laparams=LAParams())
page_interpreter = PDFPageInterpreter(resource_manager, converter)
with open(path, 'rb') as fh:
for page in PDFPage.get_pages(fh, caching=True, check_extractable=True):
page_interpreter.process_page(page)
text = fake_file_handle.getvalue()
converter.close()
fake_file_handle.close()
if text:
return text
Какой способ использовать зависит от задачи и того, какую информацию нужно извлечь из pdf-файла.
Extract Text from any PDF File in Python 3.10 Tutorial
#18 Python Tutorial - Read files- آموزش مقدماتی برنامه نویسی پایتون، درس هجدهم: خواندن فایل ها
How To Read PDF Files in Python using PyPDF2
PyPDF2 Crash Course - Working with PDFs in Python [2023]
[15] Use Python to extract invoice lines from a semistructured PDF AP Report
I've read over 100 coding books. Here's what I learned
Новые материалы:
- Python обратный range
- Import this python какое первое слово в последней строке выведет эта программа
- Поиск в ширину python
- Команда num в python
- Python kivy размер окна
- Python генерация html страниц
- Как закоментить в python несколько строк pycharm
- Python pandas заменить nan на 0
- Python гамма распределение
- Посимвольное чтение из файла python