0 Câu hỏi: Trích xuất hình ảnh nội tuyến từ PDF bằng apache-tika và python

câu hỏi được tạo ra tại Wed, May 8, 2019 12:00 AM

Tôi cần chuyển đổi tài liệu PDF thành định dạng XML hoặc JSON bao gồm cả hình ảnh nội tuyến.

Cho đến nay, tôi có thể tạo XML bằng thư viện python-tika. Để sao chép, hãy sử dụng tài liệu PDF thử nghiệm với hình ảnh nội tuyến và trích xuất thông qua mô-đun python-tika:

from tika import parser
xml_data = parser.from_file('test.pdf', xmlContent=True)
print(xml_data)

Đầu ra XML chứa các liên kết đến các hình ảnh "được nhúng" như vậy:

<img src="embedded:image0.png" alt="image0.png" />

Tuy nhiên tôi không hiểu làm thế nào hình ảnh được nhúng thành phần thích hợp vì XML trông như thế này:

<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta name="Compression Lossless" content="true" />
<meta name="Dimension PixelAspectRatio" content="1.0" />
<meta name="tiff:ImageLength" content="833" />
<meta name="height" content="833" />
<meta name="pHYs" content="pixelsPerUnitXAxis=2835, pixelsPerUnitYAxis=2835, unitSpecifier=meter" />
<meta name="tiff:ImageWidth" content="1177" />
<meta name="Chroma BlackIsZero" content="true" />
<meta name="resourceName" content="image0.png" />
<meta name="Dimension VerticalPixelSize" content="0.35273367" />
<meta name="Data BitsPerSample" content="8 8 8" />
<meta name="tiff:BitsPerSample" content="8 8 8" />
<meta name="width" content="1177" />
<meta name="PLTE PLTEEntry" content="index=0, red=255, green=255, blue=255" />
<meta name="PLTE PLTEEntry" content="index=1, red=254, green=254, blue=254" />
<meta name="PLTE PLTEEntry" content="index=2, red=253, green=253, blue=253" />
<meta name="PLTE PLTEEntry" content="index=3, red=251, green=251, blue=251" />
...

Bất cứ ai cũng có ý tưởng làm thế nào để biến mã nhúng này thành hình ảnh thực tế? Tôi muốn lưu hình ảnh vào hệ thống tập tin là "image0.png", "image1.tiff" và cứ thế ...

    
0
0 Câu trả lời                              0                         
nguồn đặt đây