PDFBox – JavaでPDFファイルを読む方法
この記事では、https://pdfbox.apache.org/[Apache PDFBox]を使用してJavaでPDFファイルを読み取る方法を説明します。
1. PDFBoxを入手する
pom.xml
<dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>2.0.6</version> </dependency>
2. PDFファイルを印刷する
PDFファイルからすべてのテキストを抽出する例
ReadPdf.java
package com.mkyong; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.text.PDFTextStripper; import org.apache.pdfbox.text.PDFTextStripperByArea; import java.io.File; import java.io.IOException; public class ReadPdf { public static void main(String[]args) throws IOException { try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) { document.getClass(); if (!document.isEncrypted()) { PDFTextStripperByArea stripper = new PDFTextStripperByArea(); stripper.setSortByPosition(true); PDFTextStripper tStripper = new PDFTextStripper(); String pdfFileInText = tStripper.getText(document); //System.out.println("Text:" + st); //split by whitespace String lines[]= pdfFileInText.split("\\r?\\n"); for (String line : lines) { System.out.println(line); } } } } }
参考文献
-
リンク://java/itext-read-and-write-pdf-in-java/[iText – 読み書き
PDF in Java]
リンク://タグ/java/[java]リンク://タグ/pdf/[pdf]リンク://タグ/pdfbox/[pdfbox]