この記事では、https://pdfbox.apache.org/[Apache PDFBox]を使用してJavaでPDFファイルを読み取る方法を説明します。

1. PDFBoxを入手する

pom.xml

<dependency>
        <groupId>org.apache.pdfbox</groupId>
        <artifactId>pdfbox</artifactId>
        <version>2.0.6</version>
</dependency>

2. PDFファイルを印刷する

PDFファイルからすべてのテキストを抽出する例

ReadPdf.java

package com.mkyong;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.text.PDFTextStripperByArea;

import java.io.File;
import java.io.IOException;

public class ReadPdf {

    public static void main(String[]args) throws IOException {

        try (PDDocument document = PDDocument.load(new File("/path-to/abc.pdf"))) {

            document.getClass();

            if (!document.isEncrypted()) {

                PDFTextStripperByArea stripper = new PDFTextStripperByArea();
                stripper.setSortByPosition(true);

                PDFTextStripper tStripper = new PDFTextStripper();

                String pdfFileInText = tStripper.getText(document);
               //System.out.println("Text:" + st);

               //split by whitespace
                String lines[]= pdfFileInText.split("\\r?\\n");
                for (String line : lines) {
                    System.out.println(line);
                }

            }

        }

    }
}

参考文献


  1. Apache PDFBox

  2. リンク://java/itext-read-and-write-pdf-in-java/[iText – 読み書き

PDF in Java]

リンク://タグ/java/[java]リンク://タグ/pdf/[pdf]リンク://タグ/pdfbox/[pdfbox]