こんにちは、PDFソリューションの技術担当うめはらです。
2019年5月下旬リリースのAdobe PDF Library version 15.0.4P5fにおいて、かねてよりお客様より要望の多かった日本語のOCR(光学式文字認識)が、Javaおよび.NETインターフェースにおいて使用可能となりました。
OCRのエンジンとしてはオープンソースの Tesseract が採用されています。
今までサードパーティー製のOCRソフトを使用する場合、一旦PDFを画像データに変換する必要がありましたが、PDF LibraryのOCRサポートによりそのような手間から解放されます。
サンプルコードは製品、及びGitHubリポジトリにJavaと.NET用の OpticalCharacterRecognition が用意されています。
是非、評価版にてお試しください。
なお、PDF Libraryをベースとしたイースト製テキスト抽出ツールPDF Textractorへの当該機能追加も予定しており、 より一層、日本語テキスト抽出の精度、及び網羅性を高めてまいります。