「労働者が自分の仕事をうまくやりたいなら、まず自分の道具を研ぎ澄まさなければなりません。」 - 孔子、「論語。陸霊公」
表紙 > プログラミング > OCR を使用せずにこの PDF から表を抽出できますか?

OCR を使用せずにこの PDF から表を抽出できますか?

2024 年 11 月 3 日に公開
ブラウズ:990

Can Tables Be Extracted from This PDF Without OCR?

PDF からの構造化テーブルの抽出

PDF ドキュメントから構造化テーブルを抽出することは、特に画像以外のファイルの場合、困難な作業となることがあります。この問題に対処するための包括的なガイドは次のとおりです:

非 OCR ソリューション

PDF -> HTML -> テーブルの抽出ルートは、特にドキュメントの場合、信頼性が低い場合があります。英語以外のフォントが含まれている。以下にいくつかの代替案を示します:

1.手動抽出

Adobe Acrobat や Foxit などのソフトウェアを使用して、表のセルを手動で選択し、スプレッドシートにコピーします。これは、単純な構造の小さなテーブルに適しています。

2. PDF から XML コンバータ

PDFBox などのツールは、テーブル データを XML 形式に抽出でき、さらに処理して構造化データを抽出できます。

3.カスタム パターン マッチング

PDF が一貫して生成される場合は、表のセルを識別してその内容を抽出するためのカスタム パターンを開発できます。ただし、これには PDF の構造を深く理解する必要があります。

提供される PDF の制限

あなたが言及した特定の PDF には、2 つの重大な課題があります:

  • テーブル データが欠落しています: PDF には明示的なテーブル データが含まれていないため、人間による解釈なしに構造化情報を抽出することが困難です。
  • エンコーディングの問題: PDF WinAnsiEncoding を使用すると誤って主張するフォントを使用しているため、テキストの抽出が破損します。

推奨

これらの制限があるため、構造化テーブルを抽出できない可能性がありますOCR 技術を使用せずに提供された PDF から。代わりに、ドキュメント作成者に元のテーブル データを要求するか、他の OCR ソリューションを追求するなど、代替方法を検討してください。

最新のチュートリアル もっと>

免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。

Copyright© 2022 湘ICP备2022001581号-3