キャメロットを使用してPDFからテーブルデータを抽出しているときに、ヘッダーがPDFから抽出されない

Abhishek bisht

テーブルデータの抽出にキャメロットを使用していますが、PDFの一部としてヘッダーが抽出されていません。

以下のターゲットPDFリンクとターゲットテーブルの添付はページ番号3と4にあり、抽出する必要があります。

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

表の1つは次のようになります ここに画像の説明を入力してください

キャメロットのドキュメントを見ましたが、問題は「短い行の検出」に関連していると思います

https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines

ただし、line_size_scalingパラメーターを微調整しても問題を解決できません

手伝ってください。

Vinayak Mehta

を使用して、検出されたテーブル境界を3ページにプロットしました$ camelot -p 3 lattice -plot contour 007.pdfキャメロットが検出されたテーブル境界にヘッダー行を含めていないようです[バグ1](下の画像を参照)。次に、table_areasキーワード引数をで使用しようとしflavor='lattice'ましたが、指定されたテーブル境界に行が含まれていませんでした[バグ2]。これらを課題追跡システムに#200および#201として追加しました

table_areasキーワード引数を使用flavor='stream'して、テーブルを取り出すことができます。

CLIの使用: $ camelot -p 3 --output 007.csv --format csv stream -T 60,770,520,400 007.pdf

APIの使用: tables = camelot.read_pdf('007.pdf', pages='3', flavor='stream', table_areas=['60,770,520,400'])

ここで説明する手順を使用して、テーブルの境界座標を見つけることができます:https//camelot-py.readthedocs.io/en/master/user/advanced.html#visual-debugging

お役に立てば幸いです。

ここに画像の説明を入力してください

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

インデックスと一致を使用して、行ヘッダーのないテーブルからデータを抽出する

分類Dev

pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか?

分類Dev

パンダを使用してテキストファイルからヘッダーデータを抽出する

分類Dev

TypeError:PDFからテーブルの内容を抽出しているときに、/: 'list'および 'int'に対してサポートされていないオペランドタイプ

分類Dev

R別のテーブルに格納されているインデックスを指定して、データテーブルから値を抽出します

分類Dev

入力フィールドからテキストを抽出しているときにjqueryキーアップが機能しない

分類Dev

データリーダーは、オブジェクトからデータが抽出されるときに、オブジェクトのインスタンスに設定されていないオブジェクト参照を提供します

分類Dev

「ページ抽出」が許可されていないPDFからテキストを抽出することは可能ですか?

分類Dev

「値エラー:反復メソッドと読み取りメソッドを混在させると、Pythonを使用して.txtファイルから文字列から数値を抽出しているときにデータが失われます」というメッセージ

分類Dev

ワンドを使用してPDFから画像jpgを抽出すると、テキストの上に黒い背景が表示されるのはなぜですか

分類Dev

要素からテキストを抽出しているときにこのエラーが発生します。メッセージ:古い要素参照:要素はページドキュメントに添付されていません

分類Dev

パンダでは、あるテーブルの値をインデックスとして使用して、別のテーブルからデータを抽出するにはどうすればよいですか?

分類Dev

エラーがキャッチされているかどうかをテストできません。参照されていないパラメータ(例: 'b')を導入したときにエラーがスローされるようにしたい

分類Dev

Powershellを使用して.msgファイルからメールヘッダーを抽出するにはどうすればよいですか?

分類Dev

ポート6343からsflowデータをキャプチャしている間、UDPヘッダー長フィールドは常にゼロです

分類Dev

ReactJSでは、APIからデータをロードしているときにモーダルボディとフッターが2回表示されます

分類Dev

mysqlからpdfファイルにデータを印刷する方法。ヘッダーとフッターは印刷されていますが、mysqlからのデータは印刷されていません

分類Dev

ExcelのPowerQuery From Webオプションを使用して、さまざまなサイトからニュースヘッドラインを抽出し、データをリアルタイムで保持するにはどうすればよいですか?

分類Dev

パンダのデータフレームからサブセットを抽出して、重複がないことを確認しますか?

分類Dev

HTMLタグとプレーンテキスト(タグでラップされていない)からテキストを抽出します

分類Dev

HTMLタグとプレーンテキスト(タグでラップされていない)からテキストを抽出します

分類Dev

R Tidyverseを使用してPDFテーブルからテーブルヘッダーを読み取る方法は?

分類Dev

表としてフォーマットされていない可能性のあるWebページからデータを抽出する

分類Dev

ボタンクリックで色とテキストを変更するためにngClassを使用しています。データはデータテーブルを使用してリモートサーバーからフェッチされます

分類Dev

txtからインポートされたテーブルを印刷するときにヘッダーがずれている

分類Dev

高さの異なるテーブルの行からPDF(PDFボックスライブラリを使用するJava)からテキストを抽出する

分類Dev

C#でXMLドキュメントからデータを抽出してロールアップする

分類Dev

docx4jを使用してテンプレートからヘッダー付きのPDFドキュメントを作成するにはどうすればよいですか?

分類Dev

外部キー制約を使用しているときにphpを使用してSQLテーブルからデータをフェッチするためにmysql_num_rows()を使用しているときにエラーが発生しました

Related 関連記事

  1. 1

    インデックスと一致を使用して、行ヘッダーのないテーブルからデータを抽出する

  2. 2

    pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか?

  3. 3

    パンダを使用してテキストファイルからヘッダーデータを抽出する

  4. 4

    TypeError:PDFからテーブルの内容を抽出しているときに、/: 'list'および 'int'に対してサポートされていないオペランドタイプ

  5. 5

    R別のテーブルに格納されているインデックスを指定して、データテーブルから値を抽出します

  6. 6

    入力フィールドからテキストを抽出しているときにjqueryキーアップが機能しない

  7. 7

    データリーダーは、オブジェクトからデータが抽出されるときに、オブジェクトのインスタンスに設定されていないオブジェクト参照を提供します

  8. 8

    「ページ抽出」が許可されていないPDFからテキストを抽出することは可能ですか?

  9. 9

    「値エラー:反復メソッドと読み取りメソッドを混在させると、Pythonを使用して.txtファイルから文字列から数値を抽出しているときにデータが失われます」というメッセージ

  10. 10

    ワンドを使用してPDFから画像jpgを抽出すると、テキストの上に黒い背景が表示されるのはなぜですか

  11. 11

    要素からテキストを抽出しているときにこのエラーが発生します。メッセージ:古い要素参照:要素はページドキュメントに添付されていません

  12. 12

    パンダでは、あるテーブルの値をインデックスとして使用して、別のテーブルからデータを抽出するにはどうすればよいですか?

  13. 13

    エラーがキャッチされているかどうかをテストできません。参照されていないパラメータ(例: 'b')を導入したときにエラーがスローされるようにしたい

  14. 14

    Powershellを使用して.msgファイルからメールヘッダーを抽出するにはどうすればよいですか?

  15. 15

    ポート6343からsflowデータをキャプチャしている間、UDPヘッダー長フィールドは常にゼロです

  16. 16

    ReactJSでは、APIからデータをロードしているときにモーダルボディとフッターが2回表示されます

  17. 17

    mysqlからpdfファイルにデータを印刷する方法。ヘッダーとフッターは印刷されていますが、mysqlからのデータは印刷されていません

  18. 18

    ExcelのPowerQuery From Webオプションを使用して、さまざまなサイトからニュースヘッドラインを抽出し、データをリアルタイムで保持するにはどうすればよいですか?

  19. 19

    パンダのデータフレームからサブセットを抽出して、重複がないことを確認しますか?

  20. 20

    HTMLタグとプレーンテキスト(タグでラップされていない)からテキストを抽出します

  21. 21

    HTMLタグとプレーンテキスト(タグでラップされていない)からテキストを抽出します

  22. 22

    R Tidyverseを使用してPDFテーブルからテーブルヘッダーを読み取る方法は?

  23. 23

    表としてフォーマットされていない可能性のあるWebページからデータを抽出する

  24. 24

    ボタンクリックで色とテキストを変更するためにngClassを使用しています。データはデータテーブルを使用してリモートサーバーからフェッチされます

  25. 25

    txtからインポートされたテーブルを印刷するときにヘッダーがずれている

  26. 26

    高さの異なるテーブルの行からPDF(PDFボックスライブラリを使用するJava)からテキストを抽出する

  27. 27

    C#でXMLドキュメントからデータを抽出してロールアップする

  28. 28

    docx4jを使用してテンプレートからヘッダー付きのPDFドキュメントを作成するにはどうすればよいですか?

  29. 29

    外部キー制約を使用しているときにphpを使用してSQLテーブルからデータをフェッチするためにmysql_num_rows()を使用しているときにエラーが発生しました

ホットタグ

アーカイブ