キャメロットを使用してPDFからテーブルデータを抽出しているときに、ヘッダーがPDFから抽出されない

debugcn 投稿 Dev

Abhishek bisht

テーブルデータの抽出にキャメロットを使用していますが、PDFの一部としてヘッダーが抽出されていません。

以下のターゲットPDFリンクとターゲットテーブルの添付はページ番号3と4にあり、抽出する必要があります。

https://drive.google.com/file/d/1xniTIwpnNIdA_k4xvEARlVH97Lk-K2Yr/view?usp=sharing

表の1つは次のようになります

キャメロットのドキュメントを見ましたが、問題は「短い行の検出」に関連していると思います

https://camelot-py.readthedocs.io/en/master/user/advanced.html#detect-short-lines

ただし、line_size_scalingパラメーターを微調整しても問題を解決できません。

手伝ってください。

Vinayak Mehta

を使用して、検出されたテーブル境界を3ページにプロットしました$ camelot -p 3 lattice -plot contour 007.pdf。キャメロットが検出されたテーブル境界にヘッダー行を含めていないようです[バグ1]（下の画像を参照）。次に、table_areasキーワード引数をで使用しようとしflavor='lattice'ましたが、指定されたテーブル境界に行が含まれていませんでした[バグ2]。これらを課題追跡システムに＃200および＃201として追加しました。

でtable_areasキーワード引数を使用flavor='stream'して、テーブルを取り出すことができます。

CLIの使用： $ camelot -p 3 --output 007.csv --format csv stream -T 60,770,520,400 007.pdf

APIの使用： tables = camelot.read_pdf('007.pdf', pages='3', flavor='stream', table_areas=['60,770,520,400'])

ここで説明する手順を使用して、テーブルの境界座標を見つけることができます：https：//camelot-py.readthedocs.io/en/master/user/advanced.html#visual-debugging

お役に立てば幸いです。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

キャメロットを使用してPDFからテーブルデータを抽出しているときに、ヘッダーがPDFから抽出されない

キャメロットを使用してPDFからテーブルデータを抽出しているときに、ヘッダーがPDFから抽出されない

インデックスと一致を使用して、行ヘッダーのないテーブルからデータを抽出する

pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか？

パンダを使用してテキストファイルからヘッダーデータを抽出する

TypeError：PDFからテーブルの内容を抽出しているときに、/： 'list'および 'int'に対してサポートされていないオペランドタイプ

R別のテーブルに格納されているインデックスを指定して、データテーブルから値を抽出します

入力フィールドからテキストを抽出しているときにjqueryキーアップが機能しない

データリーダーは、オブジェクトからデータが抽出されるときに、オブジェクトのインスタンスに設定されていないオブジェクト参照を提供します

「ページ抽出」が許可されていないPDFからテキストを抽出することは可能ですか？

「値エラー：反復メソッドと読み取りメソッドを混在させると、Pythonを使用して.txtファイルから文字列から数値を抽出しているときにデータが失われます」というメッセージ

ワンドを使用してPDFから画像jpgを抽出すると、テキストの上に黒い背景が表示されるのはなぜですか

要素からテキストを抽出しているときにこのエラーが発生します。メッセージ：古い要素参照：要素はページドキュメントに添付されていません

パンダでは、あるテーブルの値をインデックスとして使用して、別のテーブルからデータを抽出するにはどうすればよいですか？

エラーがキャッチされているかどうかをテストできません。参照されていないパラメータ（例： 'b'）を導入したときにエラーがスローされるようにしたい

Powershellを使用して.msgファイルからメールヘッダーを抽出するにはどうすればよいですか？

ポート6343からsflowデータをキャプチャしている間、UDPヘッダー長フィールドは常にゼロです

ReactJSでは、APIからデータをロードしているときにモーダルボディとフッターが2回表示されます

mysqlからpdfファイルにデータを印刷する方法。ヘッダーとフッターは印刷されていますが、mysqlからのデータは印刷されていません

ExcelのPowerQuery From Webオプションを使用して、さまざまなサイトからニュースヘッドラインを抽出し、データをリアルタイムで保持するにはどうすればよいですか？

パンダのデータフレームからサブセットを抽出して、重複がないことを確認しますか？

HTMLタグとプレーンテキスト（タグでラップされていない）からテキストを抽出します

HTMLタグとプレーンテキスト（タグでラップされていない）からテキストを抽出します

R Tidyverseを使用してPDFテーブルからテーブルヘッダーを読み取る方法は？

表としてフォーマットされていない可能性のあるWebページからデータを抽出する

ボタンクリックで色とテキストを変更するためにngClassを使用しています。データはデータテーブルを使用してリモートサーバーからフェッチされます

txtからインポートされたテーブルを印刷するときにヘッダーがずれている

高さの異なるテーブルの行からPDF（PDFボックスライブラリを使用するJava）からテキストを抽出する

C＃でXMLドキュメントからデータを抽出してロールアップする

docx4jを使用してテンプレートからヘッダー付きのPDFドキュメントを作成するにはどうすればよいですか？

外部キー制約を使用しているときにphpを使用してSQLテーブルからデータをフェッチするためにmysql_num_rows（）を使用しているときにエラーが発生しました