パターンが複数行であるかどうかに関係なく、PDFファイル内のパターンのページ番号のみを取得するにはどうすればよいですか?

ティム

PDFファイルで複数行パターンのページ番号を見つけました。PDFファイルとテキストファイルで複数行パターンをgrepするにはどうすればよいですか?そしてどのように私は、PDFファイル内の文字列を検索し、文字列が表示された各ページの物理ページ番号を見つけることができますか?

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf 
49: image
   not
available
51: image
   not
available
53: image
   not
available
54: image
   not
available
55: image
   not
available

ページ番号のみを抽出したいのですが、パターンが複数行なので、

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf | awk -F":" '{print $1}'
49
   not
available
51
   not
available
53
   not
available
54
   not
available
55
   not
available

の代わりに

49
51
53
54
55

パターンが複数行であるかどうかに関係なく、ページ番号のみを抽出するにはどうすればよいのでしょうか。ありがとう。

スティールドライバー

少しハッキーですが、すでにperl互換のREを使用して\Kいるため「keep left」修飾子を使用して、式のすべて(および次の行末までのすべて)に一致させ、出力から除外することができます。

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

:ただし、出力には引き続きセパレータが含まれます

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

Related 関連記事

ホットタグ

アーカイブ