パターンが複数行であるかどうかに関係なく、PDFファイル内のパターンのページ番号のみを取得するにはどうすればよいですか？

debugcn 投稿 Dev

ティム

PDFファイルで複数行パターンのページ番号を見つけました。PDFファイルとテキストファイルで複数行パターンをgrepするにはどうすればよいですか？そしてどのように私は、PDFファイル内の文字列を検索し、文字列が表示された各ページの物理ページ番号を見つけることができますか？

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf 
49: image
   not
available
51: image
   not
available
53: image
   not
available
54: image
   not
available
55: image
   not
available

ページ番号のみを抽出したいのですが、パターンが複数行なので、

$ pdfgrep -Pn '(?s)image\s+?not\s+?available'  main_text.pdf | awk -F":" '{print $1}'
49
   not
available
51
   not
available
53
   not
available
54
   not
available
55
   not
available

の代わりに

パターンが複数行であるかどうかに関係なく、ページ番号のみを抽出するにはどうすればよいのでしょうか。ありがとう。

スティールドライバー

少しハッキーですが、すでにperl互換のREを使用して\Kいるため、「keep left」修飾子を使用して、式のすべて（および次の行末までのすべて）に一致させ、出力から除外することができます。

pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K'  main_text.pdf

:ただし、出力には引き続きセパレータが含まれます。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-07-7

コメントを追加

サインイン

Related 関連記事

記事

パターンが複数行であるかどうかに関係なく、PDFファイル内のパターンのページ番号のみを取得するにはどうすればよいですか？

パターンが複数行であるかどうかに関係なく、PDFファイル内のパターンのページ番号のみを取得するにはどうすればよいですか？

コメントを追加

関連記事

Related 関連記事

ホットタグ

アーカイブ