PDFファイルで複数行パターンのページ番号を見つけました。PDFファイルとテキストファイルで複数行パターンをgrepするにはどうすればよいですか?そしてどのように私は、PDFファイル内の文字列を検索し、文字列が表示された各ページの物理ページ番号を見つけることができますか?
$ pdfgrep -Pn '(?s)image\s+?not\s+?available' main_text.pdf
49: image
not
available
51: image
not
available
53: image
not
available
54: image
not
available
55: image
not
available
ページ番号のみを抽出したいのですが、パターンが複数行なので、
$ pdfgrep -Pn '(?s)image\s+?not\s+?available' main_text.pdf | awk -F":" '{print $1}'
49
not
available
51
not
available
53
not
available
54
not
available
55
not
available
の代わりに
49
51
53
54
55
パターンが複数行であるかどうかに関係なく、ページ番号のみを抽出するにはどうすればよいのでしょうか。ありがとう。
少しハッキーですが、すでにperl互換のREを使用して\K
いるため、「keep left」修飾子を使用して、式のすべて(および次の行末までのすべて)に一致させ、出力から除外することができます。
pdfgrep -Pn '(?s)image\s+?not\s+?available.*?$\K' main_text.pdf
:
ただし、出力には引き続きセパレータが含まれます。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加