何百万もの正規表現を置き換える（perl）

debugcn 投稿 Dev

イジー

100万行を超えるテキストを含むテキストファイルがあります。各行には、名前で置き換える必要のある英数字コードがあります。さまざまなPerlスクリプトを使用してこれを実行しようとしましたが、使用するメモリが多すぎるためにスクリプトが停止するたびに。私はPerlを初めて使用するので、何か間違ったことをしていると思います。それが仕事を複雑にしすぎているのでしょうか。これまでのところ、私は試しました：

use strict;
use warnings;

my $filename = 'names.txt';

my $data = read_file($filename);

$data =~ s/88tx0p/Author1/g;
##and then there are 1,000,000+ other substitution regexes.

write_file($filename, $data);
exit;

sub read_file {
my ($filename) = @_;

open my $in, '<:encoding(UTF-8)', $filename or die "Could not open 
'$filename' for reading $!";
local $/ = undef;
my $all = <$in>;
close $in;

return $all;
}

sub write_file {
my ($filename, $content) = @_;

open my $out, '>:encoding(UTF-8)', $filename or die "Could not open 
'$filename' for writing $!";;
print $out $content;
close $out;

return;
}

しかし、その後、このスクリプトが出力を元のファイルに書き込もうとしていることに気付きました。これは、より多くのメモリを使用していると思いますか？だから私は以下を試しました：

use strict;
use utf8;
use warnings;

open(FILE, 'names.txt') || die "File not found";
my @lines = <FILE>;
close(FILE);

my @newlines;
foreach(@lines) {
$_ =~ s/88tx0p/Author1/g;
##and then there are approximately 1,000,000 other substitution regexes.
push(@newlines,$_);
}

open(FILE, '>names_edited.txt') || die "File not found";
;
print FILE @newlines;
close(FILE);

しかし、繰り返しになりますが、これはメモリを使いすぎました。最小限のメモリを使用しながらこれを行う方法についてサポートをいただけますか？皆さん、ありがとうございました。

地味な

あなたの問題はあなたがforeachループを使用していることです。それには、すべての行をメモリにロードする必要があります。これが問題の根本です。

whileループで試してください：

open ( my $file, '<', 'names.txt' ) or die $!; 
open ( my $output, '>', 'names_edited.txt' ) or die $!;
select $output; #destination for print; 
while ( <$file> ) {  #reads one line at a time, sets $_
    s/88tx0p/Author1/g;   #acts on $_ by default
    print; #defaults to printing $_ to the selected filehandle $output
}

これは（最初のコードのように）行ごとに機能しますが、一度に1行しか読み取らないため、メモリフットプリントは大幅に少なくなります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-12

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

何百万もの正規表現を置き換える（perl）

何百万もの正規表現を置き換える（perl）

正規表現を何らかの条件に置き換える

Perl正規表現の単語の一部を置き換える

perl正規表現の一致で1文字を置き換える

JavaでUnicode文字以外のものを置き換える正規表現

文字列の少なくとも5桁を置き換える正規表現

特定の「。」を置き換える正規表現 '_'への表記

複数の一致を対応する置換に置き換えるためのperl正規表現

Sedは正規表現パターンを何も置き換えません

1つの置換で2つの別々のものを別々に置き換える正規表現

正規表現の外の単語を置き換える

CDATA内の<と>を置き換えるNotepad ++の正規表現

文字列内の数字を置き換えるFO正規表現

Javaの部分文字列を置き換える正規表現

JavaScript正規表現-数値以外の文字を置き換える

正規表現のGroup2を置き換える

Java正規表現、特定の文字を置き換える

正規表現内の文字を置き換える

正規表現一致内の文字を置き換える

ホスト名の正規表現を置き換える

特定の文字を置き換えるPythonre.sub正規表現

正規表現の部分文字列を置き換えるgolang

キー、括弧内の値を置き換える正規表現

正規表現とPHPの置き換えを改善する

画像タグ内の文字を置き換える正規表現

タグを置き換えるための正規表現

複数の空白行を置き換える正規表現

Javascriptの算術演算子を置き換える正規表現

括弧内のhtmlタグを置き換える正規表現

文字列の「n / a」を置き換えるJavascript正規表現