ターミナルでテキストファイルを再エンコードしてクリーンアップする

地理理論

エンコードが不確定なテキストファイルのバッチがあり、異常な文字を削除する必要があります。私はPythonのシャデットライブラリを使用して、それらがISO-8859-2に87%準拠していることを確認しましたが、Rへの読み取りを妨げる不適合文字がまだ含まれています-このSO投稿で説明されています。これらをバッチクリーニングしてUTF-8に変換し、未確認の文字を「〜」のようなものに変更する方法(できればコマンドラインメソッド)があるのではないかと思います。支援に非常に感謝しています。

Savvas Radevic

試してみましたiconvか?OSXにこのコマンドが含まれているかどうかはわかりませんが、次に例を示します。

iconv -t UTF-8 myfile.txt

それが失敗した場合は、音訳してみてください。

iconv -t UTF-8//TRANSLIT myfile.txt

更新(コメントから):

少し実験iconv -t UTF-8//TRANSLIT -c infile > outfile.txtした、仕事をしました。みんなありがとう。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

テキストファイルをPythonスクリプトにインポートして、ターミナルコマンドを実行します

分類Dev

テキストファイルをクリーンアップし、Pythonでパンダデータフレームとしてインポートする

分類Dev

DjangoバックエンドでClamavを使用してファイルアップロードストリームスキャンを設定する

分類Dev

組み込みツールを使用して、Windows2000以降でバイナリファイルをテキストとしてエンコードする

分類Dev

プレーンテキストとしてパスワードを使用して巨大なバイナリファイル/ファイルを誤ってコミットした場合はどうすればよいですか?

分類Dev

ユーザーが各ステップでドロップするjmeterを介してeコマースアプリケーションのリアルタイムトラフィックをシミュレートできますか?

分類Dev

コンテキストメニュー(ターミナルで開く)を介してターミナルでスクリプトを実行しますか?

分類Dev

SSHコマンドを使用して再帰的なディレクトリとファイルのリストをLinuxBashシェルのテキストファイルにエクスポートするにはどうすればよいですか?

分類Dev

ブラザーのオールインワンプリンター/スキャナー/ファックス用のプロプライエタリドライバーをインストールするにはどうすればよいですか?

分類Dev

PHPコードを「コンパイル」して、バイトコードインタープリターによって実行されるバイナリ風のファイルをアップロードできますか?

分類Dev

ファイルをマウントして、コンテナkubernetes内のアプリケーションからファイルにアクセスする方法

分類Dev

再修正:ファイルをコピーし、Promiseチェーンを使用してデータベースにクエリを実行するとソケットハングアップエラーが発生する

分類Dev

Linux Bashスクリプトは、ファイル名のリストに対してターミナルコマンドを実行します

分類Dev

テキストファイルの行の数値を合計する(Linuxコマンドターミナル)

分類Dev

アンドロイドスタジオでデバイスファイルエクスプローラでテキストとして開いているデータベースファイルへのデフォルトセットを変更するには?

分類Dev

Mac osターミナル:ターミナルウィンドウでクリック可能なテキスト(c実行可能ファイル)

分類Dev

レストエンドポイントでファイルをアップロードするための適切なHttpステータスコード

分類Dev

(ターミナルを使用して)gitでファイルをステージングするときに、特定のファイルのみをINDEXに追加するコマンド/ショートカットはありますか?

分類Dev

UDPソケット:サーバーがクライアントにファイルを送信するアドレスファミリはプロトコルファミリでサポートされていません

分類Dev

ドメインを含む巨大なテキストファイルをクリーンアップします

分類Dev

Linuxのfileコマンドがテキストファイルをバイナリデータとして報告する原因は何ですか?

分類Dev

gitbashコマンドラインターミナルでgulpを実行しているGoogleのWebスターターキットエラー

分類Dev

Unixスクリプトコマンドは、バッファリングを解除するときにターミナルを壊します

分類Dev

Ubuntu 12.04管理者は、ターミナルなしでスタートアップとしてpyファイルを実行するコマンドを作成する方法を教えてください。

分類Dev

フィドラーでマルチパート/フォームデータをインターセプトし、リクエストの一部であるバイナリファイルにアクセスする方法

分類Dev

ターミナル:ホットキーをテキストコマンドにバインドする

分類Dev

Linuxターミナルプロンプトでawk、sed、grepまたはcutを使用してテキストファイルのコンテンツをテーブルに取得する方法

分類Dev

Linuxターミナルプロンプトでawk、sed、grepまたはcutを使用してテキストファイルのコンテンツをテーブルに取得する方法

分類Dev

コピーしたクリップボードのテキストをターミナルからファイルに貼り付けるにはどうすればよいですか?

Related 関連記事

  1. 1

    テキストファイルをPythonスクリプトにインポートして、ターミナルコマンドを実行します

  2. 2

    テキストファイルをクリーンアップし、Pythonでパンダデータフレームとしてインポートする

  3. 3

    DjangoバックエンドでClamavを使用してファイルアップロードストリームスキャンを設定する

  4. 4

    組み込みツールを使用して、Windows2000以降でバイナリファイルをテキストとしてエンコードする

  5. 5

    プレーンテキストとしてパスワードを使用して巨大なバイナリファイル/ファイルを誤ってコミットした場合はどうすればよいですか?

  6. 6

    ユーザーが各ステップでドロップするjmeterを介してeコマースアプリケーションのリアルタイムトラフィックをシミュレートできますか?

  7. 7

    コンテキストメニュー(ターミナルで開く)を介してターミナルでスクリプトを実行しますか?

  8. 8

    SSHコマンドを使用して再帰的なディレクトリとファイルのリストをLinuxBashシェルのテキストファイルにエクスポートするにはどうすればよいですか?

  9. 9

    ブラザーのオールインワンプリンター/スキャナー/ファックス用のプロプライエタリドライバーをインストールするにはどうすればよいですか?

  10. 10

    PHPコードを「コンパイル」して、バイトコードインタープリターによって実行されるバイナリ風のファイルをアップロードできますか?

  11. 11

    ファイルをマウントして、コンテナkubernetes内のアプリケーションからファイルにアクセスする方法

  12. 12

    再修正:ファイルをコピーし、Promiseチェーンを使用してデータベースにクエリを実行するとソケットハングアップエラーが発生する

  13. 13

    Linux Bashスクリプトは、ファイル名のリストに対してターミナルコマンドを実行します

  14. 14

    テキストファイルの行の数値を合計する(Linuxコマンドターミナル)

  15. 15

    アンドロイドスタジオでデバイスファイルエクスプローラでテキストとして開いているデータベースファイルへのデフォルトセットを変更するには?

  16. 16

    Mac osターミナル:ターミナルウィンドウでクリック可能なテキスト(c実行可能ファイル)

  17. 17

    レストエンドポイントでファイルをアップロードするための適切なHttpステータスコード

  18. 18

    (ターミナルを使用して)gitでファイルをステージングするときに、特定のファイルのみをINDEXに追加するコマンド/ショートカットはありますか?

  19. 19

    UDPソケット:サーバーがクライアントにファイルを送信するアドレスファミリはプロトコルファミリでサポートされていません

  20. 20

    ドメインを含む巨大なテキストファイルをクリーンアップします

  21. 21

    Linuxのfileコマンドがテキストファイルをバイナリデータとして報告する原因は何ですか?

  22. 22

    gitbashコマンドラインターミナルでgulpを実行しているGoogleのWebスターターキットエラー

  23. 23

    Unixスクリプトコマンドは、バッファリングを解除するときにターミナルを壊します

  24. 24

    Ubuntu 12.04管理者は、ターミナルなしでスタートアップとしてpyファイルを実行するコマンドを作成する方法を教えてください。

  25. 25

    フィドラーでマルチパート/フォームデータをインターセプトし、リクエストの一部であるバイナリファイルにアクセスする方法

  26. 26

    ターミナル:ホットキーをテキストコマンドにバインドする

  27. 27

    Linuxターミナルプロンプトでawk、sed、grepまたはcutを使用してテキストファイルのコンテンツをテーブルに取得する方法

  28. 28

    Linuxターミナルプロンプトでawk、sed、grepまたはcutを使用してテキストファイルのコンテンツをテーブルに取得する方法

  29. 29

    コピーしたクリップボードのテキストをターミナルからファイルに貼り付けるにはどうすればよいですか?

ホットタグ

アーカイブ