エンコードが不確定なテキストファイルのバッチがあり、異常な文字を削除する必要があります。私はPythonのシャデットライブラリを使用して、それらがISO-8859-2に87%準拠していることを確認しましたが、Rへの読み取りを妨げる不適合文字がまだ含まれています-このSO投稿で説明されています。これらをバッチクリーニングしてUTF-8に変換し、未確認の文字を「〜」のようなものに変更する方法(できればコマンドラインメソッド)があるのではないかと思います。支援に非常に感謝しています。
試してみましたiconv
か?OSXにこのコマンドが含まれているかどうかはわかりませんが、次に例を示します。
iconv -t UTF-8 myfile.txt
それが失敗した場合は、音訳してみてください。
iconv -t UTF-8//TRANSLIT myfile.txt
更新(コメントから):
少し実験
iconv -t UTF-8//TRANSLIT -c infile > outfile.txt
した後、仕事をしました。みんなありがとう。
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加