我用取消了一个网站wget
。
该站点是德语的,其中一些页面的URL中包含Ü,ü,Ö,ö,Ä,ä,ß。
现在,某些文件的名称非常奇怪。
例如,一个文件称为mirror.de/�%9Cbersicht.html
有没有一种方法可以运行将奇怪的编码更改为正确的命令的命令?
在示例情况下,我希望以下内容是有效的结果 mirror.de/Uebersicht.html
编辑:L的输出C_CTYPE=C ls | grep bersicht.html | od -t x1
:
0000000 42 69 6e 61 72 79 20 66 69 6c 65 20 28 73 74 61
0000020 6e 64 61 72 64 20 69 6e 70 75 74 29 20 6d 61 74
0000040 63 68 65 73 0a
0000045
如果您仅解码%XX URI编码,则可能会得到UTF-8编码的字符。在zsh
:
autoload zmv
LC_ALL=C zmv '(**/)(*%*)' '$1${2//(#b)%(??)/${(#):-0x$match}}'
如果如Gilles所述,替换字符是0xc3字节(在iso8859-1中是一个字母,这将解释为什么它没有被URI编码而不是在iso8859-1中无效的0x9c)。上面的命令会将您的文件名更改为 Übersicht.html
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句