我正在尝试将Linux服务器上的HTML文件转换为TXT文件。关键是转换工作正常,但仍将HTML标记保留在其中。是否有任何命令剥离转换中的所有HTML标签?
libreoffice4.2 --headless --convert-to txt 2000.html 2000.txt
在GUI中打开它Libreoffice在从HTML保存到TXT时已经剥离了HTML,因此也必须在命令行中完成此操作。
您需要告诉LibreOffice必须使用哪个过滤器才能执行转换(请参阅http://ask.libreoffice.org/en/question/2641/convert-to-command-line-parameter/)
libreoffice4.2 --headless --convert-to txt:text 2000.html
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句