Java读取html文件并将其内容保存到excel文件中

Minwu Yu

Html 文件代码示例:

<HTML>
<HEAD>
<TITLE>REPORT</TITLE></HEAD>
<BODY>
<TITLE>REPORT</TITLE><PRE><H2>################ REPORT ###################</H2><H3>Setup</H3>   Item1                   1120                                       <br>   Item2                  Copy free                                    <br>   Item3                   8/3/2017  5:44:51 AM                     <br>   Item4                 <Press OK>                          <br>  

我需要阅读的信息是带有<br>. 目标是将这些信息保存到如下所示的 excel 文件中

在此处输入图片说明

我目前使用 BufferedReader 读取 html 文件,但我不知道如何分隔包含字段和值的行。我试图使用 hashmap 来保存其字段名称和值,但我无法以正确的方式获取该值。我也尝试过 Jsoup 来摆脱 HTML 标签,但它让我更复杂地阅读自 html 文件以来的行

private final String[] modStrings = new String[]{"Item1", "Item2", "Item3", "Item4", "Item5"};

public void readHtmlFile() throws IOException {
        FileReader reader = new FileReader("C:\\Users\\file.html");
         // StringBuilder sb = new StringBuilder();
        BufferedReader br = new BufferedReader(reader);
        String line;
        String[] tempContent = {};
        ArrayList content = new ArrayList();
        HashMap modMap = new HashMap<>();
        while ( (line=br.readLine()) != null) {
            tempContent = line.split("<br>");
            for(int i = 0; i < tempContent.length; i++){
                for (String sub:modStrings){
                    if(tempContent[i].contains(sub)){
                        String value = "TODO HERE";  // TODO
                        content.add(sub);
                        modMap.put(sub, value);
                    }
                }

            }
        }
//        String textOnly = Jsoup.parse(sb.toString()).text();
        for(int i = 0; i < content.size(); i++){
            System.out.println(content.get(i));
            System.out.println(modMap);
        }
    }

任何建议或想法都会有很大帮助。

TuyenNTA

给你的解决办法很简单,只需要使用Stringclass的util函数,根据你的html内容,使用合适的方法获取你想要的内容。例如,我在这里使用split(String regex)[ split(String regex, int limit)](https://docs.oracle.com/javase/7/docs/api/java/lang/String.html#split(java.lang.String,%20int)),trim orsubString`... 做一个简单的技巧

示例代码:

public static void main(String[] args) throws IOException {
        String[] modStrings = new String[] { "Item1", "Item2", "Item3", "Item4", "Item5" };
        FileReader reader = new FileReader("html.html");
        BufferedReader br = new BufferedReader(reader);
        String line;
        String[] tempContent = {};
        ArrayList content = new ArrayList();
        HashMap<String, String> modMap = new HashMap<>();
        while ((line = br.readLine()) != null) {
        if (line.contains("<br>")) {
            line = line.substring(line.indexOf("Item1"));
            tempContent = line.split("<br>");
            for (String item : tempContent) {
                if (item.contains("Item")) {
                    String[] itemArr = item.trim().split(" ", 2);
                    String itemName = itemArr[0].trim();
                    String value = itemArr[1].trim();
                    modMap.put(itemName, value);
                }
            }
        }
        }
        for(String key : modMap.keySet()){
            System.out.println(key + ":" + modMap.get(key));
        }
    }

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从CSV文件读取并“保存”其内容以列出对象并将其加载到Program.cs中

来自分类Dev

读取具有不同语言的html节点并将其保存到R中的输出文件

来自分类Dev

Java使用readAllLines读取文件并将其保存到列表中

来自分类Dev

从matlab中的文件读取并将其内容存储在2个变量中

来自分类Dev

如何读取文件并将其内容存储在 C 中的矩阵中?

来自分类Dev

For-Loop 读取多个 .xlsx 文件并将其保存到一个文件中

来自分类Dev

读取文件并将其保存到对象中。Shiny R中的[不显示加载的数据]

来自分类Dev

无法同时读取多个rds文件并将其保存到单个数据帧中

来自分类Dev

如何访问剃刀文件中的html输入并将其保存到ac#变量中?

来自分类Dev

接收消息并将其保存到当前目录的文件中

来自分类Dev

如何使用Groovy读取文件并将其内容存储为变量?

来自分类Dev

读取文本文件并将其内容打印到C语言的屏幕上

来自分类Dev

使用DXL编程读取文件并将其内容附加到数组

来自分类Dev

读取文本文件并将其内容打印到C语言的屏幕上

来自分类Dev

如何在javascript中读取图像文件并将其保存到其他文件夹?

来自分类Dev

读取Excel文件而不更改其内容

来自分类Dev

使用 Altair 从 Json 文件中读取数据并将图表保存到 html

来自分类Dev

如何读取txt文件并将其保存在HTML中的javascript中的数组中

来自分类Dev

读取文本文件中的所有行并将其保存到字符串中(不使用List)

来自分类Dev

如何使用 codeigniter 生成具有相同代码的 HTML 文件并将其保存到特定文件夹中

来自分类Dev

如何读取保存在.json文件中的矩阵并将其转换为Java中的数组

来自分类Dev

打开txt文件,并将其内容相应地插入表中

来自分类Dev

呈现HTML代码段而不将其保存到文件中

来自分类Dev

从CSS文件中收集字符串并将其持久保存到新的CSS文件中

来自分类Dev

替换文件中的金额并将其保存到文件中

来自分类Dev

获取文件夹中特定文件的目录并将其保存到变量中

来自分类Dev

创建FAT文件系统并将其保存到GNU / linux中的文件中?

来自分类Dev

如何从终端读取文本文件并将输出保存到Java中的另一个文件?

来自分类Dev

如何从终端读取文本文件并将输出保存到Java中的另一个文件?

Related 相关文章

  1. 1

    从CSV文件读取并“保存”其内容以列出对象并将其加载到Program.cs中

  2. 2

    读取具有不同语言的html节点并将其保存到R中的输出文件

  3. 3

    Java使用readAllLines读取文件并将其保存到列表中

  4. 4

    从matlab中的文件读取并将其内容存储在2个变量中

  5. 5

    如何读取文件并将其内容存储在 C 中的矩阵中?

  6. 6

    For-Loop 读取多个 .xlsx 文件并将其保存到一个文件中

  7. 7

    读取文件并将其保存到对象中。Shiny R中的[不显示加载的数据]

  8. 8

    无法同时读取多个rds文件并将其保存到单个数据帧中

  9. 9

    如何访问剃刀文件中的html输入并将其保存到ac#变量中?

  10. 10

    接收消息并将其保存到当前目录的文件中

  11. 11

    如何使用Groovy读取文件并将其内容存储为变量?

  12. 12

    读取文本文件并将其内容打印到C语言的屏幕上

  13. 13

    使用DXL编程读取文件并将其内容附加到数组

  14. 14

    读取文本文件并将其内容打印到C语言的屏幕上

  15. 15

    如何在javascript中读取图像文件并将其保存到其他文件夹?

  16. 16

    读取Excel文件而不更改其内容

  17. 17

    使用 Altair 从 Json 文件中读取数据并将图表保存到 html

  18. 18

    如何读取txt文件并将其保存在HTML中的javascript中的数组中

  19. 19

    读取文本文件中的所有行并将其保存到字符串中(不使用List)

  20. 20

    如何使用 codeigniter 生成具有相同代码的 HTML 文件并将其保存到特定文件夹中

  21. 21

    如何读取保存在.json文件中的矩阵并将其转换为Java中的数组

  22. 22

    打开txt文件,并将其内容相应地插入表中

  23. 23

    呈现HTML代码段而不将其保存到文件中

  24. 24

    从CSS文件中收集字符串并将其持久保存到新的CSS文件中

  25. 25

    替换文件中的金额并将其保存到文件中

  26. 26

    获取文件夹中特定文件的目录并将其保存到变量中

  27. 27

    创建FAT文件系统并将其保存到GNU / linux中的文件中?

  28. 28

    如何从终端读取文本文件并将输出保存到Java中的另一个文件?

  29. 29

    如何从终端读取文本文件并将输出保存到Java中的另一个文件?

热门标签

归档