使用OCaml解析HTML

gidim 发表于 Dev

我去了

我正在寻找一个库来解析OCaml中的HTML文件。基本上相当于Jsoup / Beautiful Soup。主要要求是能够使用CSS选择器查询DOM。形式的东西

page.fetch("http://www.url.com")
page.find("#tag")

前子

最近，我需要这样的东西，因此在看到了这个问题并阅读了评论中的建议之后，我在周末写了一个库“ Lambda Soup ”来娱乐。

您将要使用ocurl或Cohttp之类的库来检索实际的HTML。拥有之后，您就可以做

html |> parse $ "#tag"

去做问题中问到的。有关其他可能性和完整签名，请参阅文档。您可能需要查看文档后处理器或测试，以对用法和功能（包括CSS支持和扩展）进行相当全面的演示。

~~根据评论，Lambda Soup使用Ocamlnet的HTML解析器。~~Lambda Soup使用Markup.ml。否则，它没有任何依赖关系，但如果要运行测试，则除了OUnit。我很高兴收到任何反馈，包括有关修改接口（尚处于早期阶段）或讨论向库中添加HTTP下载器的讨论（这似乎很麻烦，因为它极大地改变了当前库的范围，但是我很高兴听到争论。

许可证是BSD。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。