我正在寻找一个库来解析OCaml中的HTML文件。基本上相当于Jsoup / Beautiful Soup。主要要求是能够使用CSS选择器查询DOM。形式的东西
page.fetch("http://www.url.com")
page.find("#tag")
最近,我需要这样的东西,因此在看到了这个问题并阅读了评论中的建议之后,我在周末写了一个库“ Lambda Soup ”来娱乐。
您将要使用ocurl或Cohttp之类的库来检索实际的HTML。拥有之后,您就可以做
html |> parse $ "#tag"
去做问题中问到的。有关其他可能性和完整签名,请参阅文档。您可能需要查看文档后处理器或测试,以对用法和功能(包括CSS支持和扩展)进行相当全面的演示。
根据评论,Lambda Soup使用Ocamlnet的HTML解析器。Lambda Soup使用Markup.ml。否则,它没有任何依赖关系,但如果要运行测试,则除了OUnit。我很高兴收到任何反馈,包括有关修改接口(尚处于早期阶段)或讨论向库中添加HTTP下载器的讨论(这似乎很麻烦,因为它极大地改变了当前库的范围,但是我很高兴听到争论。
许可证是BSD。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句