有没有人有使用Stata和Hadoop的经验?Stata 13现在具有Java Plugin API,因此我认为让它们玩起来应该很简单。
我对能够解析Weblog数据以使其适合统计分析的形式特别感兴趣。
这个问题最近在Statalist上出现了,但是没有任何回应,所以我想我会在这里尝试的地方,使观众更有可能使用这项技术。
德米特里
我认为使用ELK堆栈(http://www.elastic.co)进行类似的操作会更容易。Logstash(中间层)在Apache Lucene引擎上构建了多个解析器/令牌器/分析器,用于清理和格式化日志数据,并将结果数据推送到elasticsearch中,从而公开了一个HTTP API,您可以轻松地卷曲以获取结果(例如,请使用insheetjson并将HTTP GET请求作为URL传递,应该将其导入到Stata中没有太大问题)。
我一直在尝试拼凑一个程序,以使用Jackson JSON库从Stata内部构建更强大的JSON I / O功能,并且绝对不介意与他人合作以完成它。
希望这会有所帮助,比利
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句