Hadoop和Stata

迪米特里(Dimitriy V. Masterov)

有没有人有使用Stata和Hadoop的经验?Stata 13现在具有Java Plugin API,因此我认为让它们玩起来应该很简单。

我对能够解析Weblog数据以使其适合统计分析的形式特别感兴趣。

这个问题最近在Statalist上出现了,但是没有任何回应,所以我想我会在这里尝试的地方,使观众更有可能使用这项技术。

布坎南

德米特里

我认为使用ELK堆栈(http://www.elastic.co)进行类似的操作会更容易Logstash(中间层)在Apache Lucene引擎上构建了多个解析器/令牌器/分析器,用于清理和格式化日志数据,并将结果数据推送到elasticsearch中,从而公开了一个HTTP API,您可以轻松地卷曲以获取结果(例如,请使用insheetjson并将HTTP GET请求作为URL传递,应该将其导入到Stata中没有太大问题)。

我一直在尝试拼凑一个程序,以使用Jackson JSON库从Stata内部构建更强大的JSON I / O功能,并且绝对不介意与他人合作以完成它。

希望这会有所帮助,比利

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

Stata和命名管道

来自分类Dev

使用 Stata 扩展连续和

来自分类Dev

熊猫和Stata 13文件

来自分类Dev

if和else语句均在Stata中执行

来自分类Dev

将headings()和rename()与coefplot(Stata)组合

来自分类Dev

ARIMA在R和Stata之间的主要差异

来自分类Dev

ARIMA在R和Stata之间的主要差异

来自分类Dev

stata和libpng的棘手问题

来自分类Dev

Hadoop 2.2和Maven

来自分类Dev

ELK与Kafka和Hadoop

来自分类Dev

Hadoop MultipleOutputs校验和

来自分类Dev

hadoop 与 mongodb 和 hadoop vs mongodb

来自分类Dev

Pig和Hadoop连接错误

来自分类Dev

NoClassDefFoundError与gradle,giraph和hadoop

来自分类Dev

Hadoop Capacity Scheduler和Spark

来自分类Dev

spark错误和hadoop错误

来自分类Dev

Stata和Python(Pandas)之间最高效的I / O设置

来自分类Dev

Stata:使用循环来保留和重整变量的子集

来自分类Dev

存储Stata的预测和系数以进行n次复制

来自分类Dev

Stata中的insheet和多字符定界符

来自分类Dev

Vuong检验在R和Stata上有不同的结果

来自分类Dev

Stata:按ID和子集的平均值

来自分类Dev

Stata-如何处理数据和创建观测值

来自分类Dev

Stata-保留编码变量和堆积图

来自分类Dev

启用hadoop和kerberos的Datastax Enterprise错误

来自分类Dev

Hadoop集群上的Namenode和Jobtracker信息

来自分类Dev

hadoop jar和yarn -jar之间的区别

来自分类Dev

Hadoop的Maven依赖项:MiniDFSCluster和MiniMRCluster

来自分类Dev

Hadoop中的组合器,Reducer和EcoSystemProject