我是kafka的新手,我了解了有关使用kafka进行数据处理和进一步分析(例如spark)的知识,但没有涉及将数据放入kafka的实际过程。我知道我必须将其视为生产者。但是,例如,我如何才能从Web应用程序发送跟踪数据并将其导入kafka。我应该使用nginx日志文件作为生产者或能够直接将其写入kafka的服务器(例如,针对kafka的tornado和python lib)...?您将如何创建一个非常简单的分析工具,该工具将从get请求中获取数据并将其放入kafka中进行进一步处理?
任何评论或评论,也只有一点点提示,将帮助我解决这个问题。
如果您选择使用能够直接写入Kafka的服务器(或将生产者与您的应用程序代码集成)并且没有其他缺点,那么我一定会这样做,以避免整个日志文件解析步骤。在这种情况下,您可以将任何分析解决方案作为Kafka使用者连接到下游,并可以将数据流式传输到其中。
如果您决定先触摸Web应用程序服务器上的磁盘,则有许多解析和转发到Kafka的解决方案。Flume / Flafka,Logstash,KafkaCat等。请看一下Kafka生态系统页面。这些选项中的一些选项使您可以在数据到达Kafka经纪人之前进行转换,这在某些情况下可能是有价值的。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句