吐槽 flume-ng

这几天在折腾 flume-ng,版本为官方的1.5.2,参考了网上的各种段子,也经历了一些坑,真可谓是一路google一路哭,捣鼓得目前勉强算是能用了,回顾这几天的苦逼历程,忍不住还是要吐槽一下。

其实我的需求很简单:将app(几十个小的业务)的日志(各种日志:java,php,python,go,nginx), 通过 flume-ng 实时(尽量)收集起来,存放到hdfs中,作为离线统计的数据源。
flume-logo
本文暂不讲具体的配置(等调试差不多正式放到生产上在分享出来),下面只是吐槽一下苦逼的历程:
1. 环境搭建:Hadoop-2.4.1,fluem-ng-1.5.2 app日志模拟生成
2. 测试tail source,丢数据,日志切割的时候有问题
3. 测试spooldir,不好用,生成.COMPLETE文件后无法追加数据,需要手动切割日志放到spolldir目录中,万一文件名跟.COMPLETE重复的话就挂了,需要重启agent
4. 一位hadoop开发哥们推荐了第三方的source,以为思密达同学写的(flume-ng-extends),使用mvn编译后同样发现基本无法使用,居然不向hdfs写数据。
5. 网上搜到有同学骑小象去远方对flume-ng-extends的代码进行了修改,按照博文的说明我这边也进行了同样的修改,mvn编译中出现报错,硬着头皮尝试修复,后来居然能够编译通过,但是运行是写入hdfs是存在一些问题(关键是我代码太糙)。
6. 继续寻找,这次找到了另外的source flume_monitor_source ,参考github中的pdf文档的配置,已经基本满足需求了,这时候也莫名的感觉心情舒畅了许多。
7. 接下来进行多app agent,SinkGroup及sink loadbalance 测试。
8. 大数据量压力写入测试,性能参数调优(进行中)。

感觉 flume-ng 设计理念还是挺好的,实际使用还需要不断的探索,紧靠运维同学很难,想弄的更完美一些,至少要花时间研读java源码,根据实际的app特点、发现的bug和业务具体需求进行一些定制化的修改才行。

u2

Related Posts

rancher v2.x 初体验

rancher v2x

sqlalchemy.exc.TimeoutError: QueuePool limit of size 5 overflow 10 reached

Python3 + Flask + mysql5.7搭建的w…

One thought on “吐槽 flume-ng

  1. 😀 😀 现在你说的那个插件是可以弄出来了吗,可是我看见配置上面完全没有sink hdfs的东西啊,都是source

评论已关闭。

You Missed

OpenClaw 完整使用指南:自托管 AI Agent 的架构与实战

  • u2
  • 2月 25, 2026
  • 37 views
OpenClaw 完整使用指南:自托管 AI Agent 的架构与实战

Anthropic 推出 Claude Code Security:AI 驱动的代码安全神器

  • u2
  • 2月 24, 2026
  • 36 views

来自 OWASP 的代码安全检查工具:Dependency-Check,为你消除安全隐患

  • u2
  • 10月 16, 2025
  • 20 views
来自 OWASP 的代码安全检查工具:Dependency-Check,为你消除安全隐患

技术宅如何躲开越来越垃圾的CSDN?

  • u2
  • 4月 11, 2024
  • 10 views
技术宅如何躲开越来越垃圾的CSDN?

mysql连接失败:The driver has not received any packets from the server

  • u2
  • 3月 26, 2024
  • 12 views
mysql连接失败:The driver has not received any packets from the server

几个IT小哥常用的工具挂图

  • u2
  • 3月 22, 2024
  • 4 views