吐槽 flume-ng

这几天在折腾 flume-ng,版本为官方的1.5.2,参考了网上的各种段子,也经历了一些坑,真可谓是一路google一路哭,捣鼓得目前勉强算是能用了,回顾这几天的苦逼历程,忍不住还是要吐槽一下。

其实我的需求很简单:将app(几十个小的业务)的日志(各种日志:java,php,python,go,nginx), 通过 flume-ng 实时(尽量)收集起来,存放到hdfs中,作为离线统计的数据源。
flume-logo
本文暂不讲具体的配置(等调试差不多正式放到生产上在分享出来),下面只是吐槽一下苦逼的历程:
1. 环境搭建:Hadoop-2.4.1,fluem-ng-1.5.2 app日志模拟生成
2. 测试tail source,丢数据,日志切割的时候有问题
3. 测试spooldir,不好用,生成.COMPLETE文件后无法追加数据,需要手动切割日志放到spolldir目录中,万一文件名跟.COMPLETE重复的话就挂了,需要重启agent
4. 一位hadoop开发哥们推荐了第三方的source,以为思密达同学写的(flume-ng-extends),使用mvn编译后同样发现基本无法使用,居然不向hdfs写数据。
5. 网上搜到有同学骑小象去远方对flume-ng-extends的代码进行了修改,按照博文的说明我这边也进行了同样的修改,mvn编译中出现报错,硬着头皮尝试修复,后来居然能够编译通过,但是运行是写入hdfs是存在一些问题(关键是我代码太糙)。
6. 继续寻找,这次找到了另外的source flume_monitor_source ,参考github中的pdf文档的配置,已经基本满足需求了,这时候也莫名的感觉心情舒畅了许多。
7. 接下来进行多app agent,SinkGroup及sink loadbalance 测试。
8. 大数据量压力写入测试,性能参数调优(进行中)。

感觉 flume-ng 设计理念还是挺好的,实际使用还需要不断的探索,紧靠运维同学很难,想弄的更完美一些,至少要花时间研读java源码,根据实际的app特点、发现的bug和业务具体需求进行一些定制化的修改才行。

u2

Related Posts

rancher v2.x 初体验

rancher v2x

Read more

sqlalchemy.exc.TimeoutError: QueuePool limit of size 5 overflow 10 reached

Python3 + Flask + mysql5.7搭建的w…

Read more

One thought on “吐槽 flume-ng

  1. 😀 😀 现在你说的那个插件是可以弄出来了吗,可是我看见配置上面完全没有sink hdfs的东西啊,都是source

评论已关闭。

You Missed

一年前让英伟达蒸发6000亿美元的中国AI,现在被黄仁勋请上了CES的PPT

  • u2
  • 6月 7, 2026
  • 28 views

当AI开始”破坏”:Anthropic告诉我们,每个用户都该重新审视自己的使用方式

  • u2
  • 6月 6, 2026
  • 33 views

10款大模型同台黑客测试:GPT-5.5拿了王冠,DeepSeek便宜15倍,Gemini直接退赛

  • u2
  • 6月 5, 2026
  • 35 views

30天,0天,90天:一纸行政令,把AI公司的”自由发布”踩了急刹车

  • u2
  • 6月 4, 2026
  • 44 views

AI很厉害,可你省的人力费还不够买Token!

  • u2
  • 6月 2, 2026
  • 61 views

RSI取代AGI成为新热词:AI能自我进化吗?

  • u2
  • 5月 30, 2026
  • 122 views