新足迹

 找回密码
 注册

精华好帖回顾

· 蛇年第一帖--【蛋糕姐姐家的新年迎春饭】 (2013-2-11) chesecake · 总有一个人会喜欢你,总有一份职位会等到你 (2009-2-4)
· Settle 之前的 Final Inspection 总结, 中和各家之长,希望对大家有所帮助!! (2009-8-15) oceangoing · 煮夫手记十五 为了小将们的食欲:荷叶小饼+迷你肉包+微型花卷 (2011-3-19) amon54
Advertisement
Advertisement
查看: 5812|回复: 29

[IT] 关于数据处理的问题,Splunk 和 Oracle [复制链接]

发表于 2016-1-16 22:56 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
请问在论坛中的高手们,有没有人对数据处理很在行的,能不能帮忙参考一下。非常谢谢!

情况是这样,现在的系统平台会一直不断的实时的生成 XML 数据文件,然后需要传输到数据处理平台,再然后就不断的生成各种各样的统计报告。目前公司IT部门建议使用 Splunk,而我对数据库的处理最多只知道一些皮毛,无法评价好坏。想请问一下:
1)Splunk的实时数据处理速度怎么样?能不能支持非常快速的数据搜索?
2)Splunk和Oracle,哪个比较好?如果方便的话,能不能麻烦简短的介绍一下它们的区别。
Advertisement
Advertisement

发表于 2016-1-16 23:31 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整
1. Splunk是一个数据平台,而oracle是一个数据库,数据平台的含义是:底层是数据库,上层是报表,因此Splunk的底层数据可以是Oracle数据库,也可以是其他任何数据库(Salesforce,Big Query,Oracle)

2. Splunk按照index的数据量收费,海量数据一旦被index后,查询就会变得容易,因此Splunk在你所提的场景下,显然是更适合的, Oracle也是数据库,但其数据报表和查询方面,显然对商业用户不太友好,Splunk是基于亚马逊云端服务的,显然更适合你所需要的场景


Splunk简单的说就是一个基于aws服务的框架,可以连接各种数据库,然后在数据库上建立应用,应用包括dashboard,查询搜索,其自带一个市场,可以下载其他插件(相当于苹果的app市场),以此提供一套生态链。而oracle只是一个数据,oracle当然也有这种框架性的产品,但oracle的核心还是数据库,所以你的场景下,splunk更合适

评分

参与人数 3积分 +11 收起 理由
YugaYuga + 4 感谢分享
tyler_kwok + 4 我是来交学费的
gzrain + 3 你太有才了

查看全部评分

发表于 2016-1-17 15:15 来自手机 |显示全部楼层
此文章由 tvc889 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tvc889 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我也觉得splunk更合适。

发表于 2016-1-17 16:59 来自手机 |显示全部楼层
此文章由 gegedan 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gegedan 所有!转贴必须注明作者、出处和本声明,并保持内容完整
可以考虑elastic search+kibana,有钱用splunk

发表于 2016-1-17 17:09 |显示全部楼层
此文章由 YugaYuga 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 YugaYuga 所有!转贴必须注明作者、出处和本声明,并保持内容完整
二者没有可比性。2楼专家已经解说的很清楚。补充一点,Splunk除了在aws,也可以in-house自我安装管理。

我好奇的是楼主为什么要问这个问题,是不是system owner/stakeholder?



you only live once

发表于 2016-1-17 20:21 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-1-17 00:31
1. Splunk是一个数据平台,而oracle是一个数据库,数据平台的含义是:底层是数据库,上层是报表,因此Splun ...

真的非常感谢!!!这一下,我就心里有底了!再次谢谢!
Advertisement
Advertisement

发表于 2016-1-17 20:23 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
tvc889 发表于 2016-1-17 16:15
我也觉得splunk更合适。

谢谢!如果大多数人都这样认为,那我就放心了。

发表于 2016-1-17 20:24 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gegedan 发表于 2016-1-17 17:59
可以考虑elastic search+kibana,有钱用splunk

谢谢建议!钱应该不是问题,关键还是看real time performance.

发表于 2016-1-17 21:26 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
YugaYuga 发表于 2016-1-17 18:09
二者没有可比性。2楼专家已经解说的很清楚。补充一点,Splunk除了在aws,也可以in-house自我安装管理。

我 ...

我其实都不算是。主要是因为公司部门现在要购买一个新的系统,用来处理实时的XML数据。IT部门负责提供解决方案,而我作为部门的一员,主要是对该方案进行评估以及提出意见,但不具有决定权。对于生成报告的部分以及面向用户部分的要求我很清楚,但是对于数据的处理,搜索,尤其是对实时的数据的快速处理能力,我就几乎是外行了。

具体来说,是这样的情况:
1)在高峰的时间,每5分钟有2G以上的XML数据。因为XML TAG占了空间,实际的内容可能是1.2G。现在的要求是在从数据收到开始到处理完毕并且把结果自动反映到实时报告中,希望是在30秒内,最多不超过60秒。
2)另外的一个关键情况是:3个月的处理后的(包括 indexing后的)存储的数据大约是13TB。那么在这些数据的基础上进行搜素生成的报告要求是在30秒左右完成,最多60秒。

在以上的情况下,对数据处理的速度要求很高,而我原先对两者的区别也不清楚,所以我才会想问Splunk和Oracle哪个比较好。只是一开始,我不想问得太具体,怕大家花了太多时间来具体分析,那就不太好意思了。对我来说,可能结论以及简短的对SPlunk和Oracle介绍比较就已经足够了。如果能够提供更多的信息,那我就求之不得了!

谢谢大家!

发表于 2016-1-17 21:38 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-1-17 00:31
1. Splunk是一个数据平台,而oracle是一个数据库,数据平台的含义是:底层是数据库,上层是报表,因此Splun ...

另外还想再请教一个问题:

IT还有一个方案,是用 Oracle+Tableau。这个和Splunk比较的话,哪个会比较好一点?

非常感谢!

发表于 2016-1-17 21:41 |显示全部楼层
此文章由 无翅之徒 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 无翅之徒 所有!转贴必须注明作者、出处和本声明,并保持内容完整
有多大量的数据啊
Advertisement
Advertisement

发表于 2016-1-17 22:00 |显示全部楼层
此文章由 yeerfrid 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yeerfrid 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 yeerfrid 于 2016-1-18 11:01 编辑

Splunk is a much better choice over Oracle for your case.

Splunk is a Operation Intelligence platform, which can,
a. index/store any machine data.
b. much fast search.
c. business reporting, alerts etc.
d. real time data indexing, searching..
e. HA and DR capabilities.
f. visualization customization, API level integration, such as JS/JAVA/Pathon etc.t

Regards XML, splunk is NOT good option to parse complex xml (cost high). I would recommend to build a script parser before indexing xml data, if the xml is complex.

Compare with Oracle, Splunk does not support CRUD operation but support indexing data(to its own format files) for search, analyses and deletion (not often to use).

ELK is a competitor in some areas against splunk. ELK is freeware. but there are some more features splunk provides and ELK stack can not beat. such enterprise security, UBA/machine learning etc.

There are also some products provide some features that similar to splunk does, such GreyLog2, loggy, ArchSign, Sumologic, LogRythm etc. But so far i can see splunk is still a leader in the section.

评分

参与人数 1积分 +4 收起 理由
YugaYuga + 4 感谢分享

查看全部评分

深水静流。浪淘细沙。

发表于 2016-1-17 22:16 |显示全部楼层
此文章由 YugaYuga 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 YugaYuga 所有!转贴必须注明作者、出处和本声明,并保持内容完整
doctorhouse 发表于 2016-1-17 21:38
另外还想再请教一个问题:

IT还有一个方案,是用 Oracle+Tableau。这个和Splunk比较的话,哪个会比较好 ...

基本上你们需要的是一个real time data collection, analytic and reporting的一个解决方案。

技术方面自然是一个十分重要的考量,但不是全部。同时还【必须】要考虑TOC, ongoing maintenance & support等。

恕我直言,我感觉您的背景不是IT,对IT系统方案 缺乏理解。在论坛里讨论的话会很费力。
需要进一步讨论的话可以站内短信联系, 电话上说会容易些。
you only live once

发表于 2016-1-17 22:23 |显示全部楼层
此文章由 YugaYuga 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 YugaYuga 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yeerfrid 发表于 2016-1-17 22:00
Splunk is a much better choice over Oracle for your case.

Splunk is a Operation Intelligence platfo ...

Amazon Kinesis could be another option.

评分

参与人数 1积分 +4 收起 理由
yeerfrid + 4 感谢分享

查看全部评分

you only live once

发表于 2016-1-17 23:27 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整
doctorhouse 发表于 2016-1-17 22:26
我其实都不算是。主要是因为公司部门现在要购买一个新的系统,用来处理实时的XML数据。IT部门负责提供解 ...

你的解释让我觉得你公司的架构很有问题,一个门外汉却可以评估一个技术方案的事实与否,而门外汉喜欢学习是好的,但问题是,这不是几句话就能解释清楚的事,一个技术方案也绝对不是好和坏这么简单,需要考虑你IT部门的实力,你公司对数据的具体要求

Tableau 是一个报表工具,在我使用的时候(大致几年前还没有加入streaming data)的功能,意味着你每隔几分钟需要refresh下,从数据源下载更新数据,然后报表才会变化,而splunk是有streaming data的功能的,这点上更符合你的需求,另外tableau是需要连接数据源的,然后下载数据,这取决于你报表所需的数据是否是需要做处理的,已经预处理后,然后tableau只是下载小数据集然后展现报表,那性能不会有问题,如果是对元数据做报表,那tableau根本跑不动

另外oracle是速度极快的关系型数据库,而你的需求事实上是做数据报表,或者是OLAP需求,关系型数据库每GB的存储单位价格很高,另外单节点的oracle在大数据下会有性能等瓶颈,而OLAP数据库其实讲究分布式,可以将数据分配到各个节点,从而降低数据存储成本,Splunk就是基于AWS下的Hadoop文件系统的一个框架,并且对分布式系统做了indexing的优化,使得查询速度会变快


最后给你个建议:你这套系统,如果上splunk,每天最大index 10G算,一年大致也就几万澳币的费用,但按照你文中所述,如果按三个月13T的内容来算,每天大致有140G的数据,你的费用估计要20多万澳币一年(给splunk的钱,只会多不会少),还不包括IT等开发费用,也不包括报表设计等开支,这么个项目,让一个门外汉来论坛问所谓的高手,我真不清楚你公司怎么做预算的


靠谱的是,找个资深的数据专家,到你公司仔细做些业务分析,然后帮助你做个决策,在这个华人论坛找所谓的专家,都是不靠谱的,一个系统上错了,以后一堆麻烦事,不仅仅是钱的问题,更重要的是浪费的精力,以及错过的商业机会。

评分

参与人数 2积分 +5 收起 理由
gzrain + 3 你太有才了
YugaYuga + 2 感谢分享

查看全部评分

发表于 2016-1-18 13:23 |显示全部楼层
此文章由 yeerfrid 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yeerfrid 所有!转贴必须注明作者、出处和本声明,并保持内容完整
据我所了解, splunk 不是基于aws的框架。splunk 有几个不同的产品。一般我们讨论的是splunk enterprise,是on premise的。 splunk 有基于cloud的产品,叫splunk cloud。
你说的hadoop 产品叫hunk.  也是splunk 的一个产品,是单独的license,没有indexing功能。

不好意思,希望没有冒犯你。

评分

参与人数 1积分 +2 收起 理由
YugaYuga + 2 感谢分享

查看全部评分

深水静流。浪淘细沙。
Advertisement
Advertisement

发表于 2016-1-18 17:57 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yeerfrid 发表于 2016-1-17 23:00
Splunk is a much better choice over Oracle for your case.

Splunk is a Operation Intelligence platfo ...

非常感谢你的解答以及总结!这些要点对我真的有很大的帮助,太谢谢了!

发表于 2016-1-18 18:01 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
YugaYuga 发表于 2016-1-17 23:16
基本上你们需要的是一个real time data collection, analytic and reporting的一个解决方案。

技术方面 ...

太感谢你了!

发表于 2016-1-18 18:25 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-1-18 00:27
你的解释让我觉得你公司的架构很有问题,一个门外汉却可以评估一个技术方案的事实与否,而门外汉喜欢学习 ...

非常感谢你的详细解答!你所提到的关键要点对我的帮助非常大!真的很感谢!对于你所说的关于门外汉评估一个技术方案的困惑,我明白而且非常理解你的看法,有时候我自己也感觉这种情况好像有点问题。但是,实际上,这是一个比较特殊的情况,如果在公共论坛上解释的话,可能会有比较大的负面影响。所以,真的不好意思,我没有办法解释清楚了。其实,大家也可以看到,我在论坛上也只能就纯技术上的问题向各位专家高手请教了。如果你不介意的话,我可以在电话中解释的详细一些。再次谢谢你!

发表于 2016-1-21 07:51 来自手机 |显示全部楼层
此文章由 ozmhsh 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ozmhsh 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主可以给我短信你的电话。我们公司专门做数据集成的。肯定可以帮到你
头像被屏蔽

禁止发言

发表于 2016-1-21 08:03 |显示全部楼层
此文章由 hotortwo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hotortwo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
doctorhouse 发表于 2016-1-17 22:26
我其实都不算是。主要是因为公司部门现在要购买一个新的系统,用来处理实时的XML数据。IT部门负责提供解 ...
3个月的处理后的(包括 indexing后的)存储的数据大约是13TB。那么在这些数据的基础上进行搜素生成的报告要求是在30秒左右完成,最多60秒。


这个要求,估计Splunk很难做到
Advertisement
Advertisement

发表于 2016-1-21 09:15 |显示全部楼层
此文章由 wellhome 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 wellhome 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我来插一句嘴,
1.  我怎么觉得splunk最经典的场景是日志类分析。也就是基于时间的流式格式。
最擅长的是设备的日志数据。
splunk对日志进行index, 所有的统计报表都基于这个针对日志的index, 经典应用是
某段时间, 某个events在哪个设备发生了多少次这样的统计。
楼主的xml数据如果是日志类型的,那肯定是splunk. 这个和oracle关系型完全是2回事,也许oralce有某个产品模块

2. splunk和aws不搭界, 产品买了,自己把它装载自己家的aws上。或者装自己家机房里。

3. 问论坛不太靠谱。

发表于 2016-1-21 10:52 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
看样子IT部门也决定不了,还是需要找外部公司来做。LZ 是系统owner吧?

发表于 2016-1-25 21:25 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
wellhome 发表于 2016-1-21 10:15
我来插一句嘴,
1.  我怎么觉得splunk最经典的场景是日志类分析。也就是基于时间的流式格式。
最擅长的是设 ...

谢谢你的答复。应该说系统收到的XML数据是相当于日志类型的。如果去掉XML tag的话,也就是csv或者excel表格的数据,可以以时间为索引。然后系统后续的处理可能会需要关联到其它的table,不过,应该不会多。

发表于 2016-1-25 21:26 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2016-1-21 11:52
看样子IT部门也决定不了,还是需要找外部公司来做。LZ 是系统owner吧?

可惜我不是。只是作为小组的一员提供自己的看法而已。

发表于 2016-1-25 21:37 |显示全部楼层
此文章由 zzzWWWzz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zzzWWWzz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
听着是做Log Analysis? 提醒一下, 如果你的数据量很大,Splunk的收费可能会非常贵。我是Splunk竞争对手的公司的(不是Oracle),所以产品功能就不分析了。

- 建议你找个consultant分析一下,找到最合适的解决方案。
- 另外很多公司都有小数据量的免费download安装试用,或者SaaS在线试用,可以试用一下。
Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2016-1-25 22:22 |显示全部楼层
此文章由 tyler_kwok 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tyler_kwok 所有!转贴必须注明作者、出处和本声明,并保持内容完整
doctorhouse 发表于 2016-1-17 22:38
另外还想再请教一个问题:

IT还有一个方案,是用 Oracle+Tableau。这个和Splunk比较的话,哪个会比较好 ...

tableau设计的目的是数据分析和可视化,并不适合用作纯报表实时监控。

评分

参与人数 1积分 +3 收起 理由
edwin500 + 3 我很赞同

查看全部评分

签名被屏蔽

发表于 2016-1-27 21:19 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
zzzWWWzz 发表于 2016-1-25 22:37
听着是做Log Analysis? 提醒一下, 如果你的数据量很大,Splunk的收费可能会非常贵。我是Splunk竞争对手的 ...

非常感谢!

发表于 2016-1-27 21:19 |显示全部楼层
此文章由 doctorhouse 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 doctorhouse 所有!转贴必须注明作者、出处和本声明,并保持内容完整
tyler_kwok 发表于 2016-1-25 23:22
tableau设计的目的是数据分析和可视化,并不适合用作纯报表实时监控。

非常感谢!

发表于 2019-8-22 11:11 |显示全部楼层
此文章由 bombhuauto 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bombhuauto 所有!转贴必须注明作者、出处和本声明,并保持内容完整
zzzWWWzz 发表于 2016-1-25 21:37
听着是做Log Analysis? 提醒一下, 如果你的数据量很大,Splunk的收费可能会非常贵。我是Splunk竞争对手的 ...

谈谈你们公司的产品把。
我工作的公司用的是Splunk,而且有个前同事去了Splunk。

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部