新足迹

 找回密码
 注册

精华好帖回顾

· Mt. Buller 雪山之旅 (谢谢支持,照片提前上了) (2008-8-18) cl2007 · 我的海运之路:自己DIY! (2009-3-23) shangpin
· 六天玩转凯恩斯!(图) (2010-5-25) hope54 · (旅游经验)带14个月宝宝游Gold Coast(大量照片全部9楼文字更新完毕) (2008-2-9) 蓝月亮
Advertisement
Advertisement
查看: 2166|回复: 22

[IT] Hosting big data [复制链接]

发表于 2019-10-8 08:31 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
如果有20个不同的csv数据文件,每个文件50 million records,一共1 billion。你们会用什么办法让这个大数据上线?要求只能用本地server,查询速度要快,最好能模糊匹配。

已经试过sql+index,速度太慢了。现在的想法是试试elastic或者spark,但两者都没用过,没有经验。请大牛指点一二,谢谢
Advertisement
Advertisement

发表于 2019-10-8 08:34 来自手机 |显示全部楼层
此文章由 yzh1999 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yzh1999 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这么一点数据可以用in memory database吧

发表于 2019-10-8 08:37 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yzh1999 发表于 2019-10-8 09:34
这么一点数据可以用in memory database吧

请开始吹牛逼,听听具体怎么搞

发表于 2019-10-8 08:54 来自手机 |显示全部楼层
此文章由 yzh1999 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yzh1999 所有!转贴必须注明作者、出处和本声明,并保持内容完整
装这个,32gb以下免费
https://www.sap.com/cmp/td/sap-hana-express-edition.html

发表于 2019-10-8 14:49 来自手机 |显示全部楼层
此文章由 gba300 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gba300 所有!转贴必须注明作者、出处和本声明,并保持内容完整
elasticsearch

发表于 2019-10-8 21:51 来自手机 |显示全部楼层
此文章由 大大海 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 大大海 所有!转贴必须注明作者、出处和本声明,并保持内容完整
既然都试过index了,有没有试过partitioning scheme?

elastic和spark以前没用过的话不建议。两个虽然理论上都能提速,但要达到好的performance需要慢慢调,设置的不好查询速度更慢。当然如果你项目不急的话
可以考虑花点时间搞一下,个人推荐走spark



Advertisement
Advertisement

发表于 2019-10-8 22:34 来自手机 |显示全部楼层
此文章由 abravo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 abravo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yzh1999 发表于 2019-10-8 09:54
装这个,32gb以下免费
https://www.sap.com/cmp/td/sap-hana-express-edition.html

hana啊

发表于 2019-10-9 04:28 来自手机 |显示全部楼层
此文章由 yzh1999 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yzh1999 所有!转贴必须注明作者、出处和本声明,并保持内容完整
abravo 发表于 2019-10-8 23:34
hana啊

对啊,楼主授权让吹牛逼嘛

发表于 2019-10-9 05:14 |显示全部楼层
此文章由 xxmplus 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xxmplus 所有!转贴必须注明作者、出处和本声明,并保持内容完整
lz真牛逼

发表于 2019-10-9 05:33 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yzh1999 发表于 2019-10-9 05:28
对啊,楼主授权让吹牛逼嘛

看来你也不行啊,才30g也好意思上来说
头像被屏蔽

木屐族

发表于 2019-10-9 05:37 来自手机 |显示全部楼层
提示: 该帖被管理员或版主屏蔽
Advertisement
Advertisement
头像被屏蔽

银靴族

发表于 2019-10-9 06:21 来自手机 |显示全部楼层
提示: 该帖被管理员或版主屏蔽
头像被屏蔽

木屐族

发表于 2019-10-9 06:29 来自手机 |显示全部楼层
提示: 该帖被管理员或版主屏蔽

发表于 2019-10-9 06:33 来自手机 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
要求:self-hosted/ fuzz search/ fast/ free

目前最流行的选择应该是elasticsearch 了,完全满足需求,网上教程也多

https://db-engines.com/en/ranking/search+engine

发表于 2019-10-9 08:14 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
xxmplus 发表于 2019-10-9 06:14
lz真牛逼

不让用云,大牛你觉得应该怎么搞

发表于 2019-10-9 09:38 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
大大海 发表于 2019-10-8 22:51
既然都试过index了,有没有试过partitioning scheme?

elastic和spark以前没用过的话不建议。两个虽然理论 ...

搜了半天还是不知道什么是partitioning scheme。。

试过spark,jdk现在开始要注册才能下载,还要配置一堆env var。感觉这些软件对微软支持都不好

现在正在试elastic,又是一个坑
Advertisement
Advertisement

发表于 2019-10-9 09:48 来自手机 |显示全部楼层
此文章由 ft19s 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ft19s 所有!转贴必须注明作者、出处和本声明,并保持内容完整
yzh1999 发表于 2019-10-8 09:34
这么一点数据可以用in memory database吧

原来你是小杨?

发表于 2019-10-10 18:19 来自手机 |显示全部楼层
此文章由 tmac831116 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tmac831116 所有!转贴必须注明作者、出处和本声明,并保持内容完整
aws athena

发表于 2019-10-10 18:24 |显示全部楼层
此文章由 melmonash 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 melmonash 所有!转贴必须注明作者、出处和本声明,并保持内容完整
1 billion的数据全在一个table里吗?

发表于 2019-10-11 20:58 |显示全部楼层
此文章由 Chipmunk22 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Chipmunk22 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Denodo Data Virtualization

发表于 2019-10-11 23:31 |显示全部楼层
此文章由 AshleyLiang23 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 AshleyLiang23 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个scenario需要具体分析啊,以SQL Server为例:

首先,这批数据是不是规范化的关系数据格式?不是的话,可以考虑建立数据模型将数据导入成若干库表。

然后,查询需求以哪种类型为主——精确查找还是大范围报表?返回的字段和行数规模如何?筛选条件够不够具体?聚合运算多不多?

确定了需求,再去设计索引(clustered/nonclustered, rowstore/columnstore, covering index, filtered index)。

还可以根据数据某个字段(一般是时间区间)考虑实施分区表/视图,并在视图上创建索引。

以上只是纸上谈兵,因为未试过处理这种数量的数据。另外,硬件也是一个因素,如果没有企业级的服务器和存储,要处理这种规模的数据确实有难度。
Advertisement
Advertisement

发表于 2019-10-13 07:41 来自手机 |显示全部楼层
此文章由 hyorke 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hyorke 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 hyorke 于 2019-10-13 08:43 编辑

这是典型的大数据用例。单机处理能力有限。一般的rdms处理不了。可以配个hadoop cluster,用hive把数据load成external table,在用impala或spark查询。如果不经常处理这种case,可以把数据放到S3,在用athena 直接处理

发表于 2019-10-14 05:51 |显示全部楼层
此文章由 DDD888 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 DDD888 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你需要一个查询多长时间响应啊?6秒?准备花多少钱的预算啊?

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部