新足迹 › 论坛 › 澳洲生活区 › 工作学习 › Hosting big data

精华好帖回顾
· 西餐大赛——瑞典风格的圣诞餐 (2011-1-9) lanshan	· 养金鱼 (2007-3-14) coldair
· 姜汁燕窝炖奶 (2009-5-29) tinanakoo	· 雨 (2006-11-2) astina

查看: 2255|回复: 22

[IT] Hosting big data [复制链接]

ft19s

木屐族

发表于 2019-10-8 09:31 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

如果有20个不同的csv数据文件，每个文件50 million records，一共1 billion。你们会用什么办法让这个大数据上线？要求只能用本地server，查询速度要快，最好能模糊匹配。

已经试过sql+index，速度太慢了。现在的想法是试试elastic或者spark，但两者都没用过，没有经验。请大牛指点一二，谢谢

yzh1999

银靴族

发表于 2019-10-8 09:34 来自手机 |显示全部楼层

此文章由 yzh1999 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 yzh1999 所有！转贴必须注明作者、出处和本声明，并保持内容完整

这么一点数据可以用in memory database吧

ft19s

木屐族

发表于 2019-10-8 09:37 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

yzh1999 发表于 2019-10-8 09:34
这么一点数据可以用in memory database吧

请开始吹牛逼，听听具体怎么搞

yzh1999

银靴族

发表于 2019-10-8 09:54 来自手机 |显示全部楼层

此文章由 yzh1999 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 yzh1999 所有！转贴必须注明作者、出处和本声明，并保持内容完整

装这个，32gb以下免费
https://www.sap.com/cmp/td/sap-hana-express-edition.html

gba300

布鞋族

发表于 2019-10-8 15:49 来自手机 |显示全部楼层

此文章由 gba300 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 gba300 所有！转贴必须注明作者、出处和本声明，并保持内容完整

elasticsearch

大大海

布鞋族

发表于 2019-10-8 22:51 来自手机 |显示全部楼层

此文章由大大海原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者大大海所有！转贴必须注明作者、出处和本声明，并保持内容完整

既然都试过index了，有没有试过partitioning scheme？

elastic和spark以前没用过的话不建议。两个虽然理论上都能提速，但要达到好的performance需要慢慢调，设置的不好查询速度更慢。当然如果你项目不急的话
可以考虑花点时间搞一下,个人推荐走spark

abravo

皮靴族

发表于 2019-10-8 23:34 来自手机 |显示全部楼层

此文章由 abravo 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 abravo 所有！转贴必须注明作者、出处和本声明，并保持内容完整

yzh1999 发表于 2019-10-8 09:54
装这个，32gb以下免费
https://www.sap.com/cmp/td/sap-hana-express-edition.html

hana啊

yzh1999

银靴族

发表于 2019-10-9 05:28 来自手机 |显示全部楼层

此文章由 yzh1999 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 yzh1999 所有！转贴必须注明作者、出处和本声明，并保持内容完整

abravo 发表于 2019-10-8 23:34
hana啊

对啊，楼主授权让吹牛逼嘛

xxmplus

皮靴族

发表于 2019-10-9 06:14 |显示全部楼层

此文章由 xxmplus 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 xxmplus 所有！转贴必须注明作者、出处和本声明，并保持内容完整

lz真牛逼

ft19s

木屐族

发表于 2019-10-9 06:33 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

yzh1999 发表于 2019-10-9 05:28
对啊，楼主授权让吹牛逼嘛

看来你也不行啊，才30g也好意思上来说

ft19s ft19s 当前离线头像被屏蔽木屐族木屐族, 积分 554, 距离下一级还需 446 积分串个门加好友打招呼发消息	发表于 2019-10-9 06:37 来自手机 \|显示全部楼层提示: 该帖被管理员或版主屏蔽
	Advertisement Advertisement
	举报

yzh1999 yzh1999 当前离线头像被屏蔽银靴族银靴族, 积分 6288, 距离下一级还需 3712 积分串个门加好友打招呼发消息	发表于 2019-10-9 07:21 来自手机 \|显示全部楼层提示: 该帖被管理员或版主屏蔽

	举报

ft19s ft19s 当前离线头像被屏蔽木屐族木屐族, 积分 554, 距离下一级还需 446 积分串个门加好友打招呼发消息	发表于 2019-10-9 07:29 来自手机 \|显示全部楼层提示: 该帖被管理员或版主屏蔽

	举报

gzrain

皮靴族

发表于 2019-10-9 07:33 来自手机 |显示全部楼层

此文章由 gzrain 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 gzrain 所有！转贴必须注明作者、出处和本声明，并保持内容完整

要求:self-hosted/ fuzz search/ fast/ free

目前最流行的选择应该是elasticsearch 了，完全满足需求，网上教程也多

https://db-engines.com/en/ranking/search+engine

ft19s

木屐族

发表于 2019-10-9 09:14 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

xxmplus 发表于 2019-10-9 06:14
lz真牛逼

不让用云，大牛你觉得应该怎么搞

ft19s

木屐族

发表于 2019-10-9 10:38 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

大大海发表于 2019-10-8 22:51
既然都试过index了，有没有试过partitioning scheme？

elastic和spark以前没用过的话不建议。两个虽然理论 ...

搜了半天还是不知道什么是partitioning scheme。。

试过spark，jdk现在开始要注册才能下载，还要配置一堆env var。感觉这些软件对微软支持都不好

现在正在试elastic，又是一个坑

ft19s

木屐族

发表于 2019-10-9 10:48 来自手机 |显示全部楼层

此文章由 ft19s 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 ft19s 所有！转贴必须注明作者、出处和本声明，并保持内容完整

yzh1999 发表于 2019-10-8 09:34
这么一点数据可以用in memory database吧

原来你是小杨？

tmac831116

皮靴族

发表于 2019-10-10 19:19 来自手机 |显示全部楼层

此文章由 tmac831116 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 tmac831116 所有！转贴必须注明作者、出处和本声明，并保持内容完整

aws athena

melmonash

白金靴族

发表于 2019-10-10 19:24 |显示全部楼层

此文章由 melmonash 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 melmonash 所有！转贴必须注明作者、出处和本声明，并保持内容完整

1 billion的数据全在一个table里吗?

Chipmunk22

皮靴族

发表于 2019-10-11 21:58 |显示全部楼层

此文章由 Chipmunk22 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 Chipmunk22 所有！转贴必须注明作者、出处和本声明，并保持内容完整

Denodo Data Virtualization

AshleyLiang23

木屐族

发表于 2019-10-12 00:31 |显示全部楼层

此文章由 AshleyLiang23 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 AshleyLiang23 所有！转贴必须注明作者、出处和本声明，并保持内容完整

这个scenario需要具体分析啊，以SQL Server为例：

首先，这批数据是不是规范化的关系数据格式？不是的话，可以考虑建立数据模型将数据导入成若干库表。

然后，查询需求以哪种类型为主——精确查找还是大范围报表？返回的字段和行数规模如何？筛选条件够不够具体？聚合运算多不多？

确定了需求，再去设计索引（clustered/nonclustered, rowstore/columnstore, covering index, filtered index）。

还可以根据数据某个字段（一般是时间区间）考虑实施分区表/视图，并在视图上创建索引。

以上只是纸上谈兵，因为未试过处理这种数量的数据。另外，硬件也是一个因素，如果没有企业级的服务器和存储，要处理这种规模的数据确实有难度。

hyorke

草鞋族

发表于 2019-10-13 08:41 来自手机 |显示全部楼层

此文章由 hyorke 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 hyorke 所有！转贴必须注明作者、出处和本声明，并保持内容完整

本帖最后由 hyorke 于 2019-10-13 08:43 编辑

这是典型的大数据用例。单机处理能力有限。一般的rdms处理不了。可以配个hadoop cluster，用hive把数据load成external table，在用impala或spark查询。如果不经常处理这种case，可以把数据放到S3，在用athena 直接处理

DDD888

银靴族

发表于 2019-10-14 06:51 |显示全部楼层

此文章由 DDD888 原创或转贴，不代表本站立场和观点，版权归 oursteps.com.au 和作者 DDD888 所有！转贴必须注明作者、出处和本声明，并保持内容完整

你需要一个查询多长时间响应啊？6秒？准备花多少钱的预算啊？

返回列表

		自动登录	找回密码
密码			注册

精华好帖回顾

[IT] Hosting big data [复制链接]

发表回复

浏览过的版块