新足迹

 找回密码
 注册

精华好帖回顾

· 【三刀厨侠争霸赛】买菜便宜的好处 (2008-9-29) big_beast · === 淡季游塔斯马尼亚,240度 无死角的山川海滩 === 69楼 小城Hobart,酒杯湾,摇篮山 -- 全文完 :) (2018-8-30) 胡须康
· 参加活动 ~ 一周服饰搭配~不安分的我和我那奇怪奇怪的百变造型~Gorman Jacket 的四种穿法!更新760楼,一楼电梯 (2012-9-5) Kittymeow · 纪念麦克 于2009年6月27日 (2009-6-28) luming
Advertisement
Advertisement
楼主:月亮

一个table,25亿条记录,每天要更新,最快的方法? [复制链接]

发表于 2013-4-11 10:14 |显示全部楼层
此文章由 workflow 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 workflow 所有!转贴必须注明作者、出处和本声明,并保持内容完整
IsDonIsGood 发表于 2013-4-11 10:09
ETL,Report,Data mining应该分开算吧。
但是个人理解都算BI了

好多年没碰DW了,那时候是DM(data mart)跟DW(data warehouse)两大流派PK,不知道现在是肿么个情况。貌似澳洲还是DM派占上风。
Advertisement
Advertisement

发表于 2013-4-11 10:16 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
现在的新趋势是要求real time reporting, real time BI了,不过这几年肯投钱的公司不多吧

发表于 2013-4-11 10:16 |显示全部楼层
此文章由 porcorosso 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 porcorosso 所有!转贴必须注明作者、出处和本声明,并保持内容完整
findajob 发表于 2013-4-11 09:11
各位足迹名人都都是做IT的阿 哈哈

何谓名人?

发表于 2013-4-11 10:17 |显示全部楼层
此文章由 AmandaX 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 AmandaX 所有!转贴必须注明作者、出处和本声明,并保持内容完整
25亿。。。来膜拜下。。。



发表于 2013-4-11 10:18 |显示全部楼层
此文章由 IsDonIsGood 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 IsDonIsGood 所有!转贴必须注明作者、出处和本声明,并保持内容完整
workflow 发表于 2013-4-11 09:14
好多年没碰DW了,那时候是DM(data mart)跟DW(data warehouse)两大流派PK,不知道现在是肿么个情况。 ...

DW失败率超高,还有就是BIs经常打肿脸充胖子,明明设计有误,或者坐到一半已经无法为继了,偏要说成功了。
之后要么推到重来,要么后面的人不断地各种补丁各种擦PP.
2020目标: 活着

发表于 2013-4-11 10:20 |显示全部楼层
此文章由 IsDonIsGood 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 IsDonIsGood 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2013-4-11 09:16
现在的新趋势是要求real time reporting, real time BI了,不过这几年肯投钱的公司不多吧 ...

有相关的Article了吗,上了CMS的贼船后很久没碰这些东西了。
real time reporting 难不成是放在memory里的那种DW?
2020目标: 活着
Advertisement
Advertisement

发表于 2013-4-11 10:23 |显示全部楼层
此文章由 workflow 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 workflow 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2013-4-11 10:16
现在的新趋势是要求real time reporting, real time BI了,不过这几年肯投钱的公司不多吧 ...

恩,我们现在的reporting系统就是realtime的(每晚batch)DM,搞了2年整个enterprise的DW,又烧钱又不出东西,各个系统部门也不配合,直接失败。现在上面的CTO想通了,直接搞DM,又省心又省钱,business用的爽,大家都开心。

发表于 2013-4-11 10:25 |显示全部楼层
此文章由 workflow 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 workflow 所有!转贴必须注明作者、出处和本声明,并保持内容完整
IsDonIsGood 发表于 2013-4-11 10:18
DW失败率超高,还有就是BIs经常打肿脸充胖子,明明设计有误,或者坐到一半已经无法为继了,偏要说成功了 ...

BI在经济好的时候需求旺盛,现在经济萎靡不振,能砍就砍,有钱也都先花在业务核心系统了

发表于 2013-4-11 10:27 |显示全部楼层
此文章由 righttang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 righttang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
因为做IT的才有空来泡论坛啊。。。。。

发表于 2013-4-11 10:30 来自手机 |显示全部楼层
此文章由 motorhero 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 motorhero 所有!转贴必须注明作者、出处和本声明,并保持内容完整
25亿个记录做daily 移植本身就不是好设计。partion 吧。只制止变化变化的partion

发表于 2013-4-11 10:34 |显示全部楼层
此文章由 IsDonIsGood 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 IsDonIsGood 所有!转贴必须注明作者、出处和本声明,并保持内容完整
motorhero 发表于 2013-4-11 09:30
25亿个记录做daily 移植本身就不是好设计。partion 吧。只制止变化变化的partion ...

+1,25亿的记录不可能每条每天都在变,但是每天都要传送那么多明显是设计上的失误。就像之前有兄弟说的,加一个flag就可以很大程度上解决问题。专注于有什么技术可以解决25亿条记录的Transfer上有点舍本逐末了。设计上的问题拿技术来补,这个想法不对。
2020目标: 活着
Advertisement
Advertisement

发表于 2013-4-11 10:35 |显示全部楼层
此文章由 典 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 典 所有!转贴必须注明作者、出处和本声明,并保持内容完整
IsDonIsGood 发表于 2013-4-11 09:18
DW失败率超高,还有就是BIs经常打肿脸充胖子,明明设计有误,或者坐到一半已经无法为继了,偏要说成功了 ...

有时候是一种政治需要

你看我手下20个人做DW ,每年多少million,牛吧,
最后做出一堆垃圾没人用,再把责任推给其它人
职业灌水赚分

发表于 2013-4-11 10:37 |显示全部楼层
此文章由 典 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 典 所有!转贴必须注明作者、出处和本声明,并保持内容完整
做IT 不希奇
美女做IT就难得了

发表于 2013-4-11 10:41 |显示全部楼层
此文章由 Ketchup 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Ketchup 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Log shipping?总不能每天25亿条记录都是全新的吧?

发表于 2013-4-11 10:49 |显示全部楼层
此文章由 NNX 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 NNX 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不需要drop table, SQL Server truncate table也不会写入log.

1. SSIS package 在source端还是destination?, 后者的话, 用SQL server Desination 会比 OLD DB Destination快
2. 可以考虑到的顺序是 truncate table - drop all index - insert data - re-create index, 这样会比带着index写入数据快很多很多, 否认你每写入一条记录都会涉及到index的变动
3. 如果可行的话, 可以把DB backup的model 改为simple, 写完数据之后再改回来, 这样可以确保最少的trans log

发表于 2013-4-11 10:55 |显示全部楼层
此文章由 NNX 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 NNX 所有!转贴必须注明作者、出处和本声明,并保持内容完整
另外表中有没有什么id 或是date field可以确定是新的数据? 如果有的话, 每次在desitnation 读取max(id), 然后SSIS insert new data only with source id >destination max(id)
Advertisement
Advertisement

发表于 2013-4-11 11:36 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
IsDonIsGood 发表于 2013-4-11 09:18
DW失败率超高,还有就是BIs经常打肿脸充胖子,明明设计有误,或者坐到一半已经无法为继了,偏要说成功了 ...

我见过以DW 项目失败来搞政治斗争的,输掉的一方两层manager都被赶走,干活的team也拆了
like hell

发表于 2013-4-11 11:39 |显示全部楼层
此文章由 findajob 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 findajob 所有!转贴必须注明作者、出处和本声明,并保持内容完整
porcorosso 发表于 2013-4-11 09:16
何谓名人?

就是常被人拍和拍人的童鞋
over and again
头像被屏蔽

禁止发言

发表于 2013-4-11 12:11 |显示全部楼层
此文章由 nis 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nis 所有!转贴必须注明作者、出处和本声明,并保持内容完整
掏宝普及mysql ,去掉oracle。谁从技术角度分析一下,为啥要这么干?

发表于 2013-4-11 12:27 |显示全部楼层
此文章由 yangwulong1978 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yangwulong1978 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一个是钱的问题,设备维护费用贵,LICENSE  贵,,另一个淘宝的DB 牛,能确保用MYSQL也没问题。。

不是说MYSQL就比ORACLE强。

发表于 2013-4-11 12:32 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
nis 发表于 2013-4-11 11:11
掏宝普及mysql ,去掉oracle。谁从技术角度分析一下,为啥要这么干?

具体的内容国内网站很多了。 准确的说是去IOE,指 IBM P系列,Oracle DB,EMC 高端存储。硬件上大量使用 x86 + ssd + 廉价存储,大部分DB 用 mysql。他们自己在应用层做load balance, application partition, redundancy。没那个规模不可能这么干。估计是向facebook,google学的。
ebay原来很牛,全用Oracle,所有的DB 拖两个standby,Oracle的超级大客户。现在也开始用一部分mysql了,不过已经落后taobao很多了。
like hell
Advertisement
Advertisement

发表于 2013-4-11 14:50 |显示全部楼层
此文章由 workflow 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 workflow 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2013-4-11 12:32
具体的内容国内网站很多了。 准确的说是去IOE,指 IBM P系列,Oracle DB,EMC 高端存储。硬件上大量使用  ...

应用层做优化是王道啊

发表于 2013-4-12 15:27 |显示全部楼层
此文章由 psaux 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 psaux 所有!转贴必须注明作者、出处和本声明,并保持内容完整
根据数据量来选择数据库的都是不懂数据处理的,不解释。

发表于 2013-4-12 15:55 |显示全部楼层
此文章由 ssat 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ssat 所有!转贴必须注明作者、出处和本声明,并保持内容完整
use real time messaging interface?

发表于 2013-4-12 17:40 |显示全部楼层
此文章由 wonderdream 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 wonderdream 所有!转贴必须注明作者、出处和本声明,并保持内容完整
psaux 发表于 2013-4-12 14:27
根据数据量来选择数据库的都是不懂数据处理的,不解释。

Hmm, I'm going to put the data set into desktop version of Microsoft Access.

....

Just a joke. I'm actually agree with you.
a

发表于 2013-4-12 17:47 来自手机 |显示全部楼层
此文章由 huaxianz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 huaxianz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
psaux 发表于 2013-4-12 14:27
根据数据量来选择数据库的都是不懂数据处理的,不解释。

顶你!
只能说这里懂的人不多。
Advertisement
Advertisement

发表于 2013-4-17 00:34 |显示全部楼层
此文章由 bluesknight 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bluesknight 所有!转贴必须注明作者、出处和本声明,并保持内容完整
典 发表于 2013-4-11 09:37
做IT 不希奇
美女做IT就难得了

我进这家公司的第一个project,6个人的team只有我一个男的,每次加班吃宵夜我都要扮演净坛使者的角色

发表于 2013-4-17 00:37 |显示全部楼层
此文章由 bluesknight 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bluesknight 所有!转贴必须注明作者、出处和本声明,并保持内容完整
workflow 发表于 2013-4-11 09:14
好多年没碰DW了,那时候是DM(data mart)跟DW(data warehouse)两大流派PK,不知道现在是肿么个情况。 ...

现在也还是两个流派,要么是3-tier solution:source -- staging -- DW -- DM,DW只负责data integration,所有business logic集中在DM。要么是2-tier solution,bypass DW,从staging直接到DM。我们一般建议客户用3-tier,除了技术因素外,多一层DW多收一份钱不是

发表于 2013-4-17 00:41 |显示全部楼层
此文章由 bluesknight 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bluesknight 所有!转贴必须注明作者、出处和本声明,并保持内容完整
workflow 发表于 2013-4-11 09:23
恩,我们现在的reporting系统就是realtime的(每晚batch)DM,搞了2年整个enterprise的DW,又烧钱又不出 ...

额,我有点没整明白。要么batch job要么realtime,这每晚batch的realtime是嘛意思?兄弟给解释下?

发表于 2013-4-17 04:43 |显示全部楼层
此文章由 jetty 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jetty 所有!转贴必须注明作者、出处和本声明,并保持内容完整
需求不太清楚。是把DW库的表truncate然后全量update? production 25亿的数据,更改模型是什么?只插入,还是有delete有update,每天更改数据多少,没有这些部分不好定量分析。
V_V

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部