新足迹

标题: 系统的学习Data & Analytics [打印本页]

作者: hxsh2000    时间: 2021-1-29 22:32
标题: 系统的学习Data & Analytics
本帖最后由 hxsh2000 于 2022-1-11 17:45 编辑

2021年总结:

啊哈,终于到了2021年最后一天了,没想到这次学习新知识能持续这么长时间,难得啊。我一直都更喜欢这种记录和分享整个过程的RAW的历程,因为这个经历过程会有实实在在的情绪,节奏还有过程的记录,而非过后加工过的经验分享。因为在这个过程中,不同的人们可以从中得到不同的解释和理解。尽量做到RAW Data的呈现。

2021年一月二十九号开始记录至今,全年的工作外学习时间是538小时,包括周末和节假日,平均每天1.58小时的学习时间。

希望2022年继续努力吧,向着我一直期待的集团公司层面的GM/Head of Data and Analytics努力。

——————————————————————————————————

2021年1月29号开篇:

先说说开这个帖子的目的吧,一是分享和交流对数据行业的技术,理解和趋势;二是记录学习的过程和心得;三也许是最重要的,就是在学习和工作过程中,遇到了数据领域或者技术上不懂的,可以和大家请教和讨论。大家共同学习,共同提高!

进入Data & Analytics领域,原本有BI,Power BI,Tableau,Hyperion,ERP Reporting等各种系统用户端和应用端的相关经验。而Data & Analytics的整个领域更加重视的集合各个应用端的数据,使用和构建数据平台,提供给业务部门进行跨应用和整体的分析需求,以提高整合数据并创造商业价值。

数据和分析的三个方向,第一个是业务部门,熟悉商业模型和业务需要,并且熟悉可供分析的数据,使用工具进行有价值的创建分析报告;第二个是IT部门,熟悉后台数据平台的架构,ETL的模型和流程,创建可供商业加工和应用的数据源;第三个是数据分析部门,结合业务部门和IT部门,建立分析和预测模型。

现阶段需要先系统的把第一部分进行整合性的学习,一边学习商业模型和业务,并快速的提高对于可视化报表分析工具的应用能力,且需要学习如何能够使用数据更好的表达和支持商业分析。
作者: hxsh2000    时间: 2021-1-29 22:32
Placeholder 更新进程1
作者: hxsh2000    时间: 2021-1-29 22:33
Placeholder 更新进程2
作者: hxsh2000    时间: 2021-1-29 22:42
现有的进程:
1. Udemy: <The Complete Tableau Bootcamp for Data Visualization>完成了一半的学习,包括Tableau创建报表,建立各种图形,各种使用地图的创建和技巧,颜色的搭配等
2. 现在正在学习Udacity: <Data Visualisation Nanodegree>关注的是如何有效的使用数据可视化进行报表和数据的信息传递,还有数据可视化的需求和开发流程,如何讲好故事传递商业价值。刚刚开始,正在看数据可视化的基本原理和Guideline,如何有效的使用图形,颜色和图表传递信息

作者: Pippa    时间: 2021-1-29 23:05
好奇,如果没有足够的行业知识,如何做数据分析呢?建图表啊这些只是个外壳,灵魂还是对数据的理解啊。
作者: 忽然一周    时间: 2021-1-29 23:07
灵魂还是对业务的理解
作者: Parfaits    时间: 2021-1-29 23:10
确实,现在的课程绝大多数都只是在教如何使用工具,而不是如何思考。
作者: hxsh2000    时间: 2021-1-30 10:40
这是我很喜欢在工作中和不同部门之间沟通使用的一张图,算是在整个Full development life cycle过程中需要用到的Skillset和一般如何分配和谁可能拥有这些技能和知识。这里只用到了Data & Analytics的方面,我在business systems方面和Reporting也都用过,很容易说明问题。我自己给她起名字叫技能光谱。要能成功的实施和做出有价值的,大部分时候都需要获得覆盖整个光谱的知识和技能。我的职业兴趣和方向,也是让整个过程都能在我的管理和调配下,能够提高实施和创造价值,提高成功率。
由于知识和技能的区别,很多时候根据实际情况的不同,有时候不需要配备所有的人员,因为可能有一些职位上的人技能范围比较宽,那么就可以做更多的一些。然而技能的深度和广度,却是有一定的矛盾性的。所以不可能找到技能覆盖广,又能有非常强的知识和技能。

[attach]2246803[/attach]
作者: hxsh2000    时间: 2021-1-30 10:56
Pippa 发表于 2021-1-29 23:05
好奇,如果没有足够的行业知识,如何做数据分析呢?建图表啊这些只是个外壳,灵魂还是对数据的理解啊。 ...

赞同你说的数据分析的观点。

这个需要和实际的技能和需求相关联了,技能懂行业知识,又能理解开发流程,又能做出数据分析的人,少之又少,而且特别贵。我上面列举的技能数,行业知识和业务技能,能够有Business Owner & SME提供的,在实际的操作中这样。然后由有经验的BA进行需求分析,并翻译成Business requirement document的偏技术性的语言,然后和IT部门做实施和协调。Data Analyst在很多时候,需要对Business requirement document和行业和数据的理解的要求,实际上不需要很高的,更多的是知道在说什么和怎么回事,就非常的好了,但核心还是使用工具,把商业需求给实现出来。当然了,如果集齐了七颗龙珠,整个知识点都覆盖甚至精通,就能打通整个关卡,Fill在整个life cycle中的各种knowledge and technical gap,大大的提高沟通的效率。

我是这么觉得的,在这个过程中,各司其职,各个职位有各自的知识和技能的贡献范围。建立一套完整的流程和Operating Model使整个链条上的人能够发挥长处,进行有效的沟通和解决问题,就是一个非常好的Framework了。数据分析的核心是商业需求,重要的是行业知识和业务特点,但这些是Business需要提出和掌握的。BA和DA/DE对于Data & Analytics的贡献,更多的还是如何使用工具,帮助实施这些。
作者: hxsh2000    时间: 2021-1-30 11:28
Parfaits 发表于 2021-1-29 23:10
确实,现在的课程绝大多数都只是在教如何使用工具,而不是如何思考。

是的啊,从九十年代到现在,IT的课程都是教使用工具的多,因为能够快速的转化成看得见摸得着的价值,找到工作或者转行。那些教如何思考的,见效慢而且都是核心基础课程,只能放大学里。
你上了好几个Udacity的课了,有没有什么经验传授一下的

作者: Parfaits    时间: 2021-1-30 12:30
hxsh2000 发表于 2021-1-30 11:28
是的啊,从九十年代到现在,IT的课程都是教使用工具的多,因为能够快速的转化成看得见摸得着的价值,找到 ...

想不到你能认出我来。

udacity的课程鱼龙混杂,说白了这些在线教育网站都是以赢利为目的的,而不是教书育人。
作者: szywj    时间: 2021-1-30 13:03
请问各位,有没数据分析思维的课程推荐
作者: marc1988    时间: 2021-1-30 13:10

作者: nathan0000    时间: 2021-1-30 13:29
马克一下
作者: hxsh2000    时间: 2021-1-30 14:34
szywj 发表于 2021-1-30 13:03
请问各位,有没数据分析思维的课程推荐

数据分析思维是啥意思?技术的,业务的?
作者: hxsh2000    时间: 2021-1-30 14:35
Parfaits 发表于 2021-1-30 12:30
想不到你能认出我来。

udacity的课程鱼龙混杂,说白了这些在线教育网站都是以赢利为目的的,而不是教书 ...

前几天在找网上课程的时候,搜到了你的帖子。你完成了好几门DA/DE/DS的课程了吧
作者: Pippa    时间: 2021-1-30 14:39
hxsh2000 发表于 2021-1-30 10:56
赞同你说的数据分析的观点。

这个需要和实际的技能和需求相关联了,技能懂行业知识,又能理解开发流程, ...

谢谢分享。我不太明白的一点是,按照你分享的这个图,需要不同部门的专业人士合力完成一个项目,对吧?但一个企业哪有那么多这类型的项目,需要长期雇请一个部门运作呢?我看到的情况,对数据分析需求较大的部门自己会有几个人专门负责数据分析。单列一个数据分析部门来负责全公司数据分析需要的情况我没见过。你能说说这是什么情况吗?
作者: Pippa    时间: 2021-1-30 14:50
hxsh2000 发表于 2021-1-30 10:56
赞同你说的数据分析的观点。

这个需要和实际的技能和需求相关联了,技能懂行业知识,又能理解开发流程, ...

我个人还是倾向于认为数据分析可以作为个人技能发展的一个思路和方向。前提是你已经是某专业/行业的资深人士,深造一下数据分析技能,能如虎添翼。如果是高中生,单单在大学学几年数据分析知识,在现实里找到工作的机会反而不大。另外,现在数据分析工具越来越强大,即使像我这样毫无it背景的人也能半路出家,自己完成一整套数据分析的设计、开发和演示。其实也不过是公司付钱去上了几个课程而已。出来的结果跟某四大付了二十几万咨询费的报告几乎没有区别。再次说明,数据分析最关键是对数据的理解而不是那些看上去很强大的分析工具。
作者: Parfaits    时间: 2021-1-30 15:13
hxsh2000 发表于 2021-1-30 14:35
前几天在找网上课程的时候,搜到了你的帖子。你完成了好几门DA/DE/DS的课程了吧 ...

是好几十
作者: Meloni    时间: 2021-1-30 15:19
楼主在DA行业么?还是想转行的
作者: hxsh2000    时间: 2021-1-30 15:22
Pippa 发表于 2021-1-30 14:50
我个人还是倾向于认为数据分析可以作为个人技能发展的一个思路和方向。前提是你已经是某专业/行业的资深 ...

先玩一个小游戏吧,然后我告诉你答案哈,你confirm一下我的猜测呗。
从你上面说的观点,让我猜猜你的背景:首先你应该是business SME,图中的位置;然后你是finance的可能性非常大,operational的可能性小很多;其次你做的分析,使用的是single source的系统拿数据
作者: yzh1999    时间: 2021-1-30 15:38
hxsh2000 发表于 2021-1-30 15:22
先玩一个小游戏吧,然后我告诉你答案哈,你confirm一下我的猜测呗。
从你上面说的观点,让我猜猜你的背景 ...

挺有道理的
作者: Pippa    时间: 2021-1-30 16:57
hxsh2000 发表于 2021-1-30 15:22
先玩一个小游戏吧,然后我告诉你答案哈,你confirm一下我的猜测呗。
从你上面说的观点,让我猜猜你的背景 ...

哈哈:

是business SME - 不是哦。我们不属于任何运营部门,但我们有权随时调用任何系统的实时数据进行分析处理

你是finance的可能性非常大,operational的可能性小很多;- 最近几年的趋势就是往非传统系统数据开发分析工具,从而挖掘更深层的公司文化行为问题

你做的分析,使用的是single source的系统拿数据 - single source的数据一般在系统上线的时候已经定制很多分析报告了。我做的都是多系统不同source data的融合分析,根据项目目的定制数据分析方案。这样做出来的分析结果才能独一无二啊
作者: hxsh2000    时间: 2021-1-30 17:10
Pippa 发表于 2021-1-30 16:57
哈哈:

是business SME - 不是哦。我们不属于任何运营部门,但我们有权随时调用任何系统的实时数据进行 ...

原来是内控团队的朋友,而且有如此兴趣和理解数据的,很难得哈!我得想想如何总结和回答你之前的问题,先欠着哈
作者: hxsh2000    时间: 2021-1-30 17:21
Pippa 发表于 2021-1-30 16:57
哈哈:

是business SME - 不是哦。我们不属于任何运营部门,但我们有权随时调用任何系统的实时数据进行 ...

我之前的一个很好的同事,就是在Assurance team的,做Analytics Manager,在四大和BHP做了十几年。刚进公司,就到处扒拉各个系统的technical lead给她各种数据权限,特别是back end tables access。几个月后,就可以用数据工具和Power BI做出各种报表,非常的强哈。
作者: Pippa    时间: 2021-1-30 19:31
hxsh2000 发表于 2021-1-30 17:21
我之前的一个很好的同事,就是在Assurance team的,做Analytics Manager,在四大和BHP做了十几年。刚进公 ...

做报表不难,难的是这些报表做出来之后能不能反应出管理层不知道的情况?这些报表做出来之后是不是能成为管理层监管的有力工具。得到管理层buy in 才是最难的。
作者: heroxk    时间: 2021-1-30 20:04
本帖最后由 heroxk 于 2021-1-30 20:08 编辑

数据分析要做的好,关键不在于工具,而是对数据理解和把控。这个需要悟性,经验。网课只能帮助入行,后面的修行还看个人。这里说的是data analytics不是engineering。

再深一点,交际能力很重要,想要做的顺,和data owner,business SME成为哥们很重要。一般数据项目中,被人卡脖子的情况一般都是不给你数据,或者不配合你帮忙解释数据含义。

还有就是带货的能力,你出的结论(绝大多数情况下都是有条件成立,或者不是完美的,或者是得罪人的分析结果),怎么通过技巧说服别人去买你的帐。

data analytics是艺术,不是纯技术。
作者: hxsh2000    时间: 2021-1-30 23:14
这周进展不错,周三开始Udacity Data Visualisation Nanodegree的学习后,进度还可以。
学习了Data Visualisation的一些规则和Guideline,如何才能更好的利用数据进行交流,更有效率的传递出需要沟通的信息等。这一章节介绍了一本书<<Storytelling with Data -- a data visualisation guide for business professionals>>出版社也是著名的Wiley。暂时没有时间看这本书,在这个课程中有了一些初步的介绍,以后有空的话可以看看。
然后第二部分是Tableau软件的学习和应用,这个在之前的Udemy学过,所以进度很快,也是很好的复习吧。在软件的学习上,这种以短视频和Text结合软件教学,感觉可能不如Udemy的整个视频教学有效。好处是Udacity能够很好的把握好进度,和Data Visualisation Principle结合在一起。
作者: hxsh2000    时间: 2021-1-30 23:15
Parfaits 发表于 2021-1-30 15:13
是好几十

哈哈,小伙子很努力和认真啊,很有前途,我看好你哦!!!
作者: hxsh2000    时间: 2021-1-30 23:23
Pippa 发表于 2021-1-30 19:31
做报表不难,难的是这些报表做出来之后能不能反应出管理层不知道的情况?这些报表做出来之后是不是能成为 ...

知识,能力,软实力和价格是成正比的,你说的那些能力和经验,是跟长久的行业积累和持续不断的学习紧紧联系在一起的。有这个背景的,至少是Senior,甚至Lead,Manager才会有。对于入门的和在这个领域的才几年经验的年轻人,是没办法真正具备这些的。在那个职位上,没有这些完全的技能,也能做出能够Shining的东西。对于入门和Junior, Mid Level的年轻人,要求实际上并不高,能理解和掌握其中的一环,或者多一些,就足够了。
作者: hxsh2000    时间: 2021-1-30 23:28
heroxk 发表于 2021-1-30 20:04
数据分析要做的好,关键不在于工具,而是对数据理解和把控。这个需要悟性,经验。网课只能帮助入行,后面的 ...

这位大佬一听就是偏技术方向的哈,视角和切入点和业务方向的高手,完全的不同。这就是我想表达的,每个人在那个技能链条上都有自己能搞熟悉的和精通的范围,也都会有自己不熟悉的。所以这种分享非常的好,能够让大家有机会接触这个链条上自己不熟悉的领域,在了解了以后,也能更多的Appreciate其他人的技能和贡献。
作者: Parfaits    时间: 2021-1-30 23:36
hxsh2000 发表于 2021-1-30 23:15
哈哈,小伙子很努力和认真啊,很有前途,我看好你哦!!!

我现在已经是网课小专家了,很多证书都有成套的,AWS,Dataquest,Datacamp,Udacity,Coursera,Udemy,Codecademy我都有较大的进展,希望这些付出能有一天得到回报。
作者: hxsh2000    时间: 2021-1-30 23:36
heroxk 发表于 2021-1-30 20:04
数据分析要做的好,关键不在于工具,而是对数据理解和把控。这个需要悟性,经验。网课只能帮助入行,后面的 ...

特别赞同你说的,通俗一点的说,就是这个过程中要了解:
我们需要什么(Business Value)
如何把Business Strategy分解成能理解的各个部门的目标
如何使用数据帮忙各个部门达到目标
我们有什么数据
这些数据能进行什么分析
如果没有相关数据或者缺少什么,如何得到
最后把上面的这些联系在一起。

作者: hxsh2000    时间: 2021-1-30 23:40
Pippa 发表于 2021-1-30 14:39
谢谢分享。我不太明白的一点是,按照你分享的这个图,需要不同部门的专业人士合力完成一个项目,对吧?但 ...

先分享你一篇我非常喜欢的文章,<<What's your data strategy>> from Harvard Business Review
https://hbr.org/2017/05/whats-your-data-strategy

作者: Dalianmei    时间: 2021-1-31 02:01
谢谢分享,好贴马克
作者: Pippa    时间: 2021-1-31 08:44
hxsh2000 发表于 2021-1-30 23:40
先分享你一篇我非常喜欢的文章,

看完就理解你的角度了。原来是ICT部门的角色啊。那跟我的需求完全不同了。
作者: Pippa    时间: 2021-1-31 08:49
本帖最后由 Pippa 于 2021-1-31 08:52 编辑
hxsh2000 发表于 2021-1-30 23:23
知识,能力,软实力和价格是成正比的,你说的那些能力和经验,是跟长久的行业积累和持续不断的学习紧紧联 ...


我的意思是,如果希望从事数据分析这个行当,应该有意识选择一个(或更多)数据领域进行深造。深造的意思是,把自己打造成某方面的数据专才。比如财务数据,就应该具备一定程度的财务管理知识,而不是单靠business owner去提供这方面的需求。否则,你只是一个工具而不是一个人才。
作者: hxsh2000    时间: 2021-1-31 12:41
Pippa 发表于 2021-1-31 08:44
看完就理解你的角度了。原来是ICT部门的角色啊。那跟我的需求完全不同了。 ...

是的,这个就是我想表达的。在Data & Analytics这个方向上,有Business,Technical,Combination的,每个环节都有自己的贡献,也都有自己领域里的相关要求。一说到Data & Analytics,business side会说行业背景,业务能力是核心,技术能力是添加;technical side会说编程能力,算法和技术非常的重要。这些都非常的有道理,只是出于自己的方向上来说的,往往容易忽视其他部门的贡献和技能。
作者: hxsh2000    时间: 2021-1-31 12:43
Parfaits 发表于 2021-1-30 23:36
我现在已经是网课小专家了,很多证书都有成套的,AWS,Dataquest,Datacamp,Udacity,Coursera,Udemy,Codeca ...

厉害了,小伙子。继续和持续的努力,达到目标
作者: morgan_ma    时间: 2021-1-31 12:47
不错 关注一个 现在公司刚开始做gcp data lake和引进power bi,还在学习中
作者: Pippa    时间: 2021-1-31 13:05
hxsh2000 发表于 2021-1-31 12:41
是的,这个就是我想表达的。在Data & Analytics这个方向上,有Business,Technical,Combination的,每个 ...

我们公司的关键运营部门都在培养自己的数据分析专家,这些同事都有多年本部工作经验,对相关数据,系统和流程都非常熟悉。在这个基础上再送去学习数据分析技术,配合部门管理的需要。我觉得这个模式比较合理。
作者: hxsh2000    时间: 2021-1-31 13:36
本帖最后由 hxsh2000 于 2021-1-31 13:38 编辑
Pippa 发表于 2021-1-31 13:05
我们公司的关键运营部门都在培养自己的数据分析专家,这些同事都有多年本部工作经验,对相关数据,系统和 ...


是的,这是数据和分析需求很大的部门的非常流行的运营模式。部门里有这种Skillsets的人非常的宝贵,因为这些人完全涵盖了Business SME, BA和DA三个方面。

我喜欢的模式是建立一套可执行的模式,通过配合和结合,标准化这个流程和沟通渠道(不依赖于很强的个人能力来涵盖所有),让Senior甚至Mid Level,差不多三到五年的经验(而非第一种模式的十几年)的员工可以发挥最大的空间。
作者: Pippa    时间: 2021-1-31 14:42
hxsh2000 发表于 2021-1-31 13:36
是的,这是数据和分析需求很大的部门的非常流行的运营模式。部门里有这种Skillsets的人非常的宝贵,因为 ...

上次你贴的那个链接就看出你还在非常理想化的学习环境了。事实上,你说的这种模式对于大部分企业都是不可行的。为什么呢?

因为企业无时无刻处于动态状态:

1,企业员工平均服务年限 - 5年左右。负责任说,真正有效做好知识管理的企业少之又少。员工带着技能和经验跳槽,你原先设定的沟通设计流程随着人员交替很大几率也要进行相应改变。

2,企业运营环境 - 从外部到内部,瞬息万变。这些变化无不影响企业原有的运营流程以及人员架构。数据所有人改变了,管理层换人了……大大小小的变化让人无所适从。修改数据分析流程是需要很多时间和成本。管理层精着呢,还不如赶紧找人按新情况做一套数据方案。久而久之,你说的那套流程就变成一纸空文了(我见的太多了)

3,企业管理系统更新速度 - 3-5年吧。不是换新系统就是升级原有系统。系统一变,设置一变,流程上面很多东西就变了。

4,数据分析工具 - 更新换代速度太快,顶多三五年的寿命。旧工具做出来的东西总没有新工具那样花俏。然后管理层凭个人喜好要求你换工具。工具一变,流程又要改变。

如果你说的流程真的存在,那么这个流程一年要改多少遍啊?如此一来,运营成本高了,管理层就不干了。久而久之,又回回到各运营部门各自为政的模式。
作者: hxsh2000    时间: 2021-1-31 15:14
Pippa 发表于 2021-1-31 14:42
上次你贴的那个链接就看出你还在非常理想化的学习环境了。事实上,你说的这种模式对于大部分企业都是不可 ...

难以实现或者遇到现实环境所限,这个模式是可以进行些许改变甚至优化的,这个核心的链条意识是需要有和维持的。随着Data & Analytics的发展,也可以看到更多的人才和人员进入这个领域,原本高高在上的这个领域会渐渐的恢复到应该有的,和其他技术差不多的层面,每个新兴领域都会经历这个过程。我之前有参加过几个大公司的Board Meeting旁听,知道他们对于这块Cost的意见和看法,降低费用和提高效率和产出是非常重要的,仅仅依靠着少数的全能型员工,一方面如你所说,反而应对变化的风险更大,另一方面,会成为产出的瓶颈的。

我现在就在公司内部负责建立和推行这种模式,也在设计标准化的合作流程,还是有一定的信心可以达到我想要的。所有我需要熟悉整个领域里面,各个方向上的贡献和技能需求,然后加深理解大家是如何配合的或者合作的。这个也需要我大量的学习和熟悉这些,开这个帖子也是向大家学习和交流。
作者: hxsh2000    时间: 2021-1-31 15:26
Pippa 发表于 2021-1-31 14:42
上次你贴的那个链接就看出你还在非常理想化的学习环境了。事实上,你说的这种模式对于大部分企业都是不可 ...

非常高兴和你讨论这些,也非常感谢你,让我意识到很多我可以提高和需要沟通的方面。这种模式很容易得到高层的支持,在遇到中层的时候会有一定的阻力,这个我需要提供更多的细节和让大家能清晰理解的方式,得到更多的和广泛的支持。
作者: Pippa    时间: 2021-1-31 17:26
hxsh2000 发表于 2021-1-31 15:14
难以实现或者遇到现实环境所限,这个模式是可以进行些许改变甚至优化的,这个核心的链条意识是需要有和维 ...

我猜你所属的是ict部门?你说的这套流程我们公司也有。就是ict有个专门的分部负责协调各部门制定yi整套的管理报表还有dashboard。是不是这种?公司几个这样的项目我都被邀请参加了,不属于参与者,更多的是监察这个流程的风险和漏洞。整体感觉,ict的数据专家技术可能很行,但对企业流程运作知之甚少,用户需求这块耗时太久,你来我往,把人家运营部门的耐心都耗光了(ict是全职搞项目,运营部门的参与者是百忙中抽空来做这个)。做出来的成果不错的,终端用户都满意。问题是以后需要修改报表需求的时候,流程速度太慢了。所以营运部门如果自己有人会这东西就宁愿在公司报表平台的基础上再搞一套自己用。数据分析可是热馍馍,很多人愿意学的,所以慢慢地就不会依靠ict的流程走了。这是我的观察结果了,希望你比我们公司做得更好。
作者: hxsh2000    时间: 2021-1-31 23:59
今天花了好几个小时,完成了Telling Stories with Tableau,并开始了Design Lifecyle里面的Planning Phase.

设计Data Visualization很重要的是Know your audience
"Empathy is at the heart of design.  Without understanding on others see, feel and experience, design is a pointless task." -- Tim Brown, CEO of Innovation and Design Firm IDEO
作者: hxsh2000    时间: 2021-2-2 08:26
学习了data visualisation设计过程中的,planning phase和design phase。计划阶段和其他的工作一样,谈需求需要了解客户,特点,痛点,想达到什么等。设计阶段讲如何根据需求做一些presentation,如何选择相应的图形表达,怎么设计页面等
作者: hxsh2000    时间: 2021-2-2 08:43
Pippa 发表于 2021-1-31 17:26
我猜你所属的是ict部门?你说的这套流程我们公司也有。就是ict有个专门的分部负责协调各部门制定yi整套的 ...

你说的是ICT的流程,ICT由于accountability不涉及太多做成了后,能确定delivery of benefits,就是你们需要什么,我做什么。这种model没办法参与进analytics的设计阶段,guide做出很好的产品。除非business有非常厉害的,或者全能的,你说的那种十几年以上业务部门经验,又精通数据和流程的,然后和ICT牛掰的DA/DE一起完成产品,强强联合。

这个operating model太过依赖于内部这些厉害的和全能的人,而且这些大咖们到了这个阶段,很多都是有兴趣的才认真和花精力,其他偏BAU的活儿,很难引起他们的认真和关注。这种模式,很难达到我需要的delivery和deployment的需求的。

你自己是这种全能型的,知道你们部门要什么business sme,能开发ba/da,会很自然的认同和appreciate这些skill sets。我喜欢标准化和提高效率,需要能够给我delivery/deployment,你说的这种模式,瓶颈和不确定性大
作者: Pippa    时间: 2021-2-2 08:49
hxsh2000 发表于 2021-2-2 08:43
你说的是ICT的流程,ICT由于accountability不涉及太多做成了后,能确定delivery of benefits,就是你们需 ...

好吧,不杠。如果你在咨询公司做就很合理了。如果在企业做这个还能保持这种理想,我表示非常佩服
作者: hxsh2000    时间: 2021-2-2 08:59
Pippa 发表于 2021-2-2 08:49
好吧,不杠。如果你在咨询公司做就很合理了。如果在企业做这个还能保持这种理想,我表示非常佩服  ...

好吧,我觉得我们一直是在讨论如何是更好的model,哪种可行哪种不可行。你理解为杠,看来真的关注点不同
作者: Pippa    时间: 2021-2-2 09:25
hxsh2000 发表于 2021-2-2 08:59
好吧,我觉得我们一直是在讨论如何是更好的model,哪种可行哪种不可行。你理解为杠,看来真的关注点不同 ...

在我看来,运行模式必须配合企业环境。缺乏了最重要的前提根本没法开展有意义的讨论。所以我觉得再说下去就变成对你的不尊重了,才说了“不杠”。
作者: hxsh2000    时间: 2021-2-2 23:52
今天学习了Polishing Dashboards for Production,讲解了Wireframe和颜色的很多用法,还提供了几个免费网站可以找到比较好的颜色和线框的建议。

真的每一个门类和技术,想做好一点或者深入一些的,都有很多很多的讲究,资源甚至best practice。即使是之前一直觉得难度比较低的Data Visualisation。可以算入门比较好入,但要做好,很讲究的。
作者: hxsh2000    时间: 2021-2-2 23:54
morgan_ma 发表于 2021-1-31 12:47
不错 关注一个 现在公司刚开始做gcp data lake和引进power bi,还在学习中

很好的机会和锻炼,你在其中做什么的
作者: cheapers2003    时间: 2021-2-3 20:46
不明觉厉。搬个马扎儿学习。
作者: hxsh2000    时间: 2021-2-3 22:48
Data Storytelling部分的如何定义有效的Problem Statement,几个重要指标:
Matter to the business
Well-scoped
Specific
Actionable
需要弄清楚GitHub是啥,然后课程说要建立账号什么的。
连续学了一周多,明天休息一天。周末再把三个课程要完成的项目给做完
作者: hxsh2000    时间: 2021-2-3 23:30
最近看了不少MOOC网上培训课程的简介,特别是Data and Analytics方面的,有Udemy,Udacity,Edx等三个。这些网上课程,相对于大学的课程来说,感觉还是非常好的,至少感觉物有所值吧。学到的知识才是最有价值的,也是无价的,确定自己要什么,尽快学完能提高生产力才是重点,花钱买知识也是对知识的一种认可和尊重。

自己用了Udemy,注册了课程来学习软件的,有Tableau,SAP Finance都上了课的,觉得十几块钱,能达到或者超过期望值了。还注册了Python和Salesforce Bootcamp,还没时间看。每门课十几个小时甚至几十个小时的视频,才十几二十几刀,比绝大多数的书都便宜了。

现在在学Udacity的Data Visualisation Nanodegree,主要还是系统的学知识,Certificate并不是很看重。除了一定的软件教学外,主要还是实际中的可视化应用,如何Plan,Design和给出很多有用的颜色和模板类的网上资源。里面还有帮忙看简历和设立职业目标,优化Linkedin的一些服务。每个月付款的话,600一个月,常有半价,一个月$300,算网上课堂来说比较贵的了。由于有Mentor及时的回答问题,帮忙看作业附加服务,所以性价比还可以。学习知识按月付费这种还是比较适合我自己的,有需要完成的动力,或者快点学完。

暂时最喜欢的Edx上面MIT和Berkeley Online的MicroMaster学历,名校啊,几门课的一起一两千刀,非常的划算。就是MIT的那个学位要求很高,需要学很多的理论课和考试,有闲或者想在这个领域打好基础的可以考虑。现在自己暂时属于得快速学习的阶段,等把手头的这些学完了,就可以考虑考虑Berkeley Online的Market Analytics那门课,非常适合在客户部门做数据分析的。

来个鸡汤结尾吧:I am in charge of my own life.  It's all on me.  I take responsibility.  I take action.  You would never hear me complaining another person or circumstance the reason I am not what I want to be.  If I don't like who I am, time in knock down and work harder.  I am the perfect reflection of the hard work or lack of work I put in.  And luck, that only comes with those who pay their dos.
作者: 西部牛仔    时间: 2021-2-4 00:44
不错,关注下。
作者: hxsh2000    时间: 2021-2-4 19:53
明天跟Business和IT team开会,然后确定和讨论整个Operating Model。成功的话整个Data & Analytics开发过程的前一部分,包括从Business & SME的需求分析,BA到DA全部都在自己的管理之下。希望成功,离大目标标准化和优化整个链条又近了一步,虽然距建立整套可执行的流程和流畅的合作还很远很远。
作者: hxsh2000    时间: 2021-2-4 21:32
学习欲望很强烈哈,还是多学习了一会儿Udacity的知识,Issue Tree and How to Build a Ghost Deck。
数据分析的开端,和Business谈需求,都有了一套非常成熟的流程了。包括Scope,Problem Statement,细化到Issue Tree和做Hypotheses,之后根据这些设计和Business讨论,确定方案和方向了后进行深入分析和细化,回归业务部门进行确认或者回馈。
作者: hxsh2000    时间: 2021-2-5 23:56
一整节课把前面的部分整合,讲解一个具体项目,从开始确定需求后,一步一步分析,到把结果呈现出来。属于第四章第五节课:Visualisations and Trying it Together
作者: hxsh2000    时间: 2021-2-6 10:53
很好的一篇文章,Harvard Business Review <<Why Is It So Hard to Become a Data-Driven Company?>>
https://hbr.org/2021/02/why-is-i ... utm_source=linkedin

接下来几周要和业务部门讨论提高业务部门对于有什么数据,对于数据的理解,提高数据的敏感度。只有当业务部门有了一定的数据的理解,才能更好的衔接业务的需要,做出Valuable Insights。然而这也只是中间的过渡,使用Data & Analytics Driven代替传统的Reporting的思维方式,需要建立起新的Data Culture,是非常的难的。这个太宏大的目标,以后再说了。

“What’s at the root of this slow progress? For the fifth consecutive year, executives report that cultural challenges — not technological ones — represent the biggest impediment around data initiatives. In the 2021 survey, 92.2% of mainstream companies report that they continue to struggle with cultural challenges relating to organizational alignment, business processes, change management, communication, people skill sets, and resistance or lack of understanding to enable change. This represents an increase from an already high percentage of 80.9% of firms that named cultural challenges as the greatest impediment to success just four years ago. As management guru Peter Drucker once said, “Culture eats strategy for breakfast.”

One answer is that becoming data-driven takes time, focus, commitment, and persistence. Too many organizations minimize the effort or fail to correctly estimate the time which these kinds of wholesale business transformations require.

Given these findings, Chief Data Officers and corporate data leaders should consider three pragmatic recommendations:

1. Organizations can benefit by focusing their data initiatives on clearly identified high-impact business problems or use cases. By starting where there is a critical business need, executives can demonstrate value quickly through “quick wins” that help a company realize value, build credibility for their investments in data, and use this credibility to identify additional high-impact use cases to build business momentum. We see firms that invest in data capabilities and technology without a clearly defined business demand failing time and time again.

2. Companies must reexamine they ways that they think about data as a business asset of their organizations. Data flows like a river through any organization. It must be managed from capture and production through its consumption and utilization at many points along the way.

3. Data-driven business transformation is a long-term process that requires patience and fortitude. Investments in data governance, data literacy, programs that build awareness of the value and impact of data within an organization, may represent an eventual step in the right direction, but organizations must show that they are in it for the long haul and stick with these investments and not lose patience or abandon efforts when results are not immediately forthcoming.
作者: hxsh2000    时间: 2021-2-6 23:30
八种Data Stories: Change Over Time / Hierarchy Drill Down / Zoom In & Out / Contrasting Values / Intersections / Different Factors / Outliers / Correlations
使用Tableau设计Data Stories和Animation。
Hans Rosling TED talk “The best stats you've ever seen”
https://www.youtube.com/watch?v=hVimVzgtD6w

还有好多东西需要同时看,有点忙不过来,还是得一个一个来
作者: hxsh2000    时间: 2021-2-7 15:20
在Business和IT做DA/DE,同一级别的岗位上,偏技术性的方向收入还是比偏业务方向的高不少。主要的原因还是业务上的话,虽然也在不停的发展,基本的业务逻辑却还是一直保留着延续性,已经积累了很多的人力资源;而IT本来就是近二三十年的告诉发展,每个领域也一直推陈出新,不停的向前发展,于是这一方面的人才储备(特别时新技术)一直处于很缺的状态。比如前面说的Business SME,收入和技术类的Data Engineer/Analyst相比较,收入差不多得差一个职位级别。

另一方面,Business的业务等职业发展,也有非常大的优势,就是有清晰且明确的上升通道,每个业务的顶端,都能达到非常高的层级。而新型的技术类,虽然扮演者越来越重要的位置,却由于没有在传统公司架构中一直占有一席之地,这个职业的发展和向上走的通道很难在短期内能够有很大的提高。比如在IT部门中,Data或者Analytics的顶端几乎不可能拿到CIO的位置,很多的时候,是之下一级甚至二级的部门而已。

这个就是IT方向薪资很高,特别是资深的合同工,却没有很高职位的机会。另外的一点是,以IT related topic建立起来的business case,比较能拿到多一些的项目的基金。而Business related topic在分析这块的,除非涉及到strategy & transformation,拿到多一点的项目基金的机会小了很多。
作者: hxsh2000    时间: 2021-2-7 15:26
接下来需要学习一些关于ETL方面的知识,特别是现在市场上比较热门的Data Lake和ETL的技术,AWS, Redshift, Matillion, Snowlake等。想深入了解和能够进行基本的操作。

请大家介绍一些比较好的课程!
作者: hxsh2000    时间: 2021-2-7 22:16
Data visualisation的课程算是很快的过了一遍了。接下来两周多争取把几个作业要做的projects做了,争取一个月内完成课程,然后下一个topic
作者: 似水骄阳    时间: 2021-2-8 15:05
会计出身,想像数据分析转型,楼主能给点意见吗?谢谢
作者: hxsh2000    时间: 2021-2-9 00:01
完成了Udacity Data Visualisation第一个小项目,用Flights的数据做了两个Sheets和一个Dashboard做出展示。

觉得名校的Professional Certificate还是有一定的光环和加成的。Enrol了ColumbiaX的一个课程,Data Science for Executives。读完可以拿到Professional Certificate。学校和课程名字都非常好,适合现阶段的需求和未来求职的方向。而且还便宜,$400以内。就是四个月的时间,每周学习5-7小时。想深入学习这方面的朋友,mitX有个很深入的MicroMaster,五门课,每周十五个小时以上,接近一年的课程。
作者: dwlyy730    时间: 2021-2-9 10:52
数据分析的行业专业性特别强,楼主最好想清楚自己要做技术还是分析,无论哪个方向,赶紧想办法开始工作才是最重要的,工作中再去学习需要的知识,但是入行数据分析,就很可能被行业限制住,比如做了几年医学数据,再想去金融领域那也是不太现实的,澳洲市场小,如果行业没选好选择会很受限,而做data engineer就相对通用一些,但是就是要不停的学习新技术。
Tableau和PowerBI这些工具学起来很快的,完全没必要专门去听课学,真碰到了,google一下就搞定了,而且很有可能楼主学了这个学了那个,工作中却用了完全不一样的工具,继续重新学,以前学的不用也就忘了。
最后,个人感觉看书比听课效率高一些,祝楼主好运
作者: hxsh2000    时间: 2021-2-9 22:18
似水骄阳 发表于 2021-2-8 15:05
会计出身,想像数据分析转型,楼主能给点意见吗?谢谢

你的职业目标是什么呢?如果是管理会计,FP&A或者Finance Business Partner,那么转型数据分析应该比较顺畅,毕竟熟悉了上层和Commercial要什么,多学学Data Visualisation,把各种报表做的超好看,是很大的优势哈。转为Reporting & Analytics也很容易的。

如果有着一颗IT技术的心,学学SQL,Excel VBA和Python这些编程语言,那么能够理解数据源,从数据库直接调用数据的话,也就直接做成Data Analyst了。
作者: hxsh2000    时间: 2021-2-10 22:48
看了edX的如何上好网课的视频课,包括如何休息好,如何管理好学习进度,如何和老师和学院互动等。edX作为非盈利组织,提高了非常高质量的课程的。很感谢这些名牌大学提供那么多的好课程。

看如何上好网课可以顺便放松一些,也意识到之前几周强度太大。在工作之后,连续两周多每周超过二十个小时很紧密的学习,有点超负荷了,恢复恢复。需要劳逸结合,有耐心些找到平衡的学习节奏
作者: terrysu    时间: 2021-2-12 08:04
楼主讲解的很详细。目前的公司里就是被定位在BA,DA的位置,尴尬的是没有DE给支持,只能自己慢慢的摸索数据库结构,去追着问数据的含义。还有一个难题,公司里的高层觉得你会数据,就把IT不愿意接的活,一股脑推给我,要我去挖数据. 然后就得再追着IT要某个页面后的query,或者原始数据。再加上IT部门特NB哄哄,从来都是邮件石沉大海不回复。如果自己能找到的数据,基本不去IT要,这样的日子真的很难熬,明明title是BA,好像不是干着BA的活。
之前在公司会计有多年经验,会Power BI ,SQL(SQL用的多的主要是查询,网上刷力扣,牛客题自学的)。
目前想换工作,有什么好的建议,公司岗位,以及skillset有需要补充的,谢谢

作者: yzh1999    时间: 2021-2-12 08:43
hxsh2000 发表于 2021-2-4 19:53
明天跟Business和IT team开会,然后确定和讨论整个Operating Model。成功的话整个Data & Analytics开发过程 ...

business和IT都buy in了吗
作者: hxsh2000    时间: 2021-2-12 18:54
yzh1999 发表于 2021-2-12 08:43
business和IT都buy in了吗

哈哈,肯定没那么快,算是一个kick start的会议,接下来一段时间继续讨论如何和区分各个小块。这种跨部门的合作和区分责任义务的讨论,会很漫长和艰辛的,还设计到预算和资源。我把那个技能图展示了,让大家都清楚需要讨论的范围,接着大家都做自己认可的合作模型,然后继续探讨可能性。
作者: hxsh2000    时间: 2021-2-12 19:04
terrysu 发表于 2021-2-12 08:04
楼主讲解的很详细。目前的公司里就是被定位在BA,DA的位置,尴尬的是没有DE给支持,只能自己慢慢的摸索数据 ...

我觉得职业发展最重要需要确定的,首先是自己喜欢什么,你想在工作中获得什么,然后才讨论职业规划和如何达到。比如你的兴趣点在哪里,如何让你能够有成就感,如何让你即使加班,也能乐在其中,或者你想要的就是工作生活的平衡。有了这些信息,才比较能探讨你的职业方向和讨论需要什么额外的知识经验。
作者: flyinfree    时间: 2021-2-12 19:09
heroxk 发表于 2021-1-30 20:04
数据分析要做的好,关键不在于工具,而是对数据理解和把控。这个需要悟性,经验。网课只能帮助入行,后面的 ...

同意的。。。。我是客服销售方面的,价格设定和长约合约什么也由我们干,所以我们也需要分析产品成本(外购和内造)。。。就是因为咱经常用各种数据“打脸“采购那边。。。。

结果人家根本就不想把数据暴露给我。。。。。 明里暗里设了不少关卡 其实我也不在乎。。。只不过是为公司服务罢了。
作者: terrysu    时间: 2021-2-12 20:53
hxsh2000 发表于 2021-2-12 19:04
我觉得职业发展最重要需要确定的,首先是自己喜欢什么,你想在工作中获得什么,然后才讨论职业规划和如何 ...

有小孩有家庭,注重工作家庭平衡是首要的。
至于工作的成就感,愿意往数据分析进一步努力,也能学习的自觉性。
在这样的情况下,应该有怎么选择呢?
还请楼主多多指点,在岗位选择和技能补充方面。谢谢
作者: hxsh2000    时间: 2021-2-12 22:04
记得高二的时候,第一学期英语考试,考了几乎全班倒数。寒假期间,找了补习的,除了大年三十和新年,认真的学了整个假期的英语,然后英语成绩从三十几分提高到了八十几分。

又有了当时的感觉了,除夕和春节休息。然后恢复好,继续努力!
作者: hxsh2000    时间: 2021-2-13 10:56
terrysu 发表于 2021-2-12 20:53
有小孩有家庭,注重工作家庭平衡是首要的。
至于工作的成就感,愿意往数据分析进一步努力,也能学习的自 ...

你的优势是很强的会计背景,那么最好的方向就是如何利用这种背景,往数据分析上转。数据和分析的最终目的,还是要为业务服务,比如增加利润,减少费用,增强合规和数据安全等。首先要注重会计和商业的分析的结合,理解公司对于revenue和各种cost对于P&L和业务的影响,然后这些方面有没有什么challenge,然后可以提高的地方并且用数据来支持你的想法。这里有两个方向:1. 往Strategy & Data方向走,和公司的高层打交道,理解她们对于业务的痛点和对数据的需求,通过你对于业务和数据的理解,增强Data Visualisation和Presentation的技能,领导Data Analysts团队做出容易让高层接受的建议;2. 往Data方向走,多和技术部门打交道,如你现在做的,并更深入的理解各个系统里面数据的来源和结构,慢慢达到其他人需要什么数据,你能够直接给出数据建议;3. 往Statistics方面,需要建立模型和算法预测未来的可能性和走向了(这个领域我接触很少,展开不了)。

比如说Billing collection and receivable,在多系统构架的公司,要得到确切和全面的数据,是非常难的。而更加难的是和高层沟通后,这个topics需要关注的和需要报告的方向,并建模设定出KPIs和优化汇报模型。再根据数据的理解,沟通需要什么数据。第二个方向,就是掌握和理解了哪个系统能出什么数据,怎么把数据结合在一起。如果公司用的是大系统,那么换工作的时候,能够懂得特定系统背后数据流向,是非常有价值的。

数据分析还有偏technical的Data Analyst,你有了SQL和Python的基础,也是一个方向。说到底,一方面,会用和精通还是有很大的距离,需要花很多的精力学习和提高;另一方面,你原有的多年工作经验,价值增值和可过渡性会打折扣。
作者: hxsh2000    时间: 2021-2-14 00:05
准备第二个Data Visualisation的作业,需要根据提问的问题,画出草图Sketch,然后做出框架,可以更有效的在前期和需求方确定方向和基调。更重要的,和几乎所有需求一样,需要弄清楚谁是主要用户,需要从中得到什么,解决什么问题,用户的喜好和特点,然后才能做出受欢迎的,贴切需求的成果。

其实Data Visualisation是一个要求很高的技术,需要审美,需求页面设计甚至美术基础,才能做出高质量的视图和数据可视化。需要attention to details,需要完整的架构页面的整体平衡,才能做出好的页面和表达。更需要了解用户,针对用户可以理解和了解的程度,做出可被接受的成果。

分享一个基本图形和如何找到适合图形的网站juicebox:http://labs.juiceanalytics.com/chartchooser/index.html

作者: hxsh2000    时间: 2021-2-14 22:38
第二个项目打回来重做,需要把六个需要回答的问题,用不同的图形在一个Dashboard里面做出来,然后还需要做的清晰,结构合理。重新看了一遍相关的章节,觉得还是有点难度,主要是要做好,难度不小。

分享几个关于颜色的网站:
Colour Brewer: https://colorbrewer2.org/#type=sequential&scheme=OrRd&n=6
Your Friendly Guide to Colours in Data Visualisation: https://blog.datawrapper.de/colorguide/

没开始这个课程之前,一直觉得Tableau,Power BI等应该挺容易学的,也容易上手。先在技术上遇到LOC和DAX,算是一点小挑战。然后遇到图形,颜色和构图,这个对于没有图形设计基础的来说,更难一些吧
作者: hxsh2000    时间: 2021-2-15 23:25
本帖最后由 hxsh2000 于 2021-2-24 07:59 编辑

重做了第二个项目,花了不少时间修改,并把六个问题装在了一个Dashboard里面,把几个图放整齐,按要求不加颜色,只用灰度,也顺利的过了。

数据分析的可视化也和网页和页面的呈现一样,要清楚的给用户提供标识和可做的操作,Affordance & Signifier。

Don Norman’s seven fundamental design principles: https://uxdesign.cc/ux-psycholog ... ciples-39c420a05f84

Interaction Design Foundation: https://www.interaction-design.org/literature/topics/affordances

作者: 米兰小球迷    时间: 2021-2-16 12:57
hxsh2000 发表于 2021-1-30 10:40
这是我很喜欢在工作中和不同部门之间沟通使用的一张图,算是在整个Full development life cycle过程中需要 ...

technically speaking, 一个合格的Data Scientist得掌握三方面的知识mathmatics,statistics,and computer science。
然后根据公司所处行业,了解加深入学习业务知识,才能将data转化成actionable insight,从而驱动业务发展,为企业zengjia利润或者削减成本吧。个人的一点薄见。
作者: 米兰小球迷    时间: 2021-2-16 12:59
szywj 发表于 2021-1-30 13:03
请问各位,有没数据分析思维的课程推荐

上Kaggle,里面都是真实的案例或者competition,code+analysis都有。
作者: z_denise    时间: 2021-2-16 13:20
佩服楼主啊!怎么做到一边全职工作,一边学网课的?我也在udemy上面买了几门课,可是往往开了个头就做不下去了,这方面能分享一下心得吗?如何让自己能学的下去呢?
作者: cxhugh    时间: 2021-2-16 14:36
hxsh2000 发表于 2021-2-15 23:25
重做了第二个项目,花了不少时间修改,并把六个问题装在了一个Dashboard里面,把几个图放整齐,按要求不加 ...

有的时候感觉tableau这种软件真的很容易上手来做dashboard,直接在界面上选想要什么就好了。用R做Shiny感觉写代码就要写好久,而且很多东西都要调来调去。。。Python画图感觉还是没有R的ggplot好用
作者: mendietaczfls    时间: 2021-2-16 23:13
给楼主点赞。本人就是数据平台/工程从业者,看了一下楼主1楼和8楼对行业的理解和概括,还是蛮到位的,对于以后有志向加入这个行业的人来说也会有挺大帮助。
作者: hxsh2000    时间: 2021-2-17 00:09
第三个作业,做一个完整的Dashboard,要求相当于做全功能的,需要做各种视图,使用不同的参数,做互动的报表,并从Summary --> Filter Discovery --> Detailed Reporting。建立好构图,text hierarchy, 使用好颜色,标注等。

看到有些学员做的真的很好看,颜色和谐,视图构图清晰明了,特别是选的图形贴合表达的重点,并且多样化。对于Data Visualisation入门者来说,能使用的图形很容易单一化(Bar Chart, Pie Chart, Line Chart等),颜色的把握也有很多需要提高的地方。争取多花点时间做个好点的出来,就可以当作以后做类似项目的模板了。没有个一两天怕是整不出来了哈。
作者: hxsh2000    时间: 2021-2-17 00:14
z_denise 发表于 2021-2-16 13:20
佩服楼主啊!怎么做到一边全职工作,一边学网课的?我也在udemy上面买了几门课,可是往往开了个头就做不下 ...

主要是工作中需要用到,而且还得指导人家做的好看。没有点实力说出个圈圈和框框,或者随手拈来个best practice,讲讲一下该有的流程,不容易领导小朋友们做东西哈。
作者: 米兰小球迷    时间: 2021-2-17 12:49
mendietaczfls 发表于 2021-2-16 23:13
给楼主点赞。本人就是数据平台/工程从业者,看了一下楼主1楼和8楼对行业的理解和概括,还是蛮到位的,对于 ...

层主是Data Engineer吗?DE岗shibushi要求会javascript这些语言,才能构建大型企业的数据仓库?
作者: mendietaczfls    时间: 2021-2-17 18:10
米兰小球迷 发表于 2021-2-17 12:49
层主是Data Engineer吗?DE岗shibushi要求会javascript这些语言,才能构建大型企业的数据仓库? ...

是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模和公司现有的数据基础设施(Data Infrastrucutre,包括Data pipeline, Data lake, Data warehouse等等)。一般来讲DE最基础的工作是
1.搭建Data ETL pipeline
2.Data warehouse的数据清理/数据转化的脚本
3. 设计如何应用Data lake
4. 数据备份
5. Data Infrastructure的logs,metrics和dashboard

如果是构建数据仓库(infrastructure as code, networking layer)一般是devops的工作,但是如果公司devops能力有限或人手不够,infrastructure的部分DE也会做。尤其公司如果大量运用云服务,很多像load balancing, availability, scalability, authentication, uptime, SLA这些考虑因素都是云服务在统筹,通过修改设置就可以很轻松的调节,infra的构建相对on-prem会容易很多。

设计数据仓库里的数据结构(schema)是DE的工作范畴,但是一般会和business stakeholder一起完成。

因为每个公司有不同的数据查询频率,历史数据量,每日新增数据量,数据摄入速率等要求,所以DE很大一部分工作是根据需求和公司现有的科技栈来设计Data Infrastructure方案。最适合的方案既要涵盖所有需求又不能over engineered(因为公司没有无限的耐心)。尤其公司如果没有或者没有好的Data Architect,DE的工作其实很挣扎,因为stakeholder很多。

JavaScript可能不是DE最重要的语言,基本上最流行的DE工具和框架都可以用python和sql写,如果会Java那就更好,kafka, hadoop, spark, flink等上手会比较快。

其实我理解的DE就是software engineer,不过是比较专注于数据领域。好的software engineer转型做DE其实很容易。
作者: hxsh2000    时间: 2021-2-17 22:45
mendietaczfls 发表于 2021-2-17 18:10
是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模 ...

很精彩,非常感谢分享
作者: hxsh2000    时间: 2021-2-17 22:52
Udacity对于Tableau的教学属于很简单的,没有任何复杂的或者进阶的功能。这也就是说在需要做一些复杂一点的,或者比较特殊计算和功能的时候,没有办法从之前学到的得以实现。这个就是Udemy只教学Tableau这个课程的好处,十几个小时,从入门到高级的Tableau的功能的介绍,和全部的视频的,一步一步的实现的详细讲解。看了几个Advanced Calculation的视频,感觉这些都非常有用,可以直接应用到最后的作业里。
作者: hxsh2000    时间: 2021-2-18 21:16
休闲一些,赶赶edX 《Statistical Thinking for Data Science and Analytics》的进度  (Source Ref: https://www.forbes.com/sites/gil ... ce/?sh=5332923055cf)

太阳底下无新事哈......

原来Data Science这么性感的词,1996年就已经提出来了:“1996 Members of the International Federation of Classification Societies (IFCS) meet in Kobe, Japan, for their biennial conference. For the first time, the term “data science” is included in the title of the conference (“Data science, classification, and related methods”). The IFCS was founded in 1985 by six country- and language-specific classification societies, one of which, The Classification Society, was founded in 1964. The classification societies have variously used the terms data analysis, data mining, and data science in their publications.”

更加前瞻性的,早在1990s时代,人们就已经打算使用已有的收银数据和数据库,预测人们的消费趋势,是不是听起来非常的熟悉哈。“September 1994 BusinessWeek publishes a cover story on “Database Marketing”: “Companies are collecting mountains of information about you, crunching it to predict how likely you are to buy a product, and using that knowledge to craft a marketing message precisely calibrated to get you to do so…  An earlier flush of enthusiasm prompted by the spread of checkout scanners in the 1980s ended in widespread disappointment: Many companies were too overwhelmed by the sheer quantity of data to do anything useful with the information… Still, many companies believe they have no choice but to brave the database-marketing frontier.”

[attach]2252126[/attach]

作者: hxsh2000    时间: 2021-2-18 22:15
说说AI,《HBR's (Harvard Business Review) 10 Must Reads on AI, Analytics, and the New Machine Age》里有讲到三个方向,Three types of AI:

* Robotic Process Automation: the most common type (48% of total) is the automation of digital and physical tasks - typically back-office administrative and financial activities - using Robotic Process Automation technologies.  RPA is more advanced than earlier business-process automation tools, because the "robots" act like a human inputting and consuming information from multiple IT systems.  RPA is the least expensive and easiest to implement of the cognitive technologies and typically brings a quick and high return on investment.

* Cognitive Insight: the second most common type of project (38% of the total) uses algorithms to detect pattern in vast volumes of data and interpret their meaning.  Think of it as "Analytics on steroids."  Cognitive insights provided by machine learning differ from those available from traditional analytics in three ways: they are usually much more data-intensive and detailed, the models typically are trained on some part of the data set, and the models get better - that is, their ability to use new data to make predictions or put things into categories improves over time.

* Cognitive Engagement: projects that engage employees and customers using natural language processing chat bots, intelligent agents, and machine learning are the least common type (16% of total)......  Despite their rapidly expanding experience with cognitive tools, however, companies face significant obstacles in development and implementation.
作者: windwind    时间: 2021-2-18 22:23
忽然一周 发表于 2021-1-29 23:07
灵魂还是对业务的理解

灵魂还是对钱的理解
作者: hxsh2000    时间: 2021-2-20 23:28
完成了edX Statistical Thinking for Data Science and Analytics第一周的课和作业

分享一篇<<What is Data Science?>>-The future belongs to the companies
and people that turn data into products,挺详细的讲解了一些概念和应用逻辑。: http://cdn.oreilly.com/radar/2010/06/What_is_Data_Science.pdf

作者: hxsh2000    时间: 2021-2-21 14:12
Negotiation或者讨价还价,是一个长久的,而且艰难的过程。跟业务部门确定时间和资源,和IT部门讨论实现需要的技能和完成时间,都是需要摆事实讲道理,既强硬又留下可供讨论的余地。即使话不投机谈不下去,表面也不能崩,甚至表面谈崩了,下次会议依旧需要重整心情继续谈。

从实际出发,在业务部门,打算通过以节约时间提高效率,来把现有的报表分析系统,整合成一个标准的Data Lake + Reporting Tool的模式,几乎不可能提交出有高价值的business case的,因为单从性价比和投资回报来说,即使现有系统有种种的不足,那都是经过了多年的投入和修改而来的。而要新建一套新的,单单可行性分析,架构,研发出一整套方案,就需要很多的R&D费用了。所以只能往两个方向试着找出有价值的:

1. 和IT部门合作,在时机对的时候,成为其中的一份子,加入进去。因为这个时候,可以加入很多有利于IT部门的成果,比如Data Governance, Data Security, Risk Control, Future Technical Development & Support Cost Reduction, Outsource Support Operating Model等等。利用和其他部门一起合作的机会,达到共同负担费用,得到宝贵的预算,来进行整个系统的升级和整合。

2. 先把原有的整个Platform放一边,从小做起。先在新系统里做出一些新的有价值的东西,慢慢得到大家的认可。随着越来越多业务部门的头头们用到了这个新系统,并认为好的东西都是从这里来的。然后再提出大的整合方案,拿到支持和预算。整个过程往往经历很长的时间,有时候会达到好几年的时间长度。这个过程需要很大的耐心和恒心,还要有一定要实现这些的坚持和信仰。
作者: anyzer    时间: 2021-2-21 21:45
mendietaczfls 发表于 2021-2-17 18:10
是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模 ...

"其实我理解的DE就是software engineer,不过是比较专注于数据领域"

非常同意的
作者: hxsh2000    时间: 2021-2-22 23:34
继续做第三个小项目,Superstore Performance Dashboard。基本的分析的Sheets已经做出来,需要整合成一个Dashboard,自己的要求是要做的好看,还在努力中......

这个Youtube的视频讲解如何做好Format的非常值得一看,特别是最后快进的部分,把整个Dashboard的等级提高了很多:https://www.youtube.com/watch?v=RV3QB5r7G1M





欢迎光临 新足迹 (https://oursteps.co/bbs/forum.php/bbs/forum.php/) Powered by Discuz! X3.4