新足迹

 找回密码
 注册

精华好帖回顾

· 我所经历的一个最不可思议的中介(续在38楼,61楼,104楼,高潮到来,曲终人散172楼)) (2009-6-19) 上海大闸蟹 · 我家孩子学钢琴 (2008-7-22) nitecat
· 雪花作坊~老火汤之雪梨无花果猪骨汤+盐水鸡~~ (2008-3-5) 紫雪花 · 子宫内膜异位症 Endometriosis (2008-1-28) 老杏
Advertisement
Advertisement
楼主:hxsh2000

[学习培训] 系统的学习Data & Analytics [复制链接]

发表于 2021-2-17 17:10 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
米兰小球迷 发表于 2021-2-17 12:49
层主是Data Engineer吗?DE岗shibushi要求会javascript这些语言,才能构建大型企业的数据仓库? ...

是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模和公司现有的数据基础设施(Data Infrastrucutre,包括Data pipeline, Data lake, Data warehouse等等)。一般来讲DE最基础的工作是
1.搭建Data ETL pipeline
2.Data warehouse的数据清理/数据转化的脚本
3. 设计如何应用Data lake
4. 数据备份
5. Data Infrastructure的logs,metrics和dashboard

如果是构建数据仓库(infrastructure as code, networking layer)一般是devops的工作,但是如果公司devops能力有限或人手不够,infrastructure的部分DE也会做。尤其公司如果大量运用云服务,很多像load balancing, availability, scalability, authentication, uptime, SLA这些考虑因素都是云服务在统筹,通过修改设置就可以很轻松的调节,infra的构建相对on-prem会容易很多。

设计数据仓库里的数据结构(schema)是DE的工作范畴,但是一般会和business stakeholder一起完成。

因为每个公司有不同的数据查询频率,历史数据量,每日新增数据量,数据摄入速率等要求,所以DE很大一部分工作是根据需求和公司现有的科技栈来设计Data Infrastructure方案。最适合的方案既要涵盖所有需求又不能over engineered(因为公司没有无限的耐心)。尤其公司如果没有或者没有好的Data Architect,DE的工作其实很挣扎,因为stakeholder很多。

JavaScript可能不是DE最重要的语言,基本上最流行的DE工具和框架都可以用python和sql写,如果会Java那就更好,kafka, hadoop, spark, flink等上手会比较快。

其实我理解的DE就是software engineer,不过是比较专注于数据领域。好的software engineer转型做DE其实很容易。

评分

参与人数 2积分 +7 收起 理由
运筹小子 + 2 感谢分享
hxsh2000 + 5 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2021-2-17 21:45 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mendietaczfls 发表于 2021-2-17 18:10
是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模 ...

很精彩,非常感谢分享

发表于 2021-2-17 21:52 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Udacity对于Tableau的教学属于很简单的,没有任何复杂的或者进阶的功能。这也就是说在需要做一些复杂一点的,或者比较特殊计算和功能的时候,没有办法从之前学到的得以实现。这个就是Udemy只教学Tableau这个课程的好处,十几个小时,从入门到高级的Tableau的功能的介绍,和全部的视频的,一步一步的实现的详细讲解。看了几个Advanced Calculation的视频,感觉这些都非常有用,可以直接应用到最后的作业里。

发表于 2021-2-18 20:16 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
休闲一些,赶赶edX 《Statistical Thinking for Data Science and Analytics》的进度  (Source Ref: https://www.forbes.com/sites/gil ... ce/?sh=5332923055cf)

太阳底下无新事哈......

原来Data Science这么性感的词,1996年就已经提出来了:“1996 Members of the International Federation of Classification Societies (IFCS) meet in Kobe, Japan, for their biennial conference. For the first time, the term “data science” is included in the title of the conference (“Data science, classification, and related methods”). The IFCS was founded in 1985 by six country- and language-specific classification societies, one of which, The Classification Society, was founded in 1964. The classification societies have variously used the terms data analysis, data mining, and data science in their publications.”

更加前瞻性的,早在1990s时代,人们就已经打算使用已有的收银数据和数据库,预测人们的消费趋势,是不是听起来非常的熟悉哈。“September 1994 BusinessWeek publishes a cover story on “Database Marketing”: “Companies are collecting mountains of information about you, crunching it to predict how likely you are to buy a product, and using that knowledge to craft a marketing message precisely calibrated to get you to do so…  An earlier flush of enthusiasm prompted by the spread of checkout scanners in the 1980s ended in widespread disappointment: Many companies were too overwhelmed by the sheer quantity of data to do anything useful with the information… Still, many companies believe they have no choice but to brave the database-marketing frontier.”


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x

发表于 2021-2-18 21:15 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
说说AI,《HBR's (Harvard Business Review) 10 Must Reads on AI, Analytics, and the New Machine Age》里有讲到三个方向,Three types of AI:

* Robotic Process Automation: the most common type (48% of total) is the automation of digital and physical tasks - typically back-office administrative and financial activities - using Robotic Process Automation technologies.  RPA is more advanced than earlier business-process automation tools, because the "robots" act like a human inputting and consuming information from multiple IT systems.  RPA is the least expensive and easiest to implement of the cognitive technologies and typically brings a quick and high return on investment.

* Cognitive Insight: the second most common type of project (38% of the total) uses algorithms to detect pattern in vast volumes of data and interpret their meaning.  Think of it as "Analytics on steroids."  Cognitive insights provided by machine learning differ from those available from traditional analytics in three ways: they are usually much more data-intensive and detailed, the models typically are trained on some part of the data set, and the models get better - that is, their ability to use new data to make predictions or put things into categories improves over time.

* Cognitive Engagement: projects that engage employees and customers using natural language processing chat bots, intelligent agents, and machine learning are the least common type (16% of total)......  Despite their rapidly expanding experience with cognitive tools, however, companies face significant obstacles in development and implementation.

发表于 2021-2-18 21:23 来自手机 |显示全部楼层
此文章由 windwind 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 windwind 所有!转贴必须注明作者、出处和本声明,并保持内容完整
忽然一周 发表于 2021-1-29 23:07
灵魂还是对业务的理解

灵魂还是对钱的理解
Advertisement
Advertisement

发表于 2021-2-20 22:28 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
完成了edX Statistical Thinking for Data Science and Analytics第一周的课和作业

分享一篇<<What is Data Science?>>-The future belongs to the companies
and people that turn data into products,挺详细的讲解了一些概念和应用逻辑。: http://cdn.oreilly.com/radar/2010/06/What_is_Data_Science.pdf

发表于 2021-2-21 13:12 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Negotiation或者讨价还价,是一个长久的,而且艰难的过程。跟业务部门确定时间和资源,和IT部门讨论实现需要的技能和完成时间,都是需要摆事实讲道理,既强硬又留下可供讨论的余地。即使话不投机谈不下去,表面也不能崩,甚至表面谈崩了,下次会议依旧需要重整心情继续谈。

从实际出发,在业务部门,打算通过以节约时间提高效率,来把现有的报表分析系统,整合成一个标准的Data Lake + Reporting Tool的模式,几乎不可能提交出有高价值的business case的,因为单从性价比和投资回报来说,即使现有系统有种种的不足,那都是经过了多年的投入和修改而来的。而要新建一套新的,单单可行性分析,架构,研发出一整套方案,就需要很多的R&D费用了。所以只能往两个方向试着找出有价值的:

1. 和IT部门合作,在时机对的时候,成为其中的一份子,加入进去。因为这个时候,可以加入很多有利于IT部门的成果,比如Data Governance, Data Security, Risk Control, Future Technical Development & Support Cost Reduction, Outsource Support Operating Model等等。利用和其他部门一起合作的机会,达到共同负担费用,得到宝贵的预算,来进行整个系统的升级和整合。

2. 先把原有的整个Platform放一边,从小做起。先在新系统里做出一些新的有价值的东西,慢慢得到大家的认可。随着越来越多业务部门的头头们用到了这个新系统,并认为好的东西都是从这里来的。然后再提出大的整合方案,拿到支持和预算。整个过程往往经历很长的时间,有时候会达到好几年的时间长度。这个过程需要很大的耐心和恒心,还要有一定要实现这些的坚持和信仰。

发表于 2021-2-21 20:45 |显示全部楼层
此文章由 anyzer 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 anyzer 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mendietaczfls 发表于 2021-2-17 18:10
是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模 ...

"其实我理解的DE就是software engineer,不过是比较专注于数据领域"

非常同意的

发表于 2021-2-22 22:34 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
继续做第三个小项目,Superstore Performance Dashboard。基本的分析的Sheets已经做出来,需要整合成一个Dashboard,自己的要求是要做的好看,还在努力中......

这个Youtube的视频讲解如何做好Format的非常值得一看,特别是最后快进的部分,把整个Dashboard的等级提高了很多:https://www.youtube.com/watch?v=RV3QB5r7G1M

发表于 2021-2-23 22:53 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 hxsh2000 于 2021-2-24 07:58 编辑

又忙活了一个晚上,把整个Dashboard给做出来了。接下来还需要加颜色,加标注,加注意事项等,按着上面链接的视频调节背景和整体



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
Advertisement
Advertisement

发表于 2021-2-24 23:39 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 hxsh2000 于 2021-2-25 00:41 编辑

学习了数据收集和分析过程中的Limitations and Biases,很多时候会被忽略的一部分,就是这个过程中会不会影响分析结果。有点接近在读Research Degree过程中,case study analysis的找到比较靠谱的sampling,还有如何更好的收集到数据,用哪些方法可以尽量避免Biases的数据收集。

Udacity的课程打算多学一个月,里面有很多有用的知识点可以借鉴。如果没有完成整个Nanodegree,中间就停了subscription,那么也就没办法用到这些资源了。如果完成了整个Nanodegree,那么结束后还可以有一年的时间可以用到这些资源。虽然这个degree没有非常大的用处,看来还是得争取完成,以能够继续access这些知识。

从开始到现在,刚好一个月,平均每天三个小时,不错的开始!

评分

参与人数 1积分 +2 收起 理由
Mathilda + 2 感谢分享

查看全部评分

发表于 2021-2-26 22:09 |显示全部楼层
此文章由 Mathilda 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Mathilda 所有!转贴必须注明作者、出处和本声明,并保持内容完整
非常感谢楼主的分享!

评分

参与人数 1积分 +2 收起 理由
hxsh2000 + 2 感谢分享

查看全部评分

发表于 2021-2-28 23:01 |