新足迹

 找回密码
 注册

精华好帖回顾

· 心,像开满花的树.(完结篇,451#) (2012-2-23) 坏果子 · 慰劳抽血晚餐--红烧鳕鱼,番茄素牛柳,釀香菇,油焖虾,韭香豆芽粉丝 (2007-9-14) 2zdatou
· 悉尼领事馆办理出售国内房产委托书公证 [攻略] (2015-7-27) dreamliner · 小朋友吃睡两大件事之睡觉(内附睡眠训练流程图+各sleep schools联系方式) (2009-11-26) viviancn
Advertisement
Advertisement
楼主:hxsh2000

[学习培训] 系统的学习Data & Analytics [复制链接]

发表于 2021-6-8 22:46 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
对于用户和客户的了解,市场分析的把握,需要对很多数据的分析。刚接触到Google Analytics和Adobe Analytics,还有需要在数据分析中体现出市场渠道和战略是否执行有效的反馈,于是有多个数据需要分析。应该属于Marketing Campaign分析的范畴。这些是销售和市场部感兴趣的。

Traffic-to-lead ratio (new contact rate)
Lead-to-customer ratio
Landing page conversion rates

对于Sales & Marketing更上层的管理团队来说,除了以上的这些主要KPI外,还需要了解获得这些新客户的成本,外加这些新客户的价值。比如获得了新客户后,前十二个月可以得到的销售和利润;比如扣除了市场部门获得新客户的渠道和广告费用外,给与新客户的折扣有大多;又或者虽然获得了新客户,有多少实际的客户在折扣外还在继续用我们的产品。这些除了标准的KPIs外,需要建立好business rules来对这些方面进行分析。

Customer acquisition cost (CAC)
Customer lifetime value (LTV)
Customer value & segmentation analytics
Advertisement
Advertisement

发表于 2021-6-8 23:09 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
刚好在做commercial and marketing analytics的活儿,打算去学学之前提到的EDX “Berkeley University Online Market Analytics"这门课,非常的适合,会讲解如何看待市场策略,如何制定价格和分析。结果来了一个The Program is expiring soon,没办法enrol了,可惜啊。看来找到好的而且合适的课程,得先enrol了以后再说,感觉EDX上经常出现好的学校的packaged program有时候会被取消。

发表于 2021-6-16 00:37 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
满血复活,继续学习Data & Analytics

发表于 2021-6-20 16:33 来自手机 |显示全部楼层
此文章由 运筹小子 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 运筹小子 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mendietaczfls 发表于 2021-2-17 17:10
是的,我在DE这块工作了几年,现在带一个小的DE team。DE这个职位的业务范畴可大可小,取决于公司的规模 ...

层主,想请教一下您DE岗位的面试一般考察哪些内容呀?谢谢啦

发表于 2021-6-20 21:34 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我经历过的面试差异很大,具体要看岗位的需求。一般来讲,你能对Job Description上的要求有一定的了解或者直接相关经验,那面试问题就不大。

发表于 2021-6-20 21:36 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
运筹小子 发表于 2021-6-20 17:33
层主,想请教一下您DE岗位的面试一般考察哪些内容呀?谢谢啦

我经历过的面试差异很大,具体要看岗位的需求。一般来讲,你能对Job Description上的要求有一定的了解或者直接相关经验,那面试问题就不大。

评分

参与人数 1积分 +2 收起 理由
运筹小子 + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2021-6-21 12:06 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
运筹小子 发表于 2021-6-20 17:33
层主,想请教一下您DE岗位的面试一般考察哪些内容呀?谢谢啦

DE圈子不大,可以多多交流

发表于 2021-6-22 09:12 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mendietaczfls 发表于 2021-6-20 21:34
我经历过的面试差异很大,具体要看岗位的需求。一般来讲,你能对Job Description上的要求有一定的了解或者 ...

能不能请你分享一下,Data Engineer的整体要求和需要用到的工具和语言。那些方面是最重要的

发表于 2021-6-22 23:45 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
hxsh2000 发表于 2021-6-22 10:12
能不能请你分享一下,Data Engineer的整体要求和需要用到的工具和语言。那些方面是最重要的 ...

没问题,这两天事情有点多,周四周五的时候我找时间写一点比较详细的分享

评分

参与人数 1积分 +6 收起 理由
hxsh2000 + 6 太给力了

查看全部评分

发表于 2021-6-23 00:50 来自手机 |显示全部楼层
此文章由 RENZHAJ 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 RENZHAJ 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我也算这个方向
SAP OTC and BW
Data warehouse
Power BI
Azure data integration platform

评分

参与人数 1积分 +2 收起 理由
hxsh2000 + 2 感谢分享

查看全部评分

发表于 2021-6-29 17:47 |显示全部楼层
此文章由 mendietaczfls 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mendietaczfls 所有!转贴必须注明作者、出处和本声明,并保持内容完整
hxsh2000 发表于 2021-6-22 10:12
能不能请你分享一下,Data Engineer的整体要求和需要用到的工具和语言。那些方面是最重要的 ...

上周公司各种行政琐事,耽误了回答问题,今天补上

现在市面上对DE的最普遍要求就是会写Python,而Python基本也是DE需要用到的最重要的语言了。

我把我的DE知识分享一下,没涵盖到的内容可以接着聊。

首先软件运行环境分三种,虚拟机,云原生和Hybrid(即两者结合)。虚拟机运行在云服务商上(AWS, Azure, GCP等)或数据中心的服务器上。如果不考虑云服务商提供的elastic scaling的服务,虚拟机的特点就是你的算力由其硬件配置决定。假设公司里所有的软件环境都是虚拟机(甚至bare-metal),你的数据仓库需要多少内存,硬盘容量,CPU这些都得有大致的规划,不然就会出现例如发现内存不够需要临时插一条新内存的窘境。(亲身经历)而云原生是上述窘境的永久解药。如果你的整个数据栈都是使用的云原生服务,比如AWS大礼包,i.e. Kinesis (streaming), S3 (Data Lake), Lamdba/Step Function (ETL and Orchestration),  Redshift (Data Warehouse) 等,那你就彻底从底层的硬件折磨中解放,可以专注在数据处理的逻辑层面。

DE的工作究其根本,就是一个把数据从源头取来,通过转化,再把它放到目的地的工作,即ETL。市面上有不少例如Informatica, Qlik, Databricks等的工具,可以让你Drag and Drop轻松实现搭建ELT pipeline。大部分企业的需求,这类软件基本都能满足,不过这些公司的pricing model都是收的license fees,也让不少公司望而却步。以上说的这些产品都是proprietary technology,都是要付费的。

一个好的科技栈当然不能缺少open source software,在DE领域,open source软件也是当仁不让,例如Apache Spark, Apache Kafka, Apache Airflow, Apache Beam, Apache Nifi, Apache Flink,根据不同的使用场景,它们都能独当一面,是个中翘楚。尤其Saprk, Kafka, Airflow相信对于接触过DE的人一定不陌生。

在数据储存方面,主要三大类是数据池,业务型数据库和数据仓库。数据池就是dump,各种结构型的非结构型的,不同格式的数据都可以往里面放。话虽如此,如何index数据池,不让它真正成为垃圾堆也需要设计和巧思。业务型数据库,注重的是transaction的速度和效率,例如电商的业务后台。数据仓库,一般不注重速度,不同的使用场景需求也千差万别,但归根结底是为了以下几个原因,处理批量数据或实时流数据,以及高效的分析现有数据。数据存储是公司命脉,不管是普通的NFS(公司网盘),还是以上所诉的三种,丢失数据的风险是不堪设想的,所以数据存储方面的产品一般都价格不菲。proprietary technology,云服务自不必说,open source一般也有commercial version来分一杯羹。

说了这么多的工具,那搭建一个公司需要的数据栈,用哪些产品比较合适,收费的还是open source,如果使用收费产品,如何justify费用,而且我还没提到Data Discovery, Monitoring, Data Governance, Data lineage, Data quality,log management等等。用怎样的基本构架和框架去设计数据栈,This is when the experience kicks in. 甚至如果公司需要你去管理你team的科技栈的buget,为了省budget,有的时候不得不忍痛割爱。

以上讲的是工具和语言类,In a perfect world,如果你的Data Stakeholders能给你完整的需求,包含数据结构,速率要求,数据量等等,那这份工作自然是一个相当适合上班摸鱼的工作了。但根据我的自身经历,大部分公司的Data Stakeholders对数据以及工具的了解有限,很多时候,你需要提供适量的education,反复求证,甚至准备一个backup plan(如果发生之前商量的需求全部需要推翻的情况),而这就是DE考验耐心的部分了。

写了不少了,有哪些没提到的或者有兴趣进一步讨论的,或者需要更正的,欢迎讨论

评分

参与人数 4积分 +16 收起 理由
epoxboy + 4 感谢分享
cathyqk + 4 我很赞同
运筹小子 + 2 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2021-7-2 09:50 |显示全部楼层
此文章由 hxsh2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 hxsh2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mendietaczfls 发表于 2021-6-29 17:47
上周公司各种行政琐事,耽误了回答问题,今天补上

现在市面上对DE的最普遍要求就是会写Python,而P ...

感谢分享哈!

发表于 2021-7-2 10:07 |显示全部楼层
此文章由 chainray 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 chainray 所有!转贴必须注明作者、出处和本声明,并保持内容完整
运筹小子 发表于 2021-6-20 16:33
层主,想请教一下您DE岗位的面试一般考察哪些内容呀?谢谢啦

过去工作经验,做过些什么ETL,automate什么pipe line,处理过些什么文件(parquet,csv  etc)

用过些什么工具,以微软全家桶为例,synapse,analysis services, data bricks, data factory, sql pool,azure data lake storage gen2用得怎么样

能不能写个dax去query tabular model

如果是noSQL的话,澳洲这边marklogic我见过用挺多的(我们以前用的是mapR配合着spark)

基本功的话就是SQL,phyton和powershell

评分

参与人数 2积分 +5 收起 理由
hxsh2000 + 3 感谢分享
运筹小子 + 2 感谢分享

查看全部评分

禱告,因为我渺小。。。。