新足迹

 找回密码
 注册

精华好帖回顾

· 西澳outback (2011-5-30) cigmm · 吃苦与享福 (2008-7-8) youyuan
· 我的兰花集-2011 (2011-7-5) flowerlover · 周六再也不用去看房子了! (2006-7-3) song
Advertisement
Advertisement
查看: 20125|回复: 136

[IT] 数据基础普及贴 [复制链接]

发表于 2016-3-1 17:23 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整

论坛不乏一些刚毕业,或者想转行的,以我自己的经历来看,任何学习都是不需要老师的,但如果有行业内的人可以指点方向,就好比爬山给你指明一条路,能更快的达到目标,本文的目标观众是对数据有一定兴趣,想从事或者有点迷茫的人。

1. 数据是什么?其前景如何?

有人说上帝是个伟大的数学家,事实上生活中的一切都是基于数据的,如果不太严谨的说,任何专业工作都是 数据+行业知识,这导致了数据具有极大的用途,具体说起来如下:

a. 会计学,会计本质是对财务数据的分析整理,会计有其基本理论,但如果结合现代的分析方法和数据处理方法,则会事半功倍。比如你有一堆数字,当你无法用excel自带的功能编制报表,你会考虑VB编程,但如果你会一些计算机的编程手法,你会发现事情居然可以这么容易。 曾经有个四大的高级会计向我求教一个数据的处理问题,可从计算机的角度来看,我只要做个临时表可以马上搞定,而他则是有10年经验的会计,却无法处理

b. 交通工程。 交通里面除了一部分行业知识,大部分都是数据的处理,比如O/D matrix,交通量需求预测,报表,highway capacity其中有些处理方法已经文档化,你只要查询参数就可,但有些方法,依然需要依赖现代的统计方法,比如确定样本大小,回归模型等,交通工程本质就是 行业知识+工具使用+数据处理

c. 电子商务,贸易。 这块就不多说了,什么推荐系统,流浪分析,SEO,digital marketing,没有哪个跟数据是没关系的

d. 未来的无人汽车和更好的语音识别,也是依赖现代的深度学习之类的数据处理技术。

总结:从某种意义上说,专业工作中,80%以上都是跟数据处理方法直接相关的,另外20%则是行业等知识,而且,即使那些目前看起来不需要数据的行业,也在被数据行业改造,最直接的就是中介行业,所以,看一个事情的前景,就是看未来它会如何发展。


2. 作为新手,怎么接触这个行业?

首先,你需要有会学习的心,而且真心爱这件事,你会收到巨大的回报,你要坚信,数据会改变世界,会让人坐在车里不用自己开就能达到目的地,要相信掌握数据,你就比别人掌握了先机,具体说起来,你需要接触以下几点

a. SQL
强调N遍,SQL是基础的基础,SQL 如何学? 用微软的SQL还是 my sql? 坦白说,我认为SQL是不用学的,因为这是个入门极其简单的东西,类似excel,要玩出花不容易,但你只要记住几点

首先,有个环境,这个环境不用自己装,去注册个amazon账号,然后在amazon的aws下申请个mysql的免费服务,然后装个免费的mysql client, 类似 mysql workbench,然后链接成功,这件事,熟手做5分钟,你就算再新手,半天肯定能搞定

其次,尝试着把自己的数据导入到数据库里,看看mysql load命令,我不建议用所谓自带的样本数据,因为你不了解就没兴趣使用,尝试导入自己经常用到的数据

再次,找本基本的书,把ansi SQL的都跑一边

b. 统计理论
当你打算在数据这个海洋摸爬滚打的时候,必要的基础统计学是必须掌握的,不然你看一本书讲到MLE,讲到EM你会很茫然,统计类的书很多,找一本自己最适合的,你需要了解一些基本的统计量,一些基本的测试,需要了解ANOVA,需要了解共线性等专业术语,这本书在我看来1周也能看完


a 和 b 一般两周仔细看,就会让你有点基础了,这个时候,你即使记住了很多东西,还没到你的血液,到血液就需要你去应用这些在你的实际工作

如何应用? 你可以把曾经用excel做的报表,尝试建立数据库连接来做excel报表,这样数据更新的时候,你只要refresh下就能更新excel报表,甚至,你可以用一些shell编程的技巧,来实现数据自动化。至于统计理论,你可以尝试线性模型,可以知道R square的意义,也可以尝试如何判断变量的之间的共线性问题等等

以上这个阶段,就是应用阶段,大致需要3~6个月



3. 我有些基础,该如何进阶?

等经历过这个阶段,你会遇到越来越多的问题,你会开始尝试寻找答案,比如说,我的数据中有缺失值,我该如何处理?比如说,我该如何求一个开放的解?等等的问题,这些问题当你开始提出来的时候,你就开始进入到数据的第二个阶段

这个阶段的时候,你往往要了解更多的数据理论以及工具,从工具角度,你必须掌握两样:R和Python,这两样基本是业界的标配,而且Python在工程上其实应用更多。而数据理论,往往都是一些数据挖掘方面的,数据挖掘有很多算法,算法中有很多技巧,对这些技巧的理解,你需要看书,实践,再看书,最后你就能对这些有深度的理解了

关于数据挖掘之类的书很多,无外乎介绍监督式学习和非监督式学习。监督式学习方法往往有个类别数据,这样就可以建立其输入变量和目标变量的关系,但现实生活中,其实非监督学习的例子更多,因为大多数时候,我们是没有类别变量的,深度学习其实就是基于非监督学习下的一个较新的应用,主要在图像处理和语音语义处理这块。利用大数据的优势,通过求解神经网络来获取对输入数据的抽象,利用少数的打标数据训练出非常高准确率的模型,这也是目前人工智能的方向


到了第二阶段,你需要了解监督学习和非监督学习下的理论,了解其变量处理的技巧,如何防止过拟合,需要对各个算法有很细节的理解。在此基础上,你需要掌握python和R,python的话,你需要了解numpy,pandas和sklearn的包,利用这些包,你可以很有效的做些数据处理的工作。

第二个阶段是比较长期的,以我的经历看,你至少需要6个月时间的学习才会有些基础,当然基础好的会更快

等你过了第二个阶段,你就进入到第三个阶段了,第三个阶段就是要求你了解更多的高级工具,Python和R在我看来只能说是基础工具,就好比你掌握了英文,你现在可以去读书了,高级工具主要是一些开源的社区工具,比如你是否了解hadoop,是否了解Spark



(未完待续)
















































评分

参与人数 18积分 +64 收起 理由
chloetop + 2 谢谢奉献
COC + 3 感谢分享
aquarianw + 3 感谢分享

查看全部评分

Advertisement
Advertisement

发表于 2016-3-1 17:32 |显示全部楼层
此文章由 Shark-AU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Shark-AU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
赞一个 楼主的帖子都很经典

发表于 2016-3-1 19:06 来自手机 |显示全部楼层
此文章由 RENZHAJ 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 RENZHAJ 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主是不是马上回上海面试一个高薪?

发表于 2016-3-1 19:32 |显示全部楼层
此文章由 YugaYuga 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 YugaYuga 所有!转贴必须注明作者、出处和本声明,并保持内容完整
RENZHAJ 发表于 2016-3-1 19:06
楼主是不是马上回上海面试一个高薪?

大学教授?
you only live once

发表于 2016-3-1 19:35 来自手机 |显示全部楼层
此文章由 KaTharina 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 KaTharina 所有!转贴必须注明作者、出处和本声明,并保持内容完整
拜读了
头像被屏蔽

禁止发言

发表于 2016-3-1 19:52 |显示全部楼层
此文章由 闲云散人 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 闲云散人 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 闲云散人 于 2016-3-1 21:16 编辑

楼主我正在自学R 和Python 有联系方式吗
Advertisement
Advertisement

发表于 2016-3-1 19:55 |显示全部楼层
此文章由 kikixy1983 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kikixy1983 所有!转贴必须注明作者、出处和本声明,并保持内容完整
a 和 b 一般两周仔细看,就会让你有点基础了,这个时候,你即使记住了很多东西,还没到你的血液,到血液就需要你去应用这些在你的实际工作

-----如果两周能看懂,这人首先已经有非常好的基础了。

发表于 2016-3-1 20:43 来自手机 |显示全部楼层
此文章由 oznewstarter 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 oznewstarter 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这么无私的奉献 大家都要给加分!! 我先来^^
请楼主继续

发表于 2016-3-1 20:45 |显示全部楼层
此文章由 tigerbalm 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tigerbalm 所有!转贴必须注明作者、出处和本声明,并保持内容完整

发表于 2016-3-1 20:49 来自手机 |显示全部楼层
此文章由 Celllo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Celllo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
谢谢,太无私了。

发表于 2016-3-1 20:52 |显示全部楼层
此文章由 newSYDer 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 newSYDer 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主多说些,大数据BI这方面其实未来是个很好的方向。现在很多公司的BI水平还仅限于reporting, 这点上来比较的话,国内的BAT要厉害很多了。
Advertisement
Advertisement

发表于 2016-3-1 20:55 |显示全部楼层
此文章由 chainray 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 chainray 所有!转贴必须注明作者、出处和本声明,并保持内容完整
newSYDer 发表于 2016-3-1 21:52
楼主多说些,大数据BI这方面其实未来是个很好的方向。现在很多公司的BI水平还仅限于reporting, 这点上来比 ...

啥是BAT?

这个吗

禱告,因为我渺小。。。。

发表于 2016-3-1 20:57 |显示全部楼层
此文章由 YugaYuga 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 YugaYuga 所有!转贴必须注明作者、出处和本声明,并保持内容完整
闲云散人 发表于 2016-3-1 19:52
楼主我正在自学R 和Python 有联系方式吗

当护士用得上R, Phython?

评分

参与人数 1积分 +3 收起 理由
我要好起来 + 3 你太有才了

查看全部评分

you only live once

发表于 2016-3-1 21:01 |显示全部楼层
此文章由 chainray 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 chainray 所有!转贴必须注明作者、出处和本声明,并保持内容完整
YugaYuga 发表于 2016-3-1 21:57
当护士用得上R, Phython?

用得着,我见过RN3.x的用SPSS牛逼得一塌糊涂

评分

参与人数 1积分 +4 收起 理由
闲云散人 + 4 感谢分享

查看全部评分

禱告,因为我渺小。。。。

发表于 2016-3-1 21:02 |显示全部楼层
此文章由 newSYDer 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 newSYDer 所有!转贴必须注明作者、出处和本声明,并保持内容完整
chainray 发表于 2016-3-1 21:55
啥是BAT?

这个吗

baidu
ali
tencent

发表于 2016-3-1 21:03 |显示全部楼层
此文章由 chainray 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 chainray 所有!转贴必须注明作者、出处和本声明,并保持内容完整
newSYDer 发表于 2016-3-1 22:02
baidu
ali
tencent

他们不是用纯SQL的么。。。
禱告,因为我渺小。。。。
Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2016-3-1 21:27 |显示全部楼层
此文章由 闲云散人 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 闲云散人 所有!转贴必须注明作者、出处和本声明,并保持内容完整
YugaYuga 发表于 2016-3-1 21:57
当护士用得上R, Phython?

已经有人替我回答了

发表于 2016-3-1 21:59 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主

看得出楼主是多年业内人士,希望多给点干货;另外也想知道多一些数据行业在澳洲的市场怎么样

发表于 2016-3-1 22:03 |显示全部楼层
此文章由 shareddesk 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 shareddesk 所有!转贴必须注明作者、出处和本声明,并保持内容完整
做ETL的想转这行
现在年龄有点大了34了,估计也转不了了吧
头像被屏蔽

禁止发言

发表于 2016-3-1 22:10 |显示全部楼层
此文章由 tyler_kwok 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tyler_kwok 所有!转贴必须注明作者、出处和本声明,并保持内容完整
正好做这块的,仅仅略懂皮毛,来学习了

发表于 2016-3-1 22:12 来自手机 |显示全部楼层
此文章由 andyhyh 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 andyhyh 所有!转贴必须注明作者、出处和本声明,并保持内容完整
对这个帖子有兴趣或者已经第2/3阶段的 可以联系我 我们在招data science consultant

评分

参与人数 1积分 +4 收起 理由
心平气和 + 4 感谢分享,短下公司名称吧

查看全部评分

Advertisement
Advertisement

发表于 2016-3-1 22:36 来自手机 |显示全部楼层
此文章由 Bingo619 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Bingo619 所有!转贴必须注明作者、出处和本声明,并保持内容完整
厉害

发表于 2016-3-1 23:08 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整
接下来简单说下第三个阶段,第三个阶段讲究的是视野,而这个视野跟计算机工程又非常相关。因为你需要了解很多开源的工具

数据中心从目前体系架构上来看,目前还是没有逃出伯克利的BDAS框架,对BDAS框架有兴趣的可以查找下,事实上,所谓的hadoop, shark (现在已经整合到spark sql里了),yarm等等这些东西,都是在各个不同的层次下的开源应用。每一个层中的一个工具,都可以用一本书来介绍,等你到了第三个阶段,你会非常关心社区的一些更新,甚至说,你可以参与这种更新

到了第三个阶段的初期,你会觉得怎么这么多不同的工具,等到了后期,你会发现所有的工具都有相似性,又有那么些不同,这时候突然来个新的,你的学习曲线会非常容易,因为变来变去都差不多。开源社区有很多不错的好技术,作为数据应用者,如果想学习,可以从Spark入手,Spark提供了4个模块,基本可以完成一个数据中心的建设。

如果你对深度学习有兴趣,可以了解下谷歌的Tensorflow,Tensor是谷歌新定义的一种数据结构(中文叫做张量),但目前的版本只有单机版本,还没有分布式,这里面有好几个算法的实现。还带测试数据。

深度学习有两类网络需要了解,一类是CNN,卷积网络,一类是RNN,RNN有个特殊情形是LSTM,现在几乎所有的语音方面的训练都是基于LSTM的。深度学习的发展带动了人工智能的发展,可以肯定的说,未来5年,无人驾驶车子可以商用化,这方面可以参考下百度大脑和谷歌大脑的项目。Google还有个项目是word2vec也可以去看下,其实从数据的角度,发现思想都是很接近的,就是说,数据太大,先抽象提取关键特征,然后再去训练,寻找好的结果

事实上,第二个阶段和第三个阶段是最花时间的,因为里面的东西非常多,又紧密联系。为什么这么说,我想这方面仔细解释下:

对于第二个方面,你需要了解数据理论和处理方法,简单的来说,你需要做几个步骤:

1. 数据的预处理
这个阶段,你需要学会处理非独立变量的问题,需要做降维操作,需要做缺失值处理,这里面的方法论有一堆,什么SVD拉,PCA拉,LDA拉,regularization 拉等等,学透不容易,都是大量的矩阵运算,公式

2. 模型选择调优
首先你得了解几十个常用的模型,然后知道如果做K-fold 交叉验证,知道如何做sampling,如何参数调优,这里面有十几个方法论

好了,就算你精通上面的东西了,要工程实现又是一道坎,你得了解相关工具的API包,好了,等你这些都了解了,你会发现,这些原来只能在单机上跑,我机器性能不够怎么办?于是从单机转到分布式,又是一堆坑,你得了解SPARK,知道其配置环境,甚至需要有Hadoop文件系统,然后又是一堆学习

所以2 和3 之间是需要巨大学习成本的,这种成本源自于你对数据的热爱,需要多看书,不同公司有不同做法,但是你的价值在于,你能给公司提供更好更牛的方案,而这一切,源于你每天自觉的学习
















评分

参与人数 2积分 +7 收起 理由
whynot + 4 你太有才了
gzrain + 3 你太有才了

查看全部评分

发表于 2016-3-1 23:23 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整

以上三个层次,如果你已经过了,那恭喜你,从技术上说,你已经是一个非常合格的大数据从业者,对于勤奋有理想的博士毕业生来说,如果有2-3年工程上和学术上的结合,基本上可以达到这个要求了,所以这么看来,其实也并不难,一个博士+2年工作经验的数据工作者,并不是那么难找


可博士+2年经验未必能拿到高薪,高薪的另一个加分项就是:工作经验。这个工作经验,取决于你的职场规划

目前要拿到高薪,行业上,互联网+金融是比较火的,业务上,online+offline是比较火的,技术上,如果是全栈工程师是比较火的,身份上,国际化是比较火的,同时人的软实力,包括好奇心和面对挫折的能力,时间节点的控制力,这些都是高薪的因素

当你有了数据的技术能力后,如果想拿更高的高薪,就应该在职场道路上给自己一个规划,千万记住自己选择公司的目的是什么,这个公司除了你能给它带来什么,也要想想这个公司的经历是否对你的职场有帮助,让自己成为稀缺的人,高薪就不远了





发表于 2016-3-2 07:11 |显示全部楼层
此文章由 suyinsarah 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 suyinsarah 所有!转贴必须注明作者、出处和本声明,并保持内容完整
闲云散人 发表于 2016-3-1 20:52
楼主我正在自学R 和Python 有联系方式吗

你不是护士吗

评分

参与人数 1积分 +3 收起 理由
我要好起来 + 3 你太有才了

查看全部评分

充实自己
头像被屏蔽

禁止发言

发表于 2016-3-2 07:53 来自手机 |显示全部楼层
此文章由 闲云散人 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 闲云散人 所有!转贴必须注明作者、出处和本声明,并保持内容完整
suyinsarah 发表于 2016-3-2 08:11
你不是护士吗


噗我说想转行 没说过是护士 再说护士就不能学 R 和 Python 吗
Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2016-3-2 07:55 来自手机 |显示全部楼层
此文章由 闲云散人 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 闲云散人 所有!转贴必须注明作者、出处和本声明,并保持内容完整
andyhyh 发表于 2016-3-1 23:12
对这个帖子有兴趣或者已经第2/3阶段的 可以联系我 我们在招data science consultant  ...

可以问下大概薪水范围吗

发表于 2016-3-2 08:18 |显示全部楼层
此文章由 zzz 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zzz 所有!转贴必须注明作者、出处和本声明,并保持内容完整
闲云散人 发表于 2016-3-2 08:55
可以问下大概薪水范围吗

Data analyst 感觉澳洲不高,初级职位5,6万 。高级职位10万左右。但就楼主描述的似乎要学的比较多和深,phd再加几年工作经验,一般行业也都会拿到或接近这个数,还不费脑子。如果能很容易进入初级职位还行。但我看到好多学精算的学生也不容易找到工作。

评分

参与人数 1积分 +4 收起 理由
闲云散人 + 4 感谢分享

查看全部评分

发表于 2016-3-2 08:30 |显示全部楼层
此文章由 麻辣小龙虾 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 麻辣小龙虾 所有!转贴必须注明作者、出处和本声明,并保持内容完整
高级职位10万左右?学这么多还是和会计差不多啊

发表于 2016-3-2 08:54 |显示全部楼层
此文章由 xiejiannan 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xiejiannan 所有!转贴必须注明作者、出处和本声明,并保持内容完整

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部