新足迹

 找回密码
 注册

精华好帖回顾

· 澳洲日常美食生活——如果你爱巧克力,请一定不要错过它 (2008-10-17) spicypig · 自制PIZZA (2005-2-28) elin
· 种青菜 (2014-10-5) qld · 当爱已成往事- 林忆莲和李宗盛(Patrick Zhu Vs SteveKing之四)2013年6月重建版本 (2008-6-11) patrickzhu
Advertisement
Advertisement
楼主:cnnworld

[IT] 数据基础普及贴 [复制链接]

发表于 2016-12-1 19:10 |显示全部楼层
此文章由 gyzhen 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gyzhen 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Advertisement
Advertisement

发表于 2016-12-1 21:08 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Gaucho 发表于 2016-12-1 11:19
做最简单的LINEAR REGRESSION的最小二乘法算法就要用到偏微分方程,如果用更难的投影法要用到线性代数的 ...


最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程的方程组的动力学性质,解的稳定性,不同初值和边值对解的影响,求解析解要用到各种变换如laplace、傅里叶,然后你要懂一大堆的特殊函数以及渐近分析。。)然后你说的SVD,矩阵分解以及各种空间变换、dimension reduction一般用在对feature的处理,这些东西只需要到大学二年级程度的微积分和线性代数。其实大部分应用层面的data mining model,你可以去看看KDD的文章,大部分就需要到我上边讲的数学水平就能看懂。Deep learning,需要的数学程度也一样,只需要一些基本的矩阵论,求导法则和条件概率就能看明白。搞deep learning的其实更接近engineering,你需要做大量的实验去尝试构造不同structure的model而不是数学推导。我认识的在google做语音识别deep learning都是research scientist或者software engineer的title,不是data scientist。

不知道你说的是不是netflix prize里边用RBM做推荐系统的那个模型,的确一般DS是不会做到这个层次的,但你去看看那些作者有几个是DS 。我觉得你把DS完全等同于用machine learning做优化,这只是DS工作的一个范畴,但不是全部。DS更加强调全面的skill,知道怎么灵活运用已有技能包括统计ML去解决business问题,而不是对某个点的精通。kaggle上边的东西只反映DS一部分内容,实际工作中,除了建模optimize objective function,你还要设计实验和准备那个CSV文件(通常这部分耗时极长),同时要回答为什么是这些数据,这些数据的可靠程度有多大,为什么要最小化这个目标函数。通常如果问题已经清晰到了可以像刷kaggle那样做的时候,其实已经到了production的阶段,这个时候其实最有用的是做machine learning的engineer,而不是DS。kaggle刷到高分的那些很多是大杂烩一样的ensemble模型。做customized data-driven的模型,你举的那个例子不错,但有能力做到这个程度的,一般是大学或者大公司research division的researcher,而不是一般的DS(有也是像facebook core-data science那样研究性质的DS,这些在DS群体只是非常少数)。

不要把DS看得太高大上,在美国做这个的很多是science背景的phd或者博士后,top学校做AI或者ML科班出身的CS和统计phd很多还真不屑做DS。Data science现在还处于成型阶段,具体定义其实很模糊,我觉得更像是一个职业领域(像accounting这样的)而不是一个研究领域。打个不恰当的比喻,DS用machine learning就好像accountant用税法,大部分就是用,而制定和研究税法的有税法的专家,做machine learning也有machine learning的专家(这些人通常是researcher,engineer。。。)

评分

参与人数 3积分 +11 收起 理由
monica612 + 3 我很赞同
heroxk + 2 我很赞同
slau1 + 6 你太有才了

查看全部评分

退役斑竹 2017年度勋章

发表于 2016-12-1 21:10 |显示全部楼层
此文章由 slau1 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 slau1 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-1 22:08
最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程 ...

终于看到一个明白人
拒絕恐同

2021年度勋章获得者

发表于 2016-12-1 21:37 |显示全部楼层
此文章由 heroxk 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 heroxk 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-1 22:08
最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程 ...

说的太好了。感觉澳洲的DS很多时候更强调Engineering的技能,而不是Scientific技能。主要还是应用型人才,而不是做科研解决fundamental问题的,DS那个Scientist的Title有的时候蛮迷惑人的。

发表于 2016-12-1 21:53 |显示全部楼层
此文章由 Shark-AU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Shark-AU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-1 00:46
我之前用python,去公司之后用R,现在想转回python了。R的语法实在太ugly了,整个语言的设计是面向statis ...

太赞同了,R 用data frame 对 structure的数据处理很好
有时候实现复杂一点的算法,用到 list 的时候头疼
ggplot 虽然功能很强大,但是画个好看点的图 要code 半天

现在项目中就用 R 和tableau 结合做数据可视化 效果还蛮好的
头像被屏蔽

禁止发言

发表于 2016-12-1 21:53 |显示全部楼层
此文章由 Gaucho 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Gaucho 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 Gaucho 于 2016-12-1 23:14 编辑
dogdogkun 发表于 2016-12-1 22:08
最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程 ...


能看懂和能改进还有很大的距离。我们这里不涉及算法设计和改进的TITLE都只是ENGINEER或者ANALYST,DS是要建模和论证模型的,不止是算法选择和参数修改这种应用型工作,虽然从事这些实现工作的资深CONTRACTOR码农的薪资比DS可能还高。
签名被屏蔽
Advertisement
Advertisement

发表于 2016-12-1 21:58 |显示全部楼层
此文章由 Shark-AU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Shark-AU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
现在单位就我一个人做数据,做出结果跟其他 stakeholder 沟通讲解
但是总感觉用数据分析结果 出来了 没有起到决定性的结果,比如改善流程,大家都觉得很amazeing

很好奇 其他公司 真正用上 data science 到产品里的有多少
我知道互联网公司里应用很广泛,但是貌似现在是个公司就招 Data Scientist

发表于 2016-12-1 22:28 |显示全部楼层
此文章由 Janet 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Janet 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Gaucho 发表于 2016-12-1 22:53
能看懂和能改进还有很大的距离。我们这里不涉及算法设计和改进的TITLE都只是ENGINEER或者ANALYST,DS是要 ...

这就是Researcher 和 Engineer 的区别吧? 不是R & D 部门都不会做到设计新的算法, 在大学做研究的, 在别人的算法上加上自己的一点新idea 就可以出新论文了; 而在应用领域, 只要有需求, 就能找到现成的算法。

发表于 2016-12-1 22:52 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Shark-AU 发表于 2016-12-1 22:58
现在单位就我一个人做数据,做出结果跟其他 stakeholder 沟通讲解
但是总感觉用数据分析结果 出来了 没有起 ...

我也有同样的困境,我们公司也是传统的公司,我觉得这个过程会很漫长,除非管理层有人大力去推,要那些stakeholder相信你然后改变他们做业务的方式真不容易

发表于 2016-12-1 23:37 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Gaucho 发表于 2016-12-1 22:53
能看懂和能改进还有很大的距离。我们这里不涉及算法设计和改进的TITLE都只是ENGINEER或者ANALYST,DS是要 ...

看你怎么定义建模和改进了,比如我面过的一个公司(一个国宝级的传统行业龙头),他们认为用decision-tree在数据上做一个classification就是建模了,大部分公司其实都是这个层次,把问题formulate或者变换到可以套用已知算法和模型来解决就算是建模了。至于在数据中发现一些新的pattern,比如变量之间有某些特殊的函数关系,然后在已有模型中加入创新性的component去capture这些pattern,再把模型重新做optimize得到新的模型,效果可以提高的,算是比较有意义的改进(学术界那些data mining的文章很多是这种模式)。做到这个层次的DS恐怕也不多。再进一步,发明新的思想和算法,比如提出random forest,SVM,最近的affinity propagation,到这种层次就别提做data scientist了,在学术界都是超级大牛。

发表于 2016-12-2 00:04 |显示全部楼层
此文章由 Shark-AU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Shark-AU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 Shark-AU 于 2016-12-2 01:05 编辑
dogdogkun 发表于 2016-12-1 23:52
我也有同样的困境,我们公司也是传统的公司,我觉得这个过程会很漫长,除非管理层有人大力去推,要那些st ...


非常赞同,有时候stakeholder根本不care
应该是个长期的过程
现在大公司都开始投资Data Science,应该是意识到数据的作用 Data Scientist 职位这两年蛮多的
Advertisement
Advertisement

发表于 2016-12-2 00:35 来自手机 |显示全部楼层
此文章由 鱼皮花生 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 鱼皮花生 所有!转贴必须注明作者、出处和本声明,并保持内容完整
对于母校发明R表示自豪

发表于 2016-12-2 04:39 |显示全部楼层
此文章由 yabyzq 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yabyzq 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-1 22:08
最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程 ...

同意data science其实不怎么高大上,有点基础入门不难,而且真正model的时间不多,获取数据和展现数据花费的时间更多。data science一般理解下各种package用法,多google,stack overflow, 有些经验就行。当然数学和coding好的话,能重新写一遍model那帮助也非常大。

发表于 2016-12-2 07:37 来自手机 |显示全部楼层
此文章由 whoisit 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 whoisit 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-1 22:08
最小二乘法,里边有偏微分,但不是偏微分方程(一般我们说做偏微分方程是指研究描述一个复杂系统或者过程 ...

Kaggle排名靠前的倒都是engineering背景多,传统数学统计背景的反而少

发表于 2016-12-4 20:54 来自手机 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
鱼皮花生 发表于 2016-12-2 01:35
对于母校发明R表示自豪

University of aucland?

发表于 2016-12-4 21:38 来自手机 |显示全部楼层
此文章由 鱼皮花生 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 鱼皮花生 所有!转贴必须注明作者、出处和本声明,并保持内容完整
dogdogkun 发表于 2016-12-4 21:54
University of aucland?

Advertisement
Advertisement

发表于 2016-12-12 19:37 来自手机 |显示全部楼层
此文章由 dulyoung 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dulyoung 所有!转贴必须注明作者、出处和本声明,并保持内容完整
很有用,收藏了,谢谢楼主!

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部