新足迹

 找回密码
 注册

精华好帖回顾

· 新足迹五周年献礼--------Pork loin crown rib roast with wild rice, sausage and apple stuf (2013-1-14) chesecake · 裁员记 (2009-2-11) garysu
· P1成功转成P2 (2004-12-29) JACK · 【OVATION OF THE SEAS】海洋礼赞号南太平洋【SOUTH PACIFIC】 (2023-12-12) 出国吃考拉
Advertisement
Advertisement
查看: 5427|回复: 26

[IT] 有做机器学习方面的高手吗 [复制链接]

发表于 2016-4-5 00:32 |显示全部楼层
此文章由 woshidajiangyou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 woshidajiangyou 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我把andrew ng的机器学习和yaser的learning from data都看了一遍,感觉真是难懂,主要是数学方面的
实际工作中(非大学里的研究工作),一般会涉及到什么层次?比如神经网络和svm,是底层到矩阵运算,还是把这些算法当作黑盒使用?而无需理解这些算法的内部实现?

锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。
Advertisement
Advertisement

发表于 2016-4-5 07:19 来自手机 |显示全部楼层
此文章由 浮云马 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 浮云马 所有!转贴必须注明作者、出处和本声明,并保持内容完整
举个例子,码农都会用数据库,有几个真正知道b+ tree的内部实现的?

发表于 2016-4-5 07:41 来自手机 |显示全部楼层
此文章由 eguan88 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 eguan88 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这年头码农都是到处找code当黑盒子用。

发表于 2016-4-5 07:51 |显示全部楼层
此文章由 klux 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 klux 所有!转贴必须注明作者、出处和本声明,并保持内容完整
都可以啊,你当黑盒用,那你就是一个黑盒层次的码农
你搞清了背后的算法,那你就是一个算法层次的码农
取决于你的目标咯

发表于 2016-4-5 16:44 |显示全部楼层
此文章由 ilovetudou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ilovetudou 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主能不能把你说的那本书发我一个?自己想看看

发表于 2016-4-6 16:31 |显示全部楼层
此文章由 jacey 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jacey 所有!转贴必须注明作者、出处和本声明,并保持内容完整
eguan88 发表于 2016-4-5 07:41
这年头码农都是到处找code当黑盒子用。

这年头厨子都是到处找屠宰好的肉,磨好的面,种好的菜, 做美食...

评分

参与人数 1积分 +2 收起 理由
woshidajiangyou + 2 你太有才了

查看全部评分

Advertisement
Advertisement

发表于 2016-4-6 17:02 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整

1. 实际应用中,算法基本都是黑盒,只要会代码就基本OK

2. 但难点是调优,因为要调优,你就必须理解算法的一些细节,比如SVM的算法,本质上是处理线性可分的样本,如果你用它来处理一个非线性的实例,就需要做转换,于是有了kernel SVM这一说,另外svm的解法其实是个二次规划问题,这些细节都会影响到你最后使用SVM的效果。另外如果为了增加容错,需要有个slack variable, 这个东西到底是什么,你不理解的话你如何理解api里面的参数?就拿一个SVM来说,同样的算法包,不同的人做出来最后的准确率是不同的,有时区别很大。

3. 一般说起来,做机器学习,技能上,80%是你对软件的熟练使用(包括各种程序包),但对于算法的理解,你至少也要懂40%-60%的深度,对大多数人的门槛,其实是后者,因为了解40%有时也不是那么容易的。

评分

参与人数 2积分 +7 收起 理由
epoxboy + 4 感谢分享
woshidajiangyou + 3 感谢分享

查看全部评分

发表于 2016-4-6 17:10 |显示全部楼层
此文章由 cnnworld 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 cnnworld 所有!转贴必须注明作者、出处和本声明,并保持内容完整
浮云马 发表于 2016-4-5 07:19
举个例子,码农都会用数据库,有几个真正知道b+ tree的内部实现的?


数据库访问角度看:

1. 实现某个单机版功能的,需要懂基本的SQL

2. 实现某个单机版复杂功能的,需要有较强的SQL技巧,这就需要对数据库有较深的理解,至少知道index,知道sql调优的一些技巧,不然为了一个同样的结果,有些query是timeout然后fail,有些query是可以被执行。

3. 实现分布式功能的,就需要读写分离,主从复制,分库分表。这就需要对数据库有更深的理解。

所以你说的码农都会用数据库,我敢说,“会用” 这个词,不是每个人敢这么说的。 机器学习也是如此,你copy一段代码,跑一下,得到一个结果不难,难就在细节里面。

不过未来的趋势是机器越来越聪明,目前的深度学习就在往这个方向发展,到时候也许真不需要任何模型调优方面的技巧了,甚至一切都统一了,不过估计我们这一代,还是很难实现的。因为理论上,机器人都可以取代人类。

评分

参与人数 1积分 +3 收起 理由
woshidajiangyou + 3 感谢分享

查看全部评分

发表于 2016-4-6 17:17 来自手机 |显示全部楼层
此文章由 whoisit 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 whoisit 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-4-6 17:02
1. 实际应用中,算法基本都是黑盒,只要会代码就基本OK

2. 但难点是调优,因为要调优,你就必须理解算法 ...

数据行业是不是每周都得oral presentation啊还是写report就行?要是口语不大好还做不了呢

发表于 2016-4-6 23:55 |显示全部楼层
此文章由 woshidajiangyou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 woshidajiangyou 所有!转贴必须注明作者、出处和本声明,并保持内容完整
ilovetudou 发表于 2016-4-5 15:44
楼主能不能把你说的那本书发我一个?自己想看看

https://www.coursera.org/learn/machine-learning
https://work.caltech.edu/telecourse.html

这两门课应该是公认的机器学习最佳入门课程

评分

参与人数 3积分 +10 收起 理由
清风拂山岗 + 3 谢谢奉献
cloud226 + 3 感谢分享
ilovetudou + 4 感谢分享

查看全部评分

锦瑟无端五十弦,一弦一柱思华年。
庄生晓梦迷蝴蝶,望帝春心托杜鹃。
沧海月明珠有泪,蓝田日暖玉生烟。
此情可待成追忆,只是当时已惘然。

发表于 2016-4-7 00:40 |显示全部楼层
此文章由 HISOKA 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 HISOKA 所有!转贴必须注明作者、出处和本声明,并保持内容完整
andrew ng的课程不错
Advertisement
Advertisement

发表于 2016-4-7 03:58 |显示全部楼层
此文章由 xji 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 xji 所有!转贴必须注明作者、出处和本声明,并保持内容完整
实际上,扣底层实现原理的人不如拿黑盒来用的人混得好。拿黑盒做模型的人不如懂业务有人脉会来事的人混得好。到头来,你会发现,一个懂点业务能说会道和上面关系又好的人管着一帮懂黑白盒的技术人士,而这个头头对这些东西连皮毛都不懂。但是头衔上扣着分析建模团队senior manager。

发表于 2016-4-7 07:32 来自手机 |显示全部楼层
此文章由 浮云马 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 浮云马 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-4-6 17:10
数据库访问角度看:

1. 实现某个单机版功能的,需要懂基本的SQL

接着你的例子来说,我想运行一个sql query。这么简单的要求,会有多难呢?

1. data scientist
会写SQL,拿到想要的结果就可以了

2. data engineer
需要把原始数据收集起来,ETL到数据库里,供data scientist使用

3.DBA
数据库怎么设计?要不要partition,要不要high available,各种数据库的参数设置,性能调优

4. infrastructure engineer
数据库在什么样的vm上跑?要不要fusion io?replication需要什么样的网络配置?

这个例子可以无限延长下去。

cross function重不重要?很重要。data scientist懂一点etl,可能只有10%,已经可以让他在没有data engineer的时候能继续工作下去。但是,生也有涯,知也无涯,花大量的精力去精通etl是不是对的?我觉得不是,因为你的职位是data scientist不是data engineer,从数据里给出business insight才是你的本职工作。

评分

参与人数 1积分 +4 收起 理由
joerkky + 4 感谢分享

查看全部评分

发表于 2016-4-7 07:50 来自手机 |显示全部楼层
此文章由 浮云马 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 浮云马 所有!转贴必须注明作者、出处和本声明,并保持内容完整
xji 发表于 2016-4-7 03:58
实际上,扣底层实现原理的人不如拿黑盒来用的人混得好。拿黑盒做模型的人不如懂业务有人脉会来事的人混得好 ...

你说对了,因为头头的本职工作不是建模,而是向他的老板陈述建模的重要性,拿funding找懂得建模的人去建模

发表于 2016-4-7 10:27 |显示全部楼层
此文章由 jacey 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 jacey 所有!转贴必须注明作者、出处和本声明,并保持内容完整

发表于 2016-4-7 10:28 |显示全部楼层
此文章由 chainray 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 chainray 所有!转贴必须注明作者、出处和本声明,并保持内容完整
stackoverflow能解决你8成以上的问题
Advertisement
Advertisement

特殊贡献奖章

发表于 2016-4-7 11:33 |显示全部楼层
此文章由 kr2000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 kr2000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
浮云马 发表于 2016-4-7 07:32
接着你的例子来说,我想运行一个sql query。这么简单的要求,会有多难呢?

1. data scientist

写sql拿结果的职位应该叫data analyst
data scientist也许不用花太多时间去学怎么收集数据,但是理解不理解底层建模的算法确实是个重要的标准。

发表于 2017-8-7 17:10 |显示全部楼层
此文章由 autumncame 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 autumncame 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼上的都在做数据工作? 悉尼情况如何?

发表于 2017-8-8 09:50 |显示全部楼层
此文章由 imagetech 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 imagetech 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-4-6 17:10
数据库访问角度看:

1. 实现某个单机版功能的,需要懂基本的SQL

学习了

发表于 2017-8-8 10:12 |显示全部楼层
此文章由 Shark-AU 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Shark-AU 所有!转贴必须注明作者、出处和本声明,并保持内容完整
kr2000 发表于 2016-4-7 11:33
写sql拿结果的职位应该叫data analyst
data scientist也许不用花太多时间去学怎么收集数据,但是理解不 ...

感觉土澳 data scientist 和 data analyst 没区别
大部分是打着 data scientist/data analyst 的做简单数据分析出报告的

发表于 2017-8-8 15:09 |显示全部楼层
此文章由 autumncame 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 autumncame 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Shark-AU 发表于 2017-8-8 10:12
感觉土澳 data scientist 和 data analyst 没区别
大部分是打着 data scientist/data analyst 的做简单数 ...

感觉大部分公司都这样吧
Advertisement
Advertisement

发表于 2017-8-12 23:08 |显示全部楼层
此文章由 一条大鱼 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 一条大鱼 所有!转贴必须注明作者、出处和本声明,并保持内容完整
cnnworld 发表于 2016-4-6 17:02
1. 实际应用中,算法基本都是黑盒,只要会代码就基本OK

2. 但难点是调优,因为要调优,你就必须理解算法 ...

请教,既然是黑盒,如何调优?

很多编程语言不开源,开源的如何快速理解源代码?
走路的人多了,路才越来越宽;而不是路越来越宽,走路的人才多了。
...pursuit; ...love;...desire.

发表于 2017-8-13 12:11 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一条大鱼 发表于 2017-8-12 23:08
请教,既然是黑盒,如何调优?

很多编程语言不开源,开源的如何快速理解源代码? ...

黑盒也需要输入参数,还有你输入的数据如何做transformation,搜索参数空间也有不同的技巧grid search还是bayesian
不需要理解源代码,但需要了解背后的ML数学模型,那些模型参数代表什么

发表于 2017-8-14 09:28 |显示全部楼层
此文章由 ilovebanana 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ilovebanana 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我们现在在做很多应用的开发,有兴趣可以联系我大家闲扯

发表于 2017-8-14 11:48 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
浮云马 发表于 2016-4-7 07:32
接着你的例子来说,我想运行一个sql query。这么简单的要求,会有多难呢?

1. data scientist

合理的分工在所有这些startup,新兴前沿发展是不存在的。新领域必定是牛人全包类型的,能力短板多了出不了结果。合理分工只有在这个领域成熟以后才能实现,成熟就意味着人多,收入下降。
like hell

发表于 2017-8-15 11:30 |显示全部楼层
此文章由 zy45 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zy45 所有!转贴必须注明作者、出处和本声明,并保持内容完整
日常工作里基本就是调包用,不用太在意里面是如何工作的,神经网络特别是深度学习也基本没人解释得清楚里面的具体含义,实际应用时主要是如何调参数,如何预处理数据,这些都得靠经验
Advertisement
Advertisement

发表于 2017-8-15 11:32 |显示全部楼层
此文章由 zy45 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 zy45 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Shark-AU 发表于 2017-8-8 10:12
感觉土澳 data scientist 和 data analyst 没区别
大部分是打着 data scientist/data analyst 的做简单数 ...

商业领域基本都这样。。。

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部