新足迹

 找回密码
 注册

精华好帖回顾

· 【摄出你的足迹】-- 攝影是不停的學習 (2013-1-10) hkfroggy · 2015 奔驰 c250 w205 安装 CarPlay 模块 (2019-3-30) lihe1314
· 购房置业的十大须知 (2005-4-8) · 历史乱弹:春秋故事之蠢宋笨郑 (2005-7-6) booper
Advertisement
Advertisement
查看: 3331|回复: 30

[其他] Statistic大神请进~ [复制链接]

发表于 2019-7-4 19:08 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
今天客户跟我说了一个理论,态度非常强硬,但我总觉得哪里不对,奈何整个公司没一个statistics特别厉害的人,所以想到这里来请教一下...

这是他原话
- There are 3 types of average: the mean, median and mode.
- Regardless of whether we use the ‘colloquial’ term ‘average’ vs the more specific statistical mean, please don’t calculate this metric by taking the average of percentages. That is not right in any situation where the base sizes (individual doctors’ patient loads) differ, unless using weighted percentages which negate the effect of differing base sizes.

这个例子是这样的,假设医生A看150个病人,有30%的人患有某种疾病,医生B看200个病人,有40%的人得到同样的疾病。那么我算mean的时候,我不能用(30%+40%)/2吗??
我认为这样算出来的结果依然是有他的意义的,那就是医生平均看的病人里面会有这个疾病。
这个客户认为,应该是(30%*150+40%*200)/(150+200). 这个例子中我的算法mean是35%,客户的算法是35.7%。当数据多的时候这两个数字会差很多。

我认为mean就是mean,不管mathematicsly还是statistically就应该是sum divided by count。
客户说当遇到percentage,mean就不能这样算,因为每个case有不同的base,用sum divided by count这种方法来算mean对于percentage来说什么情况都不适用。

有没有统计专业的人士给出一些专业的意见?
Advertisement
Advertisement

发表于 2019-7-4 19:10 来自手机 |显示全部楼层
此文章由 随便说说 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 随便说说 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不懂 但是感觉你客户的算法比较合理

发表于 2019-7-4 19:11 来自手机 |显示全部楼层
此文章由 Janet 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Janet 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你是要从这个小sample 算出得这个病的概率吗?如果是,那么你客户的算法对

发表于 2019-7-4 19:14 |显示全部楼层
此文章由 bookfish 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bookfish 所有!转贴必须注明作者、出处和本声明,并保持内容完整
很明显你客户是对的…如果有个专家特别厉害,看了20个人,每个人都有那个毛病,然后就是(100%+40%)*0.5 = 70%?脱离应用题去谈概念是没有意义的…

发表于 2019-7-4 19:18 来自手机 |显示全部楼层
此文章由 Janet 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Janet 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个病难道和医生的诊断有关系?如果说所有病人都是这个病,但是两个医生分别诊断出30% 和40%,那你的算法就是平均正确率。要看问题是什么

发表于 2019-7-4 20:02 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Janet 发表于 2019-7-4 19:11
你是要从这个小sample 算出得这个病的概率吗?如果是,那么你客户的算法对

当然不是了,举个例子而已,我不想把整个数据弄上来而已
Advertisement
Advertisement

发表于 2019-7-4 20:07 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Janet 发表于 2019-7-4 19:18
这个病难道和医生的诊断有关系?如果说所有病人都是这个病,但是两个医生分别诊断出30% 和40%,那你的算法 ...

我的看法也是重点是问题是什么,如果你要算平均得这个病的人,这个客户的算法就是对的,total number of patients / total patient pool. 但是我觉得更正确的的说法不应该是percentage么?如果他说percentage/ratio我不会有任何问题,但是他要的是Mean啊。
而且他还强调任何情况都不能这样算,难道没有任何一种情况可以这样算mean of percentage吗?

发表于 2019-7-4 20:11 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
wuchen 发表于 2019-7-4 19:14
很明显你客户是对的…如果有个专家特别厉害,看了20个人,每个人都有那个毛病,然后就是(100%+40%)*0.5 = ...

但客户当初并没有具体说他要怎么从数据中得到什么,他只是很简单的说% of mean, median.

发表于 2019-7-4 20:20 来自手机 |显示全部楼层
此文章由 Janet 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Janet 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Yanni_i 发表于 2019-7-4 20:07
我的看法也是重点是问题是什么,如果你要算平均得这个病的人,这个客户的算法就是对的,total number of  ...

具体情况具体分析

发表于 2019-7-4 22:01 |显示全部楼层
此文章由 wishpolo 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 wishpolo 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 wishpolo 于 2019-7-4 22:07 编辑

客户是对的,这是概率里对mean(期望值)的定义。你的例子里是求有两种概率的离散型随机变量的数学期望。
直接套期望值公式可得:
期望值 E(x) = p1(X1)*X1 + p2(X2)*X2 = 30%*150 + 40%*200 = 45+80 = 125
治疗后的老鼠,33%死亡,33%康复,最后一只逃走

退役斑竹 2017年度勋章

发表于 2019-7-4 22:04 |显示全部楼层
此文章由 BreakingBad 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 BreakingBad 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Weighted average更合理

假设我投了$99在A股票,$1在B股票,某天A的return是10%, B的return是-10%,这时候显然不能说我的overall return是0
Advertisement
Advertisement

发表于 2019-7-4 22:16 |显示全部楼层
此文章由 shayy 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 shayy 所有!转贴必须注明作者、出处和本声明,并保持内容完整
客户是对的,要是你有第三个医生,刚开业,只看了一个病人,刚好是这个病,不能说得这病的比例是(30+40+100)/3=63%吧
几个人病了就是几个人病了,不考虑样本大小,只谈百分比不太正确吧
另外Mean=sum(prob*value) where sum(prob)=1

发表于 2019-7-4 22:28 |显示全部楼层
此文章由 Keatai 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Keatai 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你的客户是正确的,这是统计学里面的加权平均值,你的A和B医生看的病人各自占总病人数的权重是不一样的,所以不能直接用两个百分比的算数平均值。如果两人看的病人的权重即病人数量是一样的,这个时候你就发现两种计算得出来的答案是一样的。

所以你的客户的算法是严谨的,任何时候计算百分比的平均值的时候,你要把每个样本的权重计算进去,最后得到的加权平均数才是准确的。

评分

参与人数 1积分 +2 收起 理由
Yanni_i + 2 感谢分享

查看全部评分

头像被屏蔽

布鞋族

发表于 2019-7-4 23:22 |显示全部楼层
此文章由 pkcool 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 pkcool 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这个不需要statistics大神, 楼主你明显做错了

sample size 都不一样, 怎么能直接算百分比的平均值
简单概率理论, sample size越大越接近真实的概率

发表于 2019-7-5 00:16 |显示全部楼层
此文章由 dogdogkun 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dogdogkun 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼上正解。你的客户是对的。你的算法得出来的结果碰巧跟客户的结果差不多,是因为很幸运两个样本数量差不多(150和200)。

退役斑竹 2017年度勋章

发表于 2019-7-5 06:16 |显示全部楼层
此文章由 slau1 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 slau1 所有!转贴必须注明作者、出处和本声明,并保持内容完整
樓主啊。。。不能average the ratios 啦
Advertisement
Advertisement

发表于 2019-7-5 06:36 |显示全部楼层
此文章由 joezhu 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 joezhu 所有!转贴必须注明作者、出处和本声明,并保持内容完整
很不幸,你的客户是对的...

发表于 2019-7-5 19:07 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
感谢大家! 问题解决了!
看来自己工作上还是有很多不足,经验要不断积累才是

发表于 2019-7-5 19:27 |显示全部楼层
此文章由 三菱aidem 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 三菱aidem 所有!转贴必须注明作者、出处和本声明,并保持内容完整
数据多的时候,就是两个医生看了很多很多病人的时候,趋近于无限大的数量的时候,就可以像你这样算。否则你这样平均很容易出错。用个简单的例子:
A医生看了1000个病人,得病率30%。
B医生看了2病人,得病率为0%。
你平均试试,15%?那是会闹多少人命
dd

发表于 2019-7-5 21:27 |显示全部楼层
此文章由 katherman 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 katherman 所有!转贴必须注明作者、出处和本声明,并保持内容完整
无语了,客户有没有气哭
头像被屏蔽

禁止发言

发表于 2019-7-6 11:23 |显示全部楼层
此文章由 Gaucho 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Gaucho 所有!转贴必须注明作者、出处和本声明,并保持内容完整
楼主算的是贝叶斯统计下的均匀分布假设先验概率,比如一个间谍只拿到了对方各部队的伤亡率,但没得到各只部队的人数,在这种情况下就用楼主的方法假设预估一个各部队人数相同情况下的总体伤亡率,得到各只部队详细人数后再不断修正。

评分

参与人数 1积分 +2 收起 理由
Yanni_i + 2 感谢分享

查看全部评分

签名被屏蔽
Advertisement
Advertisement

发表于 2019-7-8 16:36 |显示全部楼层
此文章由 ろげん 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ろげん 所有!转贴必须注明作者、出处和本声明,并保持内容完整
用T test分析

发表于 2019-7-9 07:22 来自手机 |显示全部楼层
此文章由 tvc889 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tvc889 所有!转贴必须注明作者、出处和本声明,并保持内容完整
客户是对的。你应该回大学再读一遍统计课。

发表于 2019-7-9 11:32 |显示全部楼层
此文章由 yukibyx 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 yukibyx 所有!转贴必须注明作者、出处和本声明,并保持内容完整
客户是对的,不知道你算的依据是什么。

发表于 2019-7-9 13:52 |显示全部楼层
此文章由 tikitaka 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tikitaka 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 tikitaka 于 2019-7-9 13:56 编辑

如果是计算整体样本的mean,你客户的算法是对的。

再给你一个极端的反例,你自己还觉得对吗?

某种罕见的病例,A医生治疗了一百万人,才见到一例,几率为百万分之一,B医生治疗了一个人见到一例,几率为百分之百,你难道可以说总的几率为 (百万分之一+百分之百)/2 ~= 百分之五十吗?

正确算法为 (1+1)/(1,000,000 + 1) ~= 万分之2

评分

参与人数 1积分 +2 收起 理由
Yanni_i + 2 感谢分享

查看全部评分

发表于 2019-7-9 16:42 来自手机 |显示全部楼层
此文章由 Yanni_i 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Yanni_i 所有!转贴必须注明作者、出处和本声明,并保持内容完整
感谢大家!
楼主已知错
Advertisement
Advertisement

发表于 2019-7-9 18:50 来自手机 |显示全部楼层
此文章由 seashell 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 seashell 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我就是好奇,lz你学过统计学吗?

发表于 2019-7-9 18:50 来自手机 |显示全部楼层
此文章由 seashell 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 seashell 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我就是好奇,lz你学过统计学吗?

发表于 2019-8-16 17:28 |显示全部楼层
此文章由 韩苦禅 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 韩苦禅 所有!转贴必须注明作者、出处和本声明,并保持内容完整
it is not statistic, it is middle school level mathematics
头像被屏蔽

禁止发言

发表于 2019-8-16 17:55 来自手机 |显示全部楼层
此文章由 mania7 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mania7 所有!转贴必须注明作者、出处和本声明,并保持内容完整
我觉得哦。 你客户是对的。
但是他数学也不好。 什么叫3types of average?  一般我们都说measurement of centre.  

你去看看WACC就知道你客户说啥了

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部