习题:一类错误的注水

一个研究者每次都先看一下计算出的统计量再决定对零假设做单尾检验还是双尾检验。如果统计量,就设对立假设为;如果统计量,就设对立假设为。假如他的请问他真实的一类错误率是多少?具体说,有许多次的实验,真实情形都是,他能检验出显著拒绝的比例会趋近于多少?

读汪丁丁《为中国股民找一个理由》所想到与读到

汪文注明首发《IT经理世界》,我读于CCER新闻。特别摘出部分:

...当代中国人生活在千年未有之变局之内,经历着三重转型同时发生的阶段,所以,每一中国人的未来,充满着奈特意义上的不确定性。这种不确定性是不可预期且不可重复的,当代实验经济学家称之为“ambiguity”,以区分于“risk(风险)”。

股票市场固然风险很高,可是,我们综观股市之外的种种生活,风险何尝不高呢?与其走出股市得一人生之幻灭,为何不走入股市搏一幻灭之人生?或者,用经济学的术语再说一遍:股市之外的高风险人生,却并不带来相应的高回报。大众纷纷进入股市,是因为他们知道在那里承担风险至少有带来相应回报的可能性。也就是说,与其终生储蓄在银行里并希望渺茫地预期不断上涨的养老、医疗、住房、教育和日常生活的费用不至于完全侵蚀了他们微不足道的储蓄,不如以这微不足道的储蓄充当投资股市的本钱,反而是更富理性的选择。

...

这涉及到我备课过程中原先没意识到也许密切关联的两个论题。第一是奈特/Knight(1921)的可测度的Risk和不可测度的Uncertainty的区分。汪文第二段中的“风险”显然是Uncertainty而不是Risk。有意思的是,不可测度的Uncertainty却是可比较高低的(这不是汪的创见,而是Knight原著的意见)。用心理计量学术语,Uncertainty不是scale变量,但却是ordinal变量,而且很可能还是连续的ordinal变量。

Knight原著并不易读。甚至只是翻查《新帕尔格雷夫经济学大辞典》1987版1996中译本的UncertaintyKnight辞条,就已经令人云里雾里。其中Knight辞条执笔者是G. J. Stigler,他对Knight在Uncertainty上的“贡献”略有微词。Knight原著第7章注解1也小心的指出他打算规避认识论/知识论的讨论。这给我的感觉就好比:讨论一个被定义为“本质上不可讨论的对象”的对象。须知Uncertainty在Knight原著中唯一的内涵就是不可测度,于是所有对它的减少(eliminate)都是对它的否定。一旦比较它有多么地“不可测度”,就是在否定“不可测度”的本质。从罗素悖论的经验,我实在怀疑“不可测度性”程度的比较注定要引出悖论。

这便引出与之相联系的第二个论题:“主观概率”。在Uncertainty辞条中Knight的角色只是一笔带过,而主观概率才是更实质的关键词。似乎很根本的一个问题是:如果我们“完全地、本质地”不知道一个随机分布,在何种程度上能或者不能建立起一个有普遍意义的主观概率分布?--也许读懂辞条后,初学者的问题会自然消解。

--

Knight, F. H. (1921). Risk, Uncertainty, and Profit. Boston, MA: Hart, Schaffner & Marx.

答:有同学认为不应该浪费时间教三遍p值和置信区间

如果确实大部分同学认真跟着我学三遍后还不能明白区间估计的假设检验,我承认是我教学上的失败。然而我不介意讲第四遍第五遍(实际上,在结构方程部分,、方程结构和S的关系我至少重复了五遍。但是五遍都能听懂,一定胜过三遍还没听懂?)假如有同学有兴趣,欢迎贡献一个问卷调查有多少人终于弄懂区间估计和假设检验,还没有弄懂的同学中有多少同学仍然有足够的兴趣企图花时间去弄懂。做在线问卷只需要动机,不需要写代码的能力。我很希望有更多同学去实践在线问卷这项重要的技能。

到底教什么是重要的,我的判断没有改变。我仍确信选讲p值、区间估计符合我对大家学术倾向的最初预期。倾向学术还是倾向职场,对每位同学无所谓对错。要错就是我最初的预期错。现在确实有同学认为,不搞懂p值、power、区间估计照样可以安心作学术,照样可以面对海量的报告p值的文献,照样可以在自己的学术作品中每篇都报告p值。对这一类同学,我以为这是把学术当作普通谋生行业。我要编量表宁可划这类同学为职场倾向。但如果有同学对p、CI这类貌似非应用的学术问题感兴趣(当然有),我认为太有必要在北大的研究生课程里占用足够的正课时间。这是我的公开立场。

同样,我也相信大家对于什么东西是重要的自有度量。但这并不意味着我的课程需要符合多数同学目前的偏好。我相信许多同学考入北大,是为了有一个机会让北大改变自己的偏好(或品味?),而不是相反。

至于上课提点考试题目的噱头,建议对此有意见的同学把它正确地理解为我的一种调侃方式,而不是我对考题的允诺或背书。同时建议对此调侃方式不能接受的同学,错误地把它理解为我对试题的某种程度的提示,我尽量弄假成真促成喜剧。

最后,我很清楚以上这些颇为偏激的意见显然不适合作为一个comment跟在任何一个同学的学习笔记之后。因为每一位在学习笔记中花费时间陈述课程意见的同学,他们是在为课程作自己的一份义工。义工身后,多的是搭便车的沉默群众。甚至我的comment本身,更多时是基于我对原贴的片面误读而不是全面的解读,因为原贴全篇超过60%的篇幅在正面肯定我的课程教学。显然,我的这篇答复意见已经完全不针对原贴和发表原贴的那位同学,所以我决定把这个回复贴在自己的教学笔记,并欢迎所有同学匿名或者不匿名评论。

相关系数的几何:对截距投影的残差向量之间交角余弦


一直马虎地以为两个列向量的内积就是它们所代表变量的相关系数,结果今天在学生面前出了一回丑,企图让一列常数和另一个列向量的相关系数接近1。大家都知道,一列常数和任何一个列向量的相关系数必定为零。

我的错误在于忘记了协方差表达式中,列向量作内积之前有一步中心化:减去全列的均值。被减去的实际上是一个向量,等于全列均值乘以向量,也就是在截距向量、也就是“对角线”轴方向上的投影。减去这个投影,是没有任何解释变量、只有截距项时的回归残差,这个残差向量和截距方向垂直,所以落在垂直于“对角线”截距向量(日晷指针)的线性子空间里(日晷盘)。协方差实际上是这样的两个残差向量内积,而相关系数就是两残差向量之间的夹角Cosine值。

惊喜:wordpress.com缺省支持latex

本来还打算全部转移到yo2.cnhttp://lixiaoxu.lxxm.com,现在不用了:)

试一下效果

--

有位同学反馈看我的 lixiaoxu.wordpress.com 很久不出公式的图片。另一位不在深圳的同学干脆连看都看不到。从这种情况看来,使用wordpress.com的同学很可能都是费了牛劲才把笔记贴上去 的,要上传什么文件更艰难。我暂不在境内,没有体验到这么痛苦的连国外网速,给大家作了不恰当的推荐,非常抱歉。

为了方便境内的访问,我的学习笔记转移到了lixiaoxu.yo2.cn这里

yo2.cn如果要显示公式需要在后台启用安装插件。大家可以看我启用后的效果,用先写公式然后copy的。

lxxm.com基于wordpress mu平台,可以定制缺省启用的插件。这个wordpress mu插件基于John Forkosh的mimetex cgi

回复:关于“伪小数定律”的脚注2

之所以贴为主贴是因为baidu博客报告回复超长,不允许发。原帖子见deadwind学习笔记博客

---

这篇文献(Tversky & Kahneman, 1971)我只是大致概览,但发在science的那篇综述也说到了这类问题(Tversky & Kahneman, 1974)。代表性的偏见被他们认为是本能。对比有限理性的其它心理学研究,我猜想代表性的偏见是由人类现实的思维方式决定,而统计的估计基于无限理性的理想假设。

我感觉读文献引发思考有两大类。有一类属于技术层面的问题:这个文献通过什么实验设计支持一个什么样的idea,作者如何有这个idea而别人却没有。这类问题关注文献的思路与科研技巧,学习到的东西比较实在,容易取得学术共识。另一类思考关注文献的研究对象和思考论题本身,以及相关联的各种背景。这类思考能对文献的阅读提供很强的兴奋感激励,也容易激起讨论气氛,不过学习到的东西不够实在和直接。我上面的猜想属于第二类的问题。抽象地说,第一类问题是认识论问题,第二类问题是宇宙论问题。在认识论问题上,有可能进行说服——用听者的逻辑和立场去说服听者;而宇宙论问题,太容易变成说教--用讲者的逻辑和立场去说服听者。

言归正传,解释脚注(在pdf原文里是脚注2):20个样本,z值是2.23,.05一类错误双尾z检验显著了;如果再新抽10次样本,问卷请研究者主观估计这十个样本0.05一类错误的单尾z检验显著的可能性。

因为是z检验,所以总体的标准差已知。因为这个问题和计量尺度没有关系,变换尺度,就能让。只有均值被检验。按频率学派的观点,不给定就不能知道检验显著的(频率学派)概率(Gigerenzer, Krauss, & Vitouch, 2004)。但研究者必须回答一个主观的可能性。有一类研究者就会把这个主观的可能性等同于某种中立情况下的频率学派概率,他们把这种中立情况选为的真值恰好是第一次20个样本对的无偏估计值。

用Excel计算,第一次无偏估计值的绝对值;我们的问题和的正负方向无关,不妨认为第一次估计值为正数。单尾.05的z值=NORMINV(1-0.05,0,1)。十个样本单尾显著的判决区域是:十个样本的均值/对应的标准差真值 >NORMINV(0.95,0,1)。十个样本均值是个统计量,这个统计量的分布方差真值是 ,标准差真值则是,这个统计量分布的均值真值就是

P(十个样本的均值 >(1/SQRT(10))*NORMINV(0.95,0,1) | 真值=,十个样本的均值抽样分布标准差真值=,用Excel算=1-NORMDIST(NORMINV(1-0.05,0,1)/sqrt(10),2.23/SQRT(20),1/sqrt(10),TRUE)
从这个脚注的案例,可以体味一下所谓的Power Analysis对真分布的知识的依赖,而在标准的频率学派框架里,真分布是永远不知道的,连真分布满足某种特定范围的概率也不知道。Gigerenzer, Krauss, & Vitouch的Chapter(2004)值得细读,打算列为第二次(一共十六次)课的必读文献。

--
Gigerenzer, G., Krauss, S., & Vitouch, O., (2004). The null ritual: What you always wanted to know about significance testing but were afraid to ask. In D. Kaplan, (ed.), The Sage handbook of quantitative methodology for the social sciences. (pp. 391–408). Thousand
Oaks, CA: Sage.

Tversky, A. & Kahneman, D. (1971). Belief in the law of small numbers. Psychological Bulletin, 76, 105-110.

Tversky, A. & Kahneman, D. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185, 1124-1131.

“不争论”的智慧

昨日备课去读Neapolitan&Morris(2004)的关于贝叶斯统计的文章,读到其中一句, ...used (physical probability) as if they exist but without philosophical commitment...,忽然发现自己在教案中准备了很多关于统计和概率的通识(或所谓哲学)背景,却忘了强调概率统计学者的智慧恰恰在于规避哲学争论、专注于精深的技术共识创新。

“不争论” 不只是学术智慧,也是政治智慧。下图是“不争论是我的一个发明”的语录作者--

图相关的原文《邓小平为什么提倡不争论》见于

--
Neapolitan, R, E., & Morris, S. (2004). Probabilistic modeling with Bayesian networks. In D. Kaplan (Ed.), The Sage Handbook of Quantitative Methodology for the Social Sciences (pp. 371-390). Thousand Oaks, CA: Sage.

RTMA背后的认知偏执

[横轴是预测变量,纵轴是被预测变量;已知预测变量截于蓝线红线绿线位置。蓝线红线相加等于绿线,红箭嘴是被预测变量统计无偏估计;红箭起点是本能偏执预测,红箭表示趋中回归程度。图摘自2006/10北师大讲座PPT]

去年在准备10月北师大讲座的ppt时发现自己过去对于Regression Toward the Mean Artifact (RTMA) 的概念有很多暧昧之处。比如,曾经以为把模型改进后能作无偏估计就是消除了RTMA(Li, Hau, & Marsh, 2006),而老生常谈却是:RTM无处不在。后来恍然大悟,其中问题在于有没有Artifact的主观解读。在之后另一次讲座的准备工作中,我企图澄清两种不同的“RTMA”,一种是经典的RTMA:主观认知直觉地认为预测变量的标准化z值就是被预测变量估计值的标准化z值(Galton, 1886; Kahneman & Tversky, 1973);另一种不知道是否还合适叫RTMA:研究者得到观测值正确的趋中回归描述,却错误地将这个结果推论到作为潜变量的真值,认为原因在于真值的substantial趋中偏移 (Pedhazur & Schmelkin, 1991, p. 226; Marsh & Hau, 2002)。当时隐约觉得,要解决Artifact,只要让观测者脑筋想通了就可以,并不需要特意修正模型去让观测者有问题的脑筋和模型估计结果吻合。

前月读一篇论文讨论Gain Score(Gain)模型和Covariance Adjustment Residual(Cov.Adj.)模型分别何时在因果分析时不适用(Maris, 1998),发现第二种”RTMA”在学校增值分析的场合可以解读成Gain模型和Cov.Adj.模型的选择问题。有Artifact幻觉的情形只是因为应当用 Cov.Adj.而不应当用Gain。而这种应当不应当也可以从数据和模型的是非以逻辑跷跷板的方式变成统计结果解读(Interpretation)的是非,同样的模型和数据,同样的估计结果,可能被用于恰当的解读和不恰当的解读。比如,学生入学后的Gain Score和学校录取线负相关,被解读成高录取线学校的好学生成绩回归总体均值,这种解读就和Gain模型匹配;如果解读成同样入学成绩的两个学生在不同学校成绩变动会不同,这种解读就和Gain Score模型冲突。这个Interpretation的微妙处,还是从新版Educational Measurement手册开篇的Validation章节读出来的心得(Kane, 2006)。那篇文章强调,Validation的对象是Interpretation而不是测量结果。但是翻查Marsh & Hau(2002)论文对Lord Paradox的引用部分,会发现这个心得其实早已是老生常谈。

这两周备课,想讲一些有限理性在量化方法本身的心理学原理,读到Suppes, P. 1974年回应Tversky提出的五点量表式俭约概率的公理化模型(Salsburg, 2001, p. 307),然后开始满世界找原始文献始终不获,翻Suppes纪念主页74-75年天书般的数学文献,也没有。在g scholar上只找到Wainer, H. 和Robinson, D. (2003)间接说是来自Kahneman , Slovic和Tversky的合集(1982)。然后我就借来这本大部头合集,里头对Suppes的引用只有一处,早于74年。也许Wainer和 Robinson也是和我一样读了Salsburg的八卦书然后找不着文献,就含糊了一下。不料Kahneman和Tversky的实证工作一下子吸引了我。当年Kahneman得诺奖时我还曾被兼职的单位派任务做ppt简介,那时只是翻翻新闻稿,以为就是风险、效用、经济学实验室。这下认真读原著,才发现他们是在建立统计应用(误用)的认知心理学。和Simon, H.这样百科全书式的恐龙不同,Kahneman和Tversky是很纯正的实验心理学训练,在经济学的反响实属无心插柳。正好读到forcode同学读书笔记转载的一篇ppt讲统计学不应该用数学训练方式教–那应该用什么方式教?我觉得用认知心理学的训练方式来教最适合不过了。不过这种方式的教学教材不仅中文是空白,洋文的也没怎么听说过,窃以为大有文章可作。

而我之前津津乐道的八爪外星人会用的p值或许是1/16,还有RTM和RTMA的辨析,在Kahneman和Tversky的文献背景下,都成了毫无新意的常识。说到底RTMA的A不是风动幡动的统计问题、而是仁者心动的认知问题。Kahneman和Tversky指出,预测的本能是偏执的(1973)。在我现在揣测,这种偏执可能有两种解释渠道,一种是静态的适应典型环境,偏执也许有它针对当前典型环境的理性成分;另一种可能要扯到动态演化的进化论,偏执可能促进这种典型环境的形成。这样想来,Marsh教授一直促我们研究的Matthew Effect学校假增值效应(Li, Hau, & Marsh, 2006)竟还可以这样讲大故事:人类所处环境Matthew Effect作为另一种内在的过程,对冲了趋中回归,可以解释人类预测本能的偏执。

写这篇时又翻查了Pedhazur & Schmelkin的砖头教材(1991, p. 227),发现其中已经很明确地引述了Kahneman和Tversky的文章和例子(1973)。回头再琢磨为什么Pedhazur和Schmelkin 不把两种”RTMA”区别开,现在想来第二种”RTMA”可以这么重新表述:看到了RTM,不能接受,于是要给它栽赃个外因(学校增值)或者内因(真值自己在回归)。这样说,和第一种RTMA 区别就很小了,除了多出真值vs误差这个独立于RTM的解读。Pedhazur & Schmelkin也是用误差来讲解RTM,但补充了一句没有误差照样有RTM。我觉得用经典的父代、子代高度例子(Galton, 1886)就能解释这种真值vs误差解读与RTM无关:如果把先天高度解读为真值,测量误差就是后天较大的偏离,也许RTM就可以全部或者大部分归咎于测量误差。如果把测量工具的精度效果作为误差,后天高度解读为真值,测量误差对RTM的贡献就可以忽略为零。而真值的解读毫不影响RTM的数据结果。除了多出来的真值解读之外,第二种”RTMA”比第一种还剩下的概念区别可能就太琐碎了:RTMA是非要给RTM栽赃外生原因;而如何栽赃,能不能让某种嫌疑免受栽赃,就是因果分析而不再是RTM的问题。消除、减少、避免、解决RTM(Li, Hau, & Marsh, 2006),都是错误的措辞。正确的措辞则是解读和接受RTM,解读和破解不能接受RTM的认知偏执(RTMA)。


Galton, F. (1886). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute of Great Britain and Ireland, 15, 246-263.

Kahneman, D., & Tversky, A. (1973). On the psychology of prediction. Psychological Review, 80, 237-251.

Kahneman, D., Slovic, P. and Tversky, A. (1982). Judgment under uncertainty: heuristics and biases. New York: Cambridge University Press.

Kane, M. T., (2006). Validation. In Brennan, E. (Ed.), Educational measurement (4th
ed. pp. 17-64). Washington, DC: American Council on Education and National Council on Measurement in Education.

Li, X., Hau, K. & Marsh, H. W. (2006, Apr). Comparison of strategies for value-added analyses: problems of Regression Toward the Mean artifact and Matthew effect. Paper Presented at American Educational Research Association Annual Meeting, San Francisco, CA.

Maris, E. (1998). Covariance Adjustment Versus Gain Scores - Revisited. Psychological Methods, 3, 309-327.

Marsh, H. W. & Hau, K. (2002). Multilevel modeling of longitudinal growth and change: substantive effects or Regression Toward the Mean Artifacts? Multivariate Behavioral Research, 37, 245-282.

Pedhazur, E. J. & Schmelkin, L. P.(1991). Measurement, design, and analysis: An integrated approach. Hillsdale, NJ: Lawrence Erlbaum Association.

Salsburg, D. (2001). The lady tasting tea: How statistics revolutionized science in the twentieth century. New York: Henry Holt & Company.

Wainer, H. & Robinson, D. H., (2003). Shaping Up the Practice of Null Hypothesis Significance Testing. Educational Researcher. 32(7). 22-30.

p.s.发现原先教案里的Kahneman都错拼成Khaneman了。