社会科学研究的系统层次问题

目前相当多的教育研究是无用的(养活相关从业人员不算),其无用的原因很多,其中的一个原因涉及到一个常见的方法论问题。

我在这里所说的这个方法论问题就是系统层次问题。社会科学研究面向的是一个复杂的系统,这个系统有多个不同的层面,有个人的层面以及从家庭到整个人类社会许多不同组织的层面。显然,我们可以在不同层面上描述在不断发生着各种各样的事情。容易忽略的是,不同层面上有着不同的运作机制或规律。在社会科学研究中最容易犯的一个错误就是进行跨层的推论。

举个弱智的例子。一个问题,求一个人在多少秒内能够把一个定时炸弹扔到一个安全的地方,不炸死任何人。随机抽取了1万个人分别做实验,并用统计方法排除个人的性格、年龄、智商、教育等种种因素,得到结论是平均为x秒,标准误为e。我们知道这是关于个人的一个普遍结论。那么,这个结论能不能推论到人类社会整体呢?如果全人类所有人在同一时间都拿着一个定时炸弹,这时候找到安全地点所需的时间还是原来的x秒吗?显然不是。一个人拿着炸弹和一群人拿着炸弹完全是不同的场景。后者很可能是满大街的人到处乱窜,既要扔掉自己的炸弹又要躲别人的炸弹,这时找一个安全的地方相对而言可能要困难很多。

上面的例子要表达两层意思。一是说明两个概念的区别。关于某个现象的一般化结论与某个现象普遍存在之后的结论,这两个概念表达的是完全不同的意思,因为它们谈论的是两个不同层面上发生的事情。前者是个体层面的事情,后者是系统层面的事情。二是说一个现象普遍存在之后,这个世界就变得和原来完全不同,导致原来的关于个体的一般化结论不再适用。这就是复杂系统的涌现现象(emergence),指的是数量的增加导致在较高的层面涌现出新的特性。

与此相关的错误就是把较低层面上研究的结论推论到较高层面,也就是把关于个体的一般化结论直接变成政策建议。这在政策研究领域是相当常见的错误。其基本的逻辑是,如果我们发现某种好的做法,只要拿来将其推广就能实现社会整体福利的提高。这种逻辑是错的,因为将好的做法普遍化以后的世界就不再是原来的世界了,原来的好的做法在这个新的世界里就不见得是好的做法了。虽然政策研究者知道个别结论不能随意推广,但是他们并不见得意识到这个跨层的问题。

教育研究里与此有关的一个普遍错误就是关于“公立”“私立”的所谓实证研究。研究者们不知道的是,现在已经是一个公立教育普遍化的世界1 ,在这个状态下调研出来的关于个体的结论完全无法推论到公立教育不普遍的世界,因为公立教育普遍化之后整个教育的运作方式被完全改变了。在这个现状下的实证研究的结论只能适用与这个现状,因而根本不能用来作为政策依据,如果你的政策是要改变这个现状的话。

比如,一个常见的论点是私立教育太昂贵,没有公立教育的话就会导致平民接受不到教育。这个观点首先可以用历史证伪,中国古代的私塾就是反证。农家子弟靠地里挑几棵菜、鸡窝里摸几个蛋就可以去穷秀才那里读书识字了,只要够聪明就能考取功名,进“中央常委”都可能。放到现代,私立教育的确很贵,但是其论证的逻辑是错的。现在的私立教育之所以贵,恰恰就是因为存在公立教育。公立学校给学生免费,给教师开高工资,导致了普通的私立学校完全无法生存。因为公立教育的存在,导致市场秩序被完全打乱,价格全部被扭曲。不管学生学费还是教师工资,都是被严重扭曲的价格。makzhou指出美国的绝大多数盈利的私立大学也是吃财政饭的。然而如果不懂得背后的逻辑就不能正确地解读这个事实。现有的私立大学之所以会这样,是因为存在现有的公立大学。私立大学在这种情形下需要财政资助,不等于私立大学本来就需要财政资助。

教育研究是个糟糕的领域,绝对多数现有的实证的政策研究一点用处也没有。因为现在的教育界是一个被各种严重错误的政策搞得乌七八糟的教育界,在这个垃圾场里收集的数据都是垃圾数据。只有你首先认识到这是垃圾数据,你才能对它作出正确的解读。然而要认识到这是垃圾数据,你首先必须有一个系统层面的正确理论。某些实证研究者可能还要纠结,你怎么就知道现在是一个错乱的教育界,你有什么实证依据?可惜的是,这个问题事实上根本无法被实证地解决。虽然不少统计教材会反复强调理论比数据、比统计分析手段更重要,但是普通的实证研究者很少真正理解这一点。你必须先要有个理论框架才能认识和分析这个问题,否则只能是胡乱摆弄无数的数据。

  1. 美国基础教育阶段公立教育占90%,高等教育阶段占50%。 []

美国教师作弊

华盛顿特区的超过半数的公立学校发现非正常的修正率。学生把错误的解答修改为正确答案,外包的考试公司通过统计方法诊断出来的。外包公司称可以通过数据分析手段进一步调查,但是有关部门不表示欢迎。看过纪录片《等待超人》的同学应该记得其中的一个韩裔的铁腕女学监Michelle Rhee,一上台就开除了N个校长的那位。这就发生在她管的地盘。她已经下台,但是这次检测到的作弊就是发生在她在台上的时候。 她宣称这是别人对她的教育改革的攻击……

报导看这里:

其实之前就有讨论:

过往的例子:

以上都不是抓到一两个教师的情况,而是严重的普遍性作弊。

因为公立教育实在太烂,美国近些年各州开始搞统一的标准化测试来考核教师和学校。不过作弊已经开始随之泛滥鸟~~

更多内容请Google:teacher cheating

2011-7-6 更新:亚特兰大至少178名教师和校长作弊,可能是美国史上最大的作弊丑闻 Investigation Finds ‘Widespread’ Cheating in Atlanta Schools

2011-10-19 更新:纽约教师作弊 [1]、[2]。

伪科学:神经语言程序学(NLP)

偶然看到一个叫做易谷教育的网站,号称“NLP与教育整合专家”。我一下子好奇心来了,NLP,什么东东?

该网站的关于页面有解释:“神经语言程序学(简称NLP,新兴的潜能开发和优秀编码技术)”。再Google一下就知道了,原来其英文是Neuro-linguistic programming。维基百科也有介绍。根据维基百科,这是一种流行的心理疗法,但是学界不承认。对明白人来说,你懂得:这是心理疗法中的唐骏,成功的骗子。

根据维基百科的指引,查到一篇心理治疗界的调查:Discredited Psychological Treatments and Tests: A Delphi Poll,里面罗列了一堆不可信的心理疗法,NLP也在其中。

Google开的专家编写的百科全书网站Knol上面对其也有介绍,文章实在太长,直接跳到最后一句就明白了:NLP可能会变得越来越有用,不过是作为当代伪科学的原型,呵呵。

只要Google “neuro linguistic programming pseudoscience”就会发现很多揭露NLP是伪科学的文章,这里就不再一一罗列。如果Google “神经语言程序 伪科学”,也可以发现一个专讲什么是伪科学的中文页面对其有提及(倒数第三行)。

另外,Google “神经语言程序 培训” 会发现很多骗子。估计用不了多久本文就会出现在“神经语言程序”的搜索结果里了,会让骗子们小小地不爽一下吧。

[补充:才发表之后不到10分钟本文已经在搜索结果里了,Google 你也太快了吧。]

说说虎妈

虎妈为了卖而把自己炒作成了热门话题,比如华尔街日报网站上的评论达到七千多条。

昨日在从外地回来的路上与导师(美国人)闲聊,刚好他也提到虎妈的事情。他觉得虎妈的确戳到美国教育的痛处。不知从何时起美国的教育出现了怪现状:不管孩子怎样糟糕都要么是父母的错要么是老师的错,千万不能说是孩子的错。这都几乎成了政治正确。现在美国的教育对孩子是过于溺爱了。

在我看来,虎妈对美国教育的批评大部分言之有理,然而虎妈自己的教育方式却又走到了另一个极端。她把自己的教育方式宣称为中国母亲的教育方式,这更是无理。网上的评论中就有不少华人母亲反对她乱搞“三个代表”。事实也是如此,虽然总体而言中国的家庭教育比美国的家庭教育严厉,但也很少如虎妈这般苛刻,她并不具有代表性。如果哪位批判虎妈的时候直接把她等同于中国教育来全面开骂,显然是脑子一根筋了。

推荐阅读:

教育评论之不靠谱种种

市面上对中国教育现状的批评不靠谱的太多,本文稍作罗列。

一、拿个案比整体。

拿个案比整体是媒体评论家们和网络庸众们最喜欢干的事情。看到国外教育优秀的个案,马上拿来把中国教育的整体狠批一通。这些人最喜欢干的就是拿哈佛耶鲁来批中国教育,在他们脑子里好像美国大学都是哈佛耶鲁,美国学生都是哈佛耶鲁的学生。

又或者看到中国教育糟糕的个案,赶紧拿来再把中国教育的整体狠批一通。最近流传甚广的一个帖子就是好的例证。其标题骇人听闻,号称看完该贴就敢说中国教育完了。其实就是找了一些糟糕的个案罢了。如果这种逻辑能够成立,可以说世界上没有一个国家的教育没有完了。

优秀或糟糕的个案哪里都有,拿个案比整体是不顾逻辑的胡搅蛮缠。

二、捏造自己的缺点,胡编别人的优点。

以为中国教育没什么,西方教育就肯定有什么。实际上呢?我们没有的可能人家也没有。比如批评说中国的教育不能培养学生的学习兴趣,其实呢,西方也一样。(就PISA2009的调查来说,中国学生的学习兴趣总体还优于欧美国家。)

或者,看到西方教育和中国教育不同的地方就以为是人家的优点我们的缺点。有人看到西方教育里有各种花样,就以为那培养了学生所谓的创造力想象力。其实这种说法没什么科学依据。培养创造力想象力这么神奇的事情,只在评论家的想象里,不在地球上。

再或者,胡乱想象中西差别。比如大学新生入学时家长陪同也被媒体拿来批判,说是中国学生缺乏生活自理能力的反映。结果我到美国后一看,原来人家这边也一样。开学或放假的时候都有家长来帮忙,很普通的事情。

三、把自己的优点当成自己的缺点,把别人的缺点当成别人的优点。

把高分等同于低能,是中国媒体上教育评论中最常见的脑残想象。实际上呢?高分本身就是高能(不是全能),除了作弊的,没有高分低能的。即便是扯到什么生活能力、交际能力,也不见得高分的学生在这些方面就比社会平均水平低。

另一方面,西方国家花了大量的金钱在基础教育和高等教育上,可是本国培养的科技人才严重缺乏,只好从中国和印度大量进口。西方学生基础知识严重薄弱,到了某些评论家的嘴里反倒成了优点,中国学生学习好反倒成了缺点,荒唐不荒唐?

四、胡乱联系。

把中国的科技落后归咎于基础教育是最大的胡扯,其荒谬程度相当于把中国足球不行归咎于中学体育课——没有比这更胡扯的了。一个国家的科技水平受到整体经济水平、政治制度、以及历史基础的制约。即便要联系到教育,那也首先是高等教育。基础教育呢?八竿子打不着。基础教育根本就不是专门为高科技准备的,就像中学体育课不是专门为职业运动准备的一样。

一则关于爱因斯坦和蜜蜂的谣言

网上谣言很多。一则谣言说,爱因斯坦曾经预言如果蜜蜂从地球上消失,人类最多能活4年。西方和中国一样,这则谣言散布得铺天盖地。不同的是以“爱因斯坦 蜜蜂”搜索到的都是散布谣言的网页,而以“Einstein bees”搜索结果的前几项是澄清谣言的。

简单来说,爱因斯坦是个物理学家,蜜蜂的这个问题属于生态学,和爱因斯坦没有一点关系。爱因斯坦不可能说这个话,事实上也没说过这个话。即便退一万步,假使他说了这个话也没用,他是物理学家,不是神仙。

上海在PISA国际评测中领先

上海参加的经合组织2009年的PISA 国际学生评估项目,是中国第一次参加国际间的大规模学业成就比较研究。其结果不出我所料,上海学生在PISA的全部三个素养测试,阅读、数学、科学,上都遥遥领先。

这一结果出来以后,很多人忿忿地坐不住了。

有人说上海代表不了全国。这话不错。如果其他省份出来,除了个别以少数民族为主的边疆省份,其他省份我猜只会比上海好而不会差。

当然,什么中国学生没有创造力、没有个性、对学习不感兴趣、学习态度差之类的陈词滥调又找到机会冒泡了。比如北大附中的江学勤(这位英语好,胡扯到国外去了)中央教科所的储朝晖等等。国际上还没有过学生创造力、个性之类的比较评测,PISA里面也没有这样的测试项目,稍稍严谨点的人不会那样断口胡说。而文人们信口开河惯了,不负责任地信誓旦旦地胡说八道简直是家常便饭。兴趣态度这项,这次的PISA里面倒是有的,在它的在线数据库里可以查到。比如国家选QCN,学生变量选ST24Q01,就可以查到上海学生对“I read only if I have to”的陈述只有11%表示同意,而OECD的平均是40%多表示同意。

关于中国学生创造力的谣言

网上谣言很多。一则谣言声称 国际教育评估机构 IEA 2009 年的一份报告结果里中国学生计算力第一创造力坐底,据说是前武汉大学校长刘道玉说的。事实上,就IEA已经公开发布的研究报告来看,中国大陆还没有参加过其国际学业成就的比较研究,IEA的调查研究里也没有测量创造力的项目。再者,现在学界还没有公认的可靠的测量创造力的工具,创造力根本不可能出现在严格的大规模调查项目里。

另外,还有不少根据个人经历就作出这种断言的。这只能说明其本人没受过严格的学术训练而已。

所谓的中国学生创造力比其它国家学生要低只不过是一种无知的想象。这个话题本身没有任何可靠的证据可供参考,这倒恰好可以反过来作为鉴别信口开河人士的一个工具。

艾宾浩斯曲线的滥用

艾宾浩斯遗忘曲线可以算得上是最普及的心理学知识之一了,对它的滥用非常普遍。不少的学习辅助类产品(书、软件等)号称按照艾宾浩斯曲线所揭示的遗忘规律设计,采用定时重复的方法来强化学习效果。事实上,绝大多数这类产品都和保健品相似,打着科学的旗号其实干的是伪科学的事。

对艾宾浩斯遗忘曲线的滥用的根源在于,它们忽略了艾宾浩斯实验是对无意义音节的机械记忆。学习中需要机械记忆的乃极少数,因此艾宾浩斯曲线对于绝大多数的学习情境根本没有指导意义。艾宾浩斯曲线可能比较适用的情形是外语学习中的背单词,但是这也未必,因为背单词和艾宾浩斯实验中的记忆无意义音节毕竟还是有区别的。

虽然学习必然涉及到记忆,但是在绝大多数的学习中机械记忆是不必要的。学习中最重要的是理解。所谓理解,就是新学的内容能够和学习者已有的知识发生有意义的联系。复习之所以对学习有用,不在于通过重复加深了记忆,而在于学习者在复习时可能比在新学时更能发现知识之间的联系,从而优化了个人的知识网络。但是紧接着的复习未必是有用的,如果学习者在新学时已经进行了充分的思考,并且在新学之后没有增加相关的知识或经验,那么简单的重复式的复习并不能帮助学习者发现更多的知识之间的联系,也就是说并不能加深对知识的理解。因此,如果新知识的学习是充分的,那么通常来说定时的重复是没有必要的。新学以及在一个单元的学习结束以后的习题训练和总结反思,比机械式的重复更有意义。

[转帖]未经训练的头脑

未经训练的头脑

翻译:dd_engi

人们──

1. 倾向于相信自己愿意相信的。

2. 倾向于将自己的偏见和经历强加于具体情况上。

3. 倾向于将特殊事件一般化。

4. 倾向于将自己个人牵扯到对事情的分析中,还倾向于让情绪支配对客观现实的感知。

5. 不是好的倾听者,有选择地听,常常只听到自己想要听的。

6. 热衷于使行为合理化。

7. 常常无法在无关事物中分清相关的部分。

8. 很容易分心,无法专注于手头的问题。

9. 倾向于过度简化。

10. 常常根据表面现象来判断。他们观察到一点点东西,又曲解了自己的观察,最终做出了严重错误的判断。

11. 常常根本就不知道自己在说什么,尤其在一般性的讨论中。他们很少先想再说。

12. 很少依据一组固定的标准来做事。他们随便想做什么就做什么,然后再找出随便什么能支持自己观点或行动的理由。

13. 常常言不由衷,辞不达意。

“大部分人都希望面对简单的东西,而不是复杂的东西,希望能让自己的成见得到证实,希望看到自己‘适合于’别人不适用的推论,还需要把自己的失意归咎于某个敌人才行。” J.A.C. Brown 的 Techniques of Persuasion 一书如是说。

“未经训练的头脑常常选择那条阻碍最小的路径。”Robert J. Gula 的 Nonsense 一书如是说。

“逃避挑战的倾向在人类中无所不在,完全可以看作是人的一种天性。但说它是天性并不意味着它就是必须的或有益的或无法改变的行为。把大便拉到裤子上,从来不刷牙,这也是天性。但我们教会了自己去做违反天性的事情,直到这种违反天性的行为变成了自己的第二天性。” M. Scott Peck 的 Road Less Traveled 一书如是说。

【此文在译言网站已被删除(原因不清楚),原网址为http://article.yeeyan.org/view/103414/101829

【英文原文“The untrained Mind”:http://ischangepossible.blogspot.com/2007/07/untrained-mind.html