邢东田：“评比学术”的误区及矫正

发布时间:2020-05-25 来源: 散文精选点击：

　　当前，制约中国学术发展的最大瓶颈之一，是学术评价的不公正①。而评价不公就在于我们搞的不是学术评价，而是学术评比；
不是真正的学术，而是“评比学术”；
不是评比为学术服务，而是学术为评比服务。毫无节制的学术评比，正将我们的学术引向歧途！

　　一、谁是学术的太上皇

　　所谓“评比学术”，顾名思义，就是所有的学术活动都以或主要以“评比”为核心，一切都围绕着“评比”的指挥棒转。学术批评是学术发展的生命，尤其是不能用实验检验的人文社会科学，只有在充分的学术批评中才能体现其价值，只有在充分的学术批评中才可能有较为客观的评价。但是，名曰“评价”实为“评比”的“评比学术”不讲这些。它或者是只有“评比”没有“批评”，只要一讲“批评”，就是大逆不道。“评比”已经叫“好”，“批评”岂能说“孬”！若是真有个不长眼的小子，胆敢说半个“不”字，得到的无非是“一顿大家合力的痛打”。或者是先有“评比”后有“批评”，“批评”不能超出“评比”定下的调子；
而那一点点“批评”，绝大多数也是为“评比”服务的，轻描淡写，“评”而不“批”，“批评”沦为“评比”的吹鼓手。“评比学术”环境下，学人一提“批评”，便如遇洪水猛兽，唯恐避之不及。像样的“批评”，凤毛麟角！

　　“批评”严重缺位的同时，“评比”却十分地越位，十分地走俏，谁主谁次，谁依赖谁，完全颠倒。“评比”之多，多如牛毛。“职称评定”有什么研究系列、编辑系列、图书系列；
“机构评选”有什么重点学科、博士点、科研基地；
“成果奖励”有什么工程奖、项目优秀奖、青年成果奖、国家图书奖、优秀期刊奖……最近还上了什么“精品课程”“资深教授”②。此外还有这工程那工程，这津贴那津贴，什么填补空白，什么世界领先，数不胜数，令人眼花缭乱。学人参加不是，不参加也不是（事实上，不参加也难），折腾得大家苦不堪言。一言以蔽之，“评比”成了学术的“太上皇”！如此评比若真能促进学术发展，真能带来学术繁荣，倒也罢了。学人们吃点苦就吃点苦、受点罪就受点罪吧，也认了。为了中华腾飞，为了什么什么，我们做出再大的牺牲也值得，谁叫咱是知识分子？但是，越来越多的学人对这些“评比”嗤之以鼻，越来越多的学人“不跟你玩了”；
社会上老百姓（纳税人）对此也议论纷纷。因为一个简单的事实就是，这些年各种学术评比越来越多、越来越细、越来越“严”的同时，学术泡沫激增，学术腐败加剧③。不但腐败，而且还出现了为腐败辩护、为腐败叫好的学人，不以腐败为耻，反以腐败为荣，乌烟瘴气，乌七八糟④。这不幸中的不幸，一次又一次地使我们想起老祖宗的那句名言——法令滋彰，而盗贼多有！

　　这到底是为什么？上世纪80年代，脑体收入倒挂，搞原子弹的不如卖茶叶蛋的，但学人们还是在讨论问题。现在倒好，收入增加了，条件改善了，票子、车子、房子都有了，而且还时不时地西洋东洋周游一番。但现在大家都在干些什么？除了开会就是开会，除了评比就是评比，一些评委都快成“会虫”了。还有所谓“赶场子”之说，这个会没有开完，又要赶到那个会⑤。我们现在总是强调国家投入太少，可是这些年来，除了自吹自擂以外，我们又为社会贡献了多少⑥？这叫我们如何取信于公众？如何向广大纳税人交待？又如何对得起生我们养我们的这块黄土地？

　　二、只认衣冠不认人

　　之所以会出现以上现象，其中重要原因之一就是我们的评比方式存在着十分严重的问题。

　　我国现行学术评比方式主要有两类三种，直接性的同行（内行）评议与间接性的刊物级别、引用（引证）率。

　　同行评议是最主要的方式，却问题很多。一是误将同事作同行。学术研究是一个特殊领域，只有同行（内行）才有资格进行评价，但我们的同行评议主要在同一单位内进行，同一单位学者不可能都研究同一个领域，他们并不是严格意义上的“同行”，而是同事。比如史学研究所的秦汉史专家为明清史成果打分时，他到底是以同行的资格还是同事的身份？即使都研究同一时段，其研究内容多半也不相同。对同一问题感兴趣且素有研究的学者，可能在外单位、在外地甚至在外国。这在同学科学者比较集中的研究单位尚且如此，在同学科学者不大集中的高校，就更不用说了。很显然，现行的同行评议，其实并不是“同行评议”，而是“同事评议”，说严重点，简直就是“外行评议”。俗话说，内行看门道，外行看热闹，如果我们的科研评价是建立在“看热闹”的基础上，其结果可想而知⑦！二是同事最后成同伙。为了摆脱人际关系干扰，不少单位实行匿名评审，并且邀请少量外单位同行参加评议会，或者将有关材料送给外单位学者打分。但是，这种程序上貌似公正的做法，实际上也问题多多。首先，同单位学人根本不可能真正匿名；
而外单位学者，由于研究圈子就这么小，即便不直接认识，也多能间接地接上头。其次，按照学界不成文的规则（潜规则），外单位评委多半是邀请者的“相好”，好唱反调者绝不在邀请之列。因此，评奖也好，课题也好，还有什么工程、基地等等，都是以人际关系原则来分配资源。匿名也没有用，照样门清。而且，由于匿名使评委只享有权力而逃避了责任，匿名评审反倒成为不公正的挡箭牌和遮羞布⑧。在那些风气差的单位，掌握一定学术权力的评委们，投我以桃，报之以李，这次你投我的票，下次我捧你的场，名为“同行”实为“同事”的评议最后就堕落为“同伙评议”——合起伙来压内行、蒙外行。只苦了那些没有拉上关系的圈外人，不但肉总是吃不上，往往连汤都没得喝。

　　同行评议难保公正，学界近年又开始看好刊物级别和引用（引证）率，认为只有后两者才能排除各种干扰，达到客观公正。实际上，这两种方式问题更多。比如，某部委规定，晋升正高职称的条件之一就是，必须在省级以上学术刊物上发表论文五篇；
另有相当一批科研单位规定，只有在“核心期刊”上发表的论文才能算作考核成果。然而，这样的规定毫无道理，期刊的行政级别怎么可以等同于学术水平？核心期刊虽说主要是依据学术影响力评出的，但这只是对整个刊物的文献计量学分析，而不是对其每一篇论文的评价。把刊物级别与论文质量划等号，其理念就是，凡是发表在高级别刊物上的文章就必然是高质量的论文，反之则不是⑨。这种“以刊评文”只认衣冠不认人的荒唐做法，居然能够大行其道于学界！宁信度而无自信，真不知这是学人的悲哀还是管理者的悲哀！

　　以引用率为标准，同样地荒唐可笑。有学人说：“越是被他人引用得多，社会影响就越大，价值就越高。”⑩其实，引用率高只能说明社会（包括学界）关注程度高，与学术水平并无必然联系。“文革”期间“批孔孟”“评水浒”，有些文章“引用率”甚高，几乎是所有的报刊都要引用，“社会影响”大得很，它的“价值”是不是很高呢？如果说那是特殊时期的产物，那么改革开放以来，引起学界甚至社会广泛关注的特异功能（耳朵认字之类）、周易热等，又如何呢？这两个例子都有社会政治等方面的影响，但限于学界甚至同一学科内部，情况也没有好到哪儿去。最近有学人对1998年到2001年中国主流法学界引证情况进行分析。研究表明，中国主流法学界呈现出“权威引证”严重、“自我引证”增加、一些学科的引证主要集中于知识结构相对陈旧的老一代学人、北京学者的引证不成比例地奇高等特点，并且可能大量存在“该引的不引”和“引的不该引”的情况11。总之，中外的实践都告诉我们，引证中普遍存在的向权威倾斜的“马太效应”以及数量众多的“伪引”“漏引”等，都必将使引用率的准确性大打折扣12。

　　于是，我们的学术评价就陷入了一个怪圈，同行评议有问题，就以刊评文，再不行就看引用率，或者还有其他。其结果是，泡沫越来越多，公正越来越少。我们的学术就在这不断变换规则的所谓“改革”中，离国际先进水平越来越远。

　　三、科研不是种土豆

　　更令人悲哀的是，学界搞了这么些个评比，竟然没有什么科学根据。因为即使我们真的能够克服上以上缺憾，就像有学人希望的那样，建立了公正的程序，监督十分地到位，引证准确无误，我们也很难进行公正的评价。

　　事实表明，我们的学术评比是建立在一系列错误理念之上的，我们是用管理生产的方式来管理科研。比如，目前的主流理念认为，科研评价可以制定出明确的量化指标，可以评出水平高下。实际上，这是非常困难甚至是不可能的。首先，科研本质上是一项个别人改变绝大多数人观念的创新活动，真理往往先由少数人所掌握。当年共产主义作为一个“幽灵”出现在欧洲上空的时候，哪一项既有标准有资格评说？因为它自己就是自己的标准，就是自己的价值尺度。但我国现行学术评价的主要方式如上述的“同行评议”“核心期刊”“引用率”等，其原则都是少数服从多数，对于突破常规的创新成果，具有天然的否定倾向。少数服从多数并不是学术的原则，只有在代表个人或集团利益时，才能少数服从多数，科学研究的原则是多数服从少数。13即使没有创立新标准、新范式，只是旧有成果基础上的增量，也要提供新资料，提出新看法，相对而言，虽然比较容易得到多数人的认可，但也首先是少数人的观点。在这种情况下，评价的公正只是一种可能而不是必然14。

　　其次，是科研成果的唯一性。我们知道，只有同等性质的事物才具有可比性。同是土豆，可以比产量，比各种营养成分的含量。而科研就如艺术品，缺乏共同性，每一项都是一幅“蒙娜丽莎”，都是独特的，不能批量生产，因而相互间不具可比性。同是历史学，研究中国史与研究世界史，如何比较？都是中国史，明清史与秦汉史又如何比较？即使相同的课题，也必然会因人因时因地以及因其他条件而异。科研与生产产品不一样，就在于它的唯一性，除了外在形式比如课题级别、经费额度、主持人职称、字数多少等，各个科研项目内在水平的高低很难或根本就无法比较。而评价者对于那些缺乏明确可比性的成果也就很难认定。

　　科研不是种土豆，学术不是造汽车。科研的创新性与唯一性，决定了其标准的抽象性与模糊性，决定了我们评价时无法进行量化。就以最为“权威”的“国家社会科学基金项目成果评估指标体系[论文(集)类]”为例——该“评估指标体系”为表格式，共有四项评估指标：创新程度，完备程度，难易程度，成果价值。这四项指标分别分解为2或3项具体指标，并分为A”“B”“C”“D”4个等级和“10”“9”“8”……“1”共10个分值，4个等级又有更为具体的若干标准，等等15。

　　这一“评估指标体系”看上去十分地精确、十分地“量化”，每一项都有具体指标可循，但在实际评估时，却很难操作。比如，“创新程度”项中，什么是“提出新的重要理论观点，研究取得突破性进展”（A级），什么是“提出新的理论观点，研究有所深入”（B级），什么是“提出具有启发性的见解”（C级）；
“完备程度”项中，什么是“概念明确，逻辑严密”（A级），什么是“主要概念明确，合乎逻辑”（B级），什么是“主要概念较明确，条理清晰”（C级）；
“难易程度”项中，什么是“问题十分复杂”（A级），什么是“问题复杂”（B级），什么是“问题较复杂”（C级）；
“成果价值”项中，什么是“对解决重大理论或现实问题有推动作用”（A级），什么是“对解决重要理论或现实问题有推动作用”（B级），什么是“对解决理论或现实中的一般性问题有推动作用”（C级）等等等等，如何说得清、道得明。而同一级别中设立多个分值，比如A级的成果可以给10分也可以给9分，B级可给8分也可给7分，C级可给6分也可给5分，D级的成果可给1～4分，依据是什么，又怎样把握16？

　　复杂的指标体系，模糊的评比标准，使鉴定专家眼花缭乱，无所适从；
打分时必然是主观随意性很强，甚至完全“跟着感觉走”17。

　　四、排座次与傍大官

　　“评比学术”的最大弊端，就是扼杀学术批评，为学术腐败大开方便之门。

　　“评比学术”的实质是“官本位”，是倚仗权势定调子，张扬的是行政权力，压制的是学术民主。其具体表现在以下四个方面：

　　一曰排座次。“评比学术”特别强调行政规格，所有的项目、成果等都要按照行政规格而非学术水平排队。课题也好，奖励也好，基地也好，都是规格越高水平越高，有什么国家级、省部级、院校级等等。

　　二曰傍大官。千方百计延请官员介入、主导，参加评定者也是行政级别越高越能体现水平；
最好是官员兼有高级学术职称，如果不行，无学术职称的官员能够“拨冗”出席什么发布会、什么首发式、什么颁奖式，(点击此处阅读下一页)

　　也是无上荣光。而有些官员也常以此为荣，千方百计往学术上靠。

　　三曰次充好。功夫既然都用在“诗外”，内功当然就很难练好，练不好就以次充好，金玉其外，卖包装。用某位先哲的话说，就是“市场上叫卖得最响的就是最卖不出去的货”（大意）。

　　四曰不讲理。利用职权、权威等先声夺人，自吹自擂，以防止或压制不同意见。如果仍有人胆敢批评，就耍歪理，倒打一耙，至少是把水搅混。

　　既然“评比学术”建立“官本位”基础之上，其结果只有一个，就是压制不同意见18——说白了不就是因为自己的东西经不住考验、见不得阳光？不仅自己压制，而且还有意无意地动用了行政手段。因为“成果”的行政规格甚高，而且某些高级别的官员，或兼任官职的学人，已经定了调子做出“结论”，已经说是达到了什么水平，填补了什么空白，你还要有不同的声音，还要在这里“聒噪”，到底是怎么个意思？你批评的不是我个人观点，而是反对包括“长官”在内的许多人，甚至还有“单位”。想想这些，批评者还敢随便发表不同意见吗19？

　　当然，有时“成果”规格较低，“长官”不予赏光，但只要是“评比学术”，其结果也是一样。不仅评委往往都带点什么“长”，更重要的是，掌握着学术权力的评委们都是在圈里混的，这次你跟我“过不去”，给我提意见，那么下次评你的时候，我也跟你“过不去”。结果只能是，在没有学术只有利益的前提下，相互包庇，大家都来做“乡愿”。即使自己不想做“乡愿”，考虑到师长、朋友、学生甚至家人等等——其实，关键的关键还是“单位”——投鼠忌器，顾虑重重，到头来只有长叹一声，认了罢！

　　当然，批评缺位并不是绝对没有批评。但这种批评往往是变了味儿的批评，要么唱赞歌，要么特激烈。唱赞歌就是大吹特吹。现在学界写书评、写推荐书、做学术鉴定，常常是找几个同道做“托儿”，甚至还有“被评者”替“评者”捉刀的。这能算是正常的批评吗？

　　特激烈就是真刀真枪地干。在“评比学术”大行其道的环境下，谁也不敢轻易批评。但不批评并不等于没有看法，有了不同看法，最好是忍着，不然的话，就是另类。另一方面，对方由于没有批评，无论有错不觉，还是明知故犯，只能是越走越歪，正所谓“不打不骂出了怪”。由于双方信息明显的不对称，都不是很清楚对方有什么牌，会出什么牌，得到的多是些错觉。结果是，忍者越忍越生气，但他还是不愿得罪人，寄希望于对方自己“觉悟”，总认为对方不至于太过分；
而对方对此却几乎一无所知，即使有所察觉，也不认为会有什么麻烦，我都这么“混账”了，你不是也没有什么“反应”吗？于是就“越演越烈”。忍者不禁怒火中烧，我已忍无可忍，你还在那儿登鼻子上脸……终于有一天，实在忍不下去了，火山爆发了；
而被批评者还在纳闷，不是昨天还好好的吗？这是怎么啦？有病？最终闹得个鸡飞狗跳，斯文扫地。学术争论转化为人际冲突，科研探讨演变成派系斗争，学术蒙受损失，感情受到伤害，多年的朋友成了仇敌。

　　由于“评比学术”猖獗，批评者与被批评者双向信息不对称，导致激烈冲突，影响了所谓的“安定团结”，这又成了有关部门和官员压制批评的借口。

　　五、评比是学术的鸦片

　　科研的唯一性与创新性，决定了科研与生产的不同，决定了科研评价很难或根本就不可能进行严格明确的等级评定。对很难比较或根本无法比较的东西强行比较，对于公说公有理、婆说婆有理的事物非要分出是非，无非就是找是非。最终只能是比关系、比帮派、比权力，给学术腐败制造了可乘之机。表面上冠冕堂皇，背地里男盗女娼，靠的就是帮派，评（拼）的就是关系（的亲疏），其他全成了借口。谁傍上了评委，谁就是赢家；
谁是评委，谁就是大赢家；
谁控制了评委，谁就是最大的赢家20。

　　这些掌握了一定学术权力的评委，他们想让上的人年纪大，就说老同志资历高；
想让上的人年纪轻，就说年轻人能力强；
他们想让上的人出版了一本书，就说他有专著；
他们想让上的人有文章，就说现在不看专著看论文；
他们想让上的人成果数量多，就说他是多产作家、著作等身；
他们想让上的人成果数量少，就说我们不看数量看质量。实在找不出理由，他们就说不评某某他要跳楼，不行你也跳！……总之，他们是想让谁上就让谁上，让谁上就有让谁上的理由。一言以蔽之：墨索里尼，总是有理！

　　当然，也不是天下乌鸦一般黑，一个单位里存在着势均力敌的两个帮派，也是常有的事。除了一帮黑乌鸦，还有一伙白乌鸦，各不相让。打急眼了，就得请上级裁判，或者诉诸舆论。如果还是没有结果，就开始比数量、比泡沫，看谁的数字多，看谁的泡沫大。或者是比发表媒体的级别，比如是否属于核心期刊；
而核心期刊还要分等级，还要打分数。或者在媒体上吹嘘，或者比课题规格，或者比是否获奖及获的是什么级别的奖，等等。就是不能比学术水平，因为最说不清楚的就是学术水平。

　　于是乎，学界中一些在位者就开始不断地增加评比项目，以缓解以往项目未能解决的矛盾。评了“教授”，不能比出谁高谁低，就来评“硕导”“博导”。评了“职称”，又搞“津贴”；
评了“基地”，还有“工程”；
评了“核心”，再上“名刊”；
以及不是博士不能评教授，某某年以前出生如何，某某年以后进校如何，等等。叠床架屋，层层加码。然而不幸的是，就像吸食鸦片一样，每次新项目的增加，都只不过是一阵抽搐之后的短暂欢娱，并不能从根本上医治那永远也戒不掉的毒瘾。往往还在兴奋之中，就又开始寻找新的“毒源”。套用《老子》的一句话，就是：“评比令人耳聋，评比令人目盲，评比令人口爽；
驰骋评比，令人心发狂。”其结果是泡沫越吹越多，评价越“拼”越歪，无休止的恶性竞争，一场又一场的“学人斗学人”，在耗费宝贵资源的同时，为学术腐败开了更大的方便之门。泛滥成灾的学术评比，已经成为学术发展的桎梏。

　　评比是学术的鸦片！这绝不是什么危言耸听，而是我们学界的真实写照。它的泛滥，戕害了学人的心灵，败坏了学人的品格，毒化了学界的空气，误导了学术的方向。这些日子，思来想去，就是不明白，我们学界尤其是高教系统，搞这么些个评比，到底为了哪般！作为一个参照，可以举出前几年社会上各种国优、部优产品大奖赛，最后的结果是国家明令禁止。为什么？不值得我们学界深思吗？各种工农业产品，都有客观评比指标可循。有客观指标可循的产品评比都停止了，而标准模糊不清的学术成果反而要大评特评，岂非咄咄怪事！真的能评出个你高我低？我们完全有理由怀疑，排座次并不是科研发展的需要，也不是绝大多数科研工作者的需要，而是那些“学术鸦片贩子”的需要。他们只有通过不断地评比即兜售“学术鸦片”，才能显示出其存在的价值，才能建立其所谓的“评价话语权”，才能获取依靠其他渠道得不到的好处。

　　国家最初设立评比项目，不过是为了促进学术的发展，但遗憾的是，初衷美好，结果未必，播出的是龙种，收获的却是跳蚤！

　　六、论资排辈好东西

　　“评比学术”之所以大行其道，还有一个非常冠冕堂皇的理由。倘若我们不这样做，不分出个三六九等来，如何促进学术繁荣；
倘若没有评比，谁还会去或者说还会有多少人去认真搞研究，等等。因此，如果不从理论上解决所谓“激励”即“奖勤罚懒”问题，就很难从“评比学术”的误区中走出来。

　　先说“奖勤”21。在此，我们有必要引证吴思先生的观点。吴思在《论资排辈也是好东西》一文特别提到两个例子，明朝的孙丕扬和北魏的崔亮。孙丕扬做吏部尚书之后，创建了“掣签法”，官员们无论贤愚清浊，一概要凭手气抽签上岗。崔亮做吏部尚书时，不问贤愚，完全根据年头任用官员。年头不对，即使这个职位需要这个人，也不能任命他。庸才下品，年头够长就先提拔任用。这两个人的做法，不仅受到当时人的称赞，而且为吴思所推崇。关键就在于这两种看似荒唐的做法非常符合实际情况。吴思总结道：“掣签法一出，请托无处容身。”“论资排辈和抽签本身堪称极其高明的流线型设计……资格和辈分是硬指标，不容易产生争议，这就能够持久。人人都会老的，谁都不会觉得这个办法对自己格外不公平，这就容易接受。已经老的人关系多，经验丰富，常常还是年轻人的师长师兄，年轻人很难公开反对他们，这就让反对者难以成势。至于在相同资格和辈分的条件下抽签抓阄，这是把前程交给天意和命运安排，而天意和命运也是人人尊重，根本就无法反对的。”“最后还有一条好处，一旦开始了论资排辈，再要废除就不太容易，代价会很高。”22读了这篇文章后，不禁拍案叫绝！

　　上面的例子，我以为对学术评价也很有启发意义。多年来，我们一直有这么个坏毛病，就是外国的和尚会念经，什么都是西方的好。我们毕竟是有几千年历史的大国，具有悠久的传统文化，其中难道就没有一点好东西？那些多少年来行之有效的办法，可能在新形势下有修正之必要，但有必要都一股脑地全倒掉吗？现在是只要新就是好东西，只要洋就是好东西。其实未必。2004年的一个学术会议上，笔者专门就学术评价问题，向一位任教于日本某高校的中国学者请教。他说日本国立公立大学的晋升，就是按资排辈。当然也有个形式主义上的评估，但一般都是年长者先上。比如有42岁、40岁和38岁三位副教授，多半是那位42岁的上。其他两位可能连申报都不申报。从这位学者处还了解到，日本的教授与讲师工资差别不大。教授与副教授没有附加值，只是个名誉值。副教授与教授工资大概就差几十元人民币。他们也绝不会因为自己是副教授而认为自己的学识水平比别人差。也没有什么博士生导师之类的头衔。

　　日本是个现代化国家，同时又是传统保留较多的国家，他们的做法值得我们参考（仅仅是参考）。从人类发展的历史看，任何国家，即使在西方，彻底脱离传统而另起炉灶也是非常危险的。

　　不仅是传统，更重要的是现实。就学术界实际来看，出类拔萃者和特别差劲者毕竟都是少数，绝大多数都水平差不多，属于平常之人。对于那些确实取得重大成果者，当然应当予以特别鼓励。即使有异议，也涉及面很小；
如果名不副实，也容易得到监督与纠正。但对于那些水平和工作努力程度差不多的平常之人，就没有必要拉大距离、分出档次。若是强在这些人中拉开档次，由于缺乏明确的指标，其后果必然是人为地增加矛盾而自找麻烦。这不仅不能促进学术的发展，反而会因“窝里斗”而影响科研工作23。所以，在不得不进行级别划分（比如评职称）时，作为一种有效的激励方式，在绝大多数人中实行类似公务员晋升的“年资制”也就是论资排辈，或许更符合实际。他们在学术水平上的差别以服务时间的长短衡量更为客观，时间长在经验上在贡献上都要更大些。这样做的优点是，标准比较明确，易于操作，减少了不必要的矛盾，最终为学术发展创造了一个宽松的环境。其中如有脱颖而出者，则特殊安排——特优人才超常拔擢，平常之人论资排辈，既鼓励了人才脱颖而出，又稳定了科研队伍24。

　　七、养点“懒汉”亦无妨

　　除了“奖勤”，还有一个如何“罚懒”的问题，也就是如何对待所谓“不干活”的人。这也是大搞“评比学术”者的一个理由25。

　　实践表明，搞研究的人，只要按照基本规范踏踏实实认真去做，多少都会有所成就。即使没有成就，或失败了，也有经验可以吸取。对于这样的学人，应当有其生存的一席之地，应当受到应有的尊重，应当得到起码的物质保证，应当予以足够的支持。倒是那些成天浮在面上而到处招摇的“研究家”们，很值得我们警惕。爱叫的麻雀不长肉，他们不像是科研工作者，倒更像是商人、政客或影视明星。

　　在这里，我们有必要再次强调科研工作的特殊性。除了前面提及的唯一性与创新性，科研还有一个非常重要的特性即不确定性，这也是我们进行学术评比时必须考虑的重要前提。“评比学术”的不合理之处，就是把科研等同于工农业产品生产。生产是科研成果的应用，可以预测时间和结果，可以有确定的标准，但科研本身却很难做到这一点。搞科研者，有少年得志，也有大器晚成；
有人年年出成果，有人十年磨一剑；
有人成果多，有人成果少；
有人甚至一辈子不出成果，或是出了错误的“成果”，有的人出的成果能影响一代人或几代人甚至整个人类历史……这在科研领域都是非常正常的现象。因为科研就是探索，是探索就可能成功也可能失败，可能按照既定方针得到事先设计好的结果，也可能是其他的结果，甚至一无所获。

　　而且，还有一个判断水平的问题，或是因为评定者个人的鉴别能力，(点击此处阅读下一页)

　　或者是因为整个时代的水平。现在认定人家搞的东西不对，是错误的，或未受到应有的重视，谁知道过若干年后又如何呢26？粪土当年万户侯！许多当年被普遍肯定的东西，比如地心说，比如燃素说，后来不是又被否定了吗？科研工作，除了有意作伪，除了用不确定的“成果”欺骗外行，任何探索都是有益的，失败往往是成功之母。科研最大的忌讳就是以成败论英雄。即使对于那些看似不能成立的研究，除非有确实的证据，也不要随便予以否定。“评比学术”那种“只许成功不许失败”的做法，实在是要不得。

　　再者，许多科研虽然都是由个体完成的，但是独木不成林，科研也需要有适合的生态环境。某科研领域保持一定数量的学者，是有关科研得以进行的前提，是科研发展的需要。许多默默无闻的科研工作者，他们都是保持良好的学术生态不可或缺的分子。“评比学术”造就出来的是一个恶劣的生态环境，它只要那些今天下了蛋的鸡，其余统统杀掉。但是，我们不能因为有了战斗英雄，就否定整个战斗集体的贡献，我们也不能因为摩天大厦的辉煌，就舍弃其牢固的基础；
同理，我们也不能只要诺贝尔奖获得者，而将其他科研工作者统统赶出科研队伍。水至清则无鱼，是一个常态。在科研领域，我们宁肯宽松，宁肯用道德用氛围进行约束与激励。在科研领域，没有功劳还有苦劳，没有苦劳还有疲劳，是说得通的。绝不能搞“一将功成万骨枯”。极端一点，我们宁愿养几个真的“懒汉”，也要两害相权取其轻27，不然的话，你淘汰的可能就是未来的诺贝尔奖获得者28。

　　当然，如果确有证据，不是搞科研的料，尸位素餐，也必须请出科研队伍。目前这种“劣币驱逐良币”的状况，是管理者的无能。说到底，还是“评比学术”惹得祸。太多太滥的学术评比，使人难辨良莠，在产生大量的为评比而制作出来的成果的同时，使那些真正的高质量成果淹没在汪洋大海般的学术泡沫之中。

　　八、要从“锁眼”看问题

　　有些学人针对目前学术评价不公，提出要加强监督，认为程序公正才是评价由人治走向法治之路29。但是，无数事实证明，程序的公正并不能保证结果的公正。目前的问题不仅仅是学人的道德水平下降，也不仅仅是规定不严密，更不仅仅是缺乏有效监督。当然，上述这些都是问题，但根本性的问题是整个方向搞偏了。在“评比学术”大泛滥的环境下，即使制定再多的规则，设立再多的奖项，如果不改变评价方向，而是一门心思盯在评比排座次上，也只能是南辕北辙、缘木求鱼，离学术繁荣的目标越来越远。

　　因此，“评比”要尽可能地淡化，要多做减法，该废止的要坚决废止。目前学界已经毒瘾甚深，我们学界首先要做的一件事，就是掀起一场声势浩大的“禁烟运动”，将“鸦片贩子”统统绳之以法，将所有的“吸食者”都送进戒毒所。我们学界要以整顿“评比”为突破口，来一次从头到脚的大清理，废止那些不必要的“评比”，还学术以本来面貌，让学界从评比的狂躁中冷静下来，以彻底改善我们的学术环境，净化我们的学术空气。

　　接着的一件事就是，把久违的学术批评请回来，重新开始新生活。要把学术批评请回来，就要先给学术批评“平反”，为学术批评“正名”。名不正，则言不顺，言不顺，则事不成。学术批评，就其本义来说，无非是实事求是地指出优缺点。但是，长期以来的政治运动，使批评已经完全变了味，成为政治斗争的工具，且美其名曰“革命大批判”。于是，在后“文革”时代的今天，批评成了过街鼠，谁要是开展批评，就是挑别人的毛病，就是吹毛求疵，就是与谁过不去，背地里肯定有不可告人之目的30。所以我们必须为学术批评彻底“平反”，为学术批评“恢复名誉”。

　　我们倡导的学术批评，与政治斗争完全是两码事。学术批评只限于学术观点，它是学术活动的深化，是科研工作的必要组成部分31。没有学术评比，科研活动照常进行；
而批评是学术的生命，没有学术批评，科研就是一潭死水。只有在校场上比试之后，才能定武艺的高下；
只有在充分批评的基础上，才有可能进行正确的学术评价。正如一位学者所指出的：“只盯着学术‘论文’是没有用的，因为这些‘论文’不仅隐瞒真相，而且在论述他们的工作时想尽办法讲歪理……只有未加修饰的证据才解决问题，那意味着要从锁眼里去看。”32

　　自然科学主要通过重复实验，来验证其成果的真实性。人文社会科学复杂得多，很难通过重复实验进行检验，但其基本方法是一样的，也可以“从锁眼里去看”。事实上，许多科研成果，只要我们“从锁眼里去看”，就可以发现问题，资料是否可靠，论证是否充分，逻辑是否严密，是否真的填补了学术空白，等等。学术批评与学术评比的不同之处就在于，虽然它很难制定出严密而又精确的指标，但它却是最有效的。因为它是“从锁眼里去看”，并把看到的情况公之于众。它更有助于问题的深入探讨，一项成果，一篇论文，一部专著，要有其他学人提出看法，说出它好在什么地方，不好又在什么地方。被批评者对于批评可以认同，也可以不认同；
可以自我批评，也可以反批评。对于那些一时难以辩清的问题，未被内行普遍认可的创新成果，也必须通过“从锁眼里去看”，在不断的批评中为学界所认识，而不是找几个同行简单评一下、查查引用率就可以匆忙做出结论的。

　　批评严重缺位，评比严重越位，其实就是真理的严重缺位与名利的严重越位。“评比学术”说穿了，就是某些“内行”蒙骗广大外行，包装起来吓唬不明真相的人。一些被证明不合格甚至假冒伪劣的所谓“成果”，借“评比学术”歪风登堂入室，评优获奖，令人大跌眼镜。2004年6月揭露出的“百孔千疮”的《道德经浅释》，内行斥为“学术垃圾”，作为外行的学术官员和媒体却一片叫好之声33。有识之士不禁问道：何至颠倒如此？在这种情况下，如果我们有责任感的内行能够勇敢地站出来，指出其中的问题，点破其中的奥秘，它还能算是什么世界领先、什么填补空白吗？而对于那些真正的领先、真正的空白，它不需要用“评比”来定高低，它完全可以在批评中体现自己的价值，在批评中不断完善与提高。这样才能产生较为客观公正的评价。

　　至于学术批评的方式，我们虽然不主张言辞激烈，但鉴于目前“评比学术”猖獗与乡愿主义盛行，也不反对大批判，更不反对吹毛求疵或横挑鼻子竖挑眼。有理，有力，却未必有节。只有把“问题”暴露在光天化日、众目睽睽之下，才能打破少数人利用职权定调子的格局，才有可能冲破“评比学术”的怪圈，重建真正的学术批评。

　　九、应当由谁唱主角

　　那么，学术评比还要不要搞呢？笔者认为，也不是绝对不能搞。但要一切有利于学术的真正繁荣与健康发展，不能是为了评比而牺牲学术，应该宁缺毋滥。关键的关键就是要把“评比”用到该用的地方去，就像鸦片只能药用一样。学术评比是整个社会评价体系的重要组成部分，虽说由于标准的不确定性，得奖往往并不能说明什么，但对于外行尤其是学界以外的社会公众来说，各种奖项具有特殊的象征意义34，对于学人尤其是青年学子也具有强烈的导向作用，这就需要特别地真实可靠。现在学界存在着许多“注水肉”、装嫩的豆芽菜；
抄袭，赝品，泡沫，亦数不胜数。如何取信于民？要将我们的学术导向何方？所以，在废止那些大量的不必要的“评比”的同时，对于必须保留的少量评比，有必要进行非常严格的限制。这是我们守住学术道德底线的必要前提35。

　　首先是在充分的学术批评的基础上进行评比。什么是充分批评，就是要让大家随便发表意见，评头品足。而要大家评头品足，就得有充分的公示。现在的评比，或者根本没有公示，或者是装装样子。少数人已经确定谁是什么等级，然后贴出来挂挂羊头，这不是糊弄老百姓又是什么？现在是网络时代，真正的公示，就要在网上公布。我们上面提到同行评议的不足，但同行毕竟是内行。现在的同行评议，实际上已经蜕变为外行评议，是同一小单位里不同专业、不同学科、不同领域的学人们凭着感觉走。所以我们必须实行网上公示，向全世界的同行公示。而且至少公示几个月，因为你总得给人家深入检验、研究和批评的时间36。鉴于乡愿主义盛行，评委的评论必须同时具名发表。评委要对自己的评价负连带责任，不然就别做这个评委。足球裁判吹了黑哨要下岗，评委凭什么可以逃避监督？

　　其次是评比指标要实事求是。现在学术评比中不仅程序很难保证公正，也就是所谓的“念歪经”，更糟糕的是，许多评比规则尤其评比指标本身就是“歪经”，就是“正嘴”也念不好。其最突出表现就是不根据工作性质确定评比指标，而是大搞“万般皆下品，唯有科研高”。只要是与学术沾点边的职业，高校辅导员甚至行政人员也好，图书管理员甚至资料员也好，中小学甚至幼儿园教师也好，统统都要发表论文作为评比条件。好像是个人就能搞研究，是个人就得搞研究。这种不鼓励做好本职工作，而是鼓励学术泡沫的做法，到底有什么科学依据37？评比指标的不实事求是，可能有着更深层次的思想根源，这就是对科研特殊性缺乏起码的认识和尊重，在推崇科研的口号下蔑视科研，形“右”实“左”。我们不反对行有余力搞科研，工人也可以成为发明家。问题是我们设计的评价指标到底要鼓励什么38？

　　再次是官员也不应前来捧场。现在盛行评比会请领导“出场”，好像领导不出场就是不支持该项工作。其实，不出场才是最大的支持。您又不懂，捧错了场算谁的？您负得了这个责吗？即使以前搞过类似的研究，也不可能一通百通。39关键是您的身份特殊，而且往往还要拿不菲的“出场费”，难免让人心存疑惑。行政资源是国家的，您凭什么滥用！到底是作为内行的学者在唱主角，还是外行或即使内行却没有做多少具体工作的官员来唱主角？到底是官员为学术服务，还是学术为官员服务？因此，这绝不仅仅是您个人的检点问题，更是给崇高的学术事业抹黑，因为这样做本身就是学风不正的一种表现40。

　　最后是政府退出评比，把评比的权力交给民间学术团体，或由真正同行学者组成的独立于单位的学术委员会。目前的情况是政府热中于搞评比，不断推出新的评比项目，并且往往参与和指导。作为权力机关的政府，并不具备评比的学术能力，不过是有关官员拉一些“相好”的学人搞明堂41。由于政府天然所具有的唯一的行政权威性，出了问题，也多半不会承担或无法承担相应的责任42。搞臭了可以下次继续搞，何公正之有，又何公信之有！所以为了避免给政府造成不良影响，政府应当有所回避。学者和民间学术团体，由于不具有永久裁判员的资格，而且要为自己的学术生命负责，因此会相对公正得多，关键是不公正容易受到“制裁”。近年来民间或学术单位的一些评比，如核心期刊、大学排名，多为学人尤其是学校领导所诟病。其实这倒是个方向。“长江读书奖”搞臭了，可以来个“黄河学术奖”，多家竞争，自然会逐步趋于公正。政府的职责是保证程序的公正，而不是参与其中左右局势。政府应当根据专家的意见，制定最低学术标准或曰学术准入制，就像质量管理监督部门只管产品合格不合格，而不是评比什么“部优”“国优”43。

　　总之，只有政府及有关管理部门能够真正守住底线，整个形势才会有所改观。

　　（本文原为2004年5月15—16日“学术期刊发展战略研讨会”（《云梦学刊》主办）上的发言，会后又进行了增补修订。）

　　注释：

　　①这应当是学界绝大多数人的共识，甚至有关官员都不否认。比如全国社科规划办副主任佘志远就认为，在很大程度上，当前人文社会科学研究的主要问题不再是经费问题，更多的是研究质量的问题。人文社会科学管理出现的新问题中，评价问题是最突出的。（见刘劲杨、刘永谋：“人文社科评价走上法治之路”，载《社会科学报》2004年3月25日）

　　②武遴办：“‘资深教授’将现身武大”，载《中国社会科学院院报》2004年8月12日。中国有一个怪现象，可以称之为“搞臭了算”。凡出现一个好事物，大家便蜂拥而上，一直将其搞臭为止。但愿“资深教授”能像主持者表白的那样，坚持“高起点、高标准”原则。不过，根据历史的经验，难！

　　③以博士点评选为例。博士点评选的黑幕已经是学界公开的秘密，但种种原因，很难曝光。大概是“监管”的一时疏忽，2003年5月15日的《社会科学报》发了一篇“评委，请自重!”（署名“区芜”），未点名地道了一点真实情况。好在全文不长，全录于下，以证其丑：“最近，全国第九次博士学位授权审核通讯评议结果已下发。其中，一些学科领域得同意票率令一些学界同仁大跌眼镜。(点击此处阅读下一页)

　　其出乎意料、令人震惊的结果，只有用‘不可思议’来形容。如有的学校在学科排名中位居下游，却以得分第一名的结果荣登榜首；
有的单位学术力量雄厚，人才济济，科研成果卓著，却连及格分都得不到。不止一个学科发生了这样的问题，引起了公愤。//参加此次通讯评议的专家和学者，是国务院学位委员会委托‘高等学校与科研院所学位与研究生教育评估所’聘请的。学者，人文精华之集成者也。学者应有学养，著名学者应有较高学养，其人格、人品、道德、公正心应是学界的表率。但被披露的某些学科的评选结果却证明，有些评委已丧失了基本的公正心和道德人格。把应该是低分的打成高分，这算什么学养？这种评委，学术界是不信任的。//好思者问：难道这些评委看不懂学术高低吗？但看得懂又怎样？学界中一些人抄袭者有之，偷窃成果者有之，稍有不同便互相攻讦者有之，结朋营私互相吹捧者有之。近几年来，著作权案层出不穷，文坛公案时时暴鲜，这些早已见怪不怪。每到评选之类的关键时刻，一些重点院校云集的地方，说情者、送礼者、邀请‘讲学’者，川流不息。有的院校为此动用上百万资金已不是新鲜事，有的学校派代表在京一住几个月大做‘公关’已不是秘密。试问：学术界是神圣的精神殿堂，难道这方精神净土我们也无法守住吗？//教育部已严令禁止此类请客送礼活动，但此类现象仍是屡禁不止。学界，要自省自重啊！评委，不是学术界的荣誉职称，而是学界的代表，是执法者。执法者应知自己肩上的担子，不应辜负学界同仁。当然，学界还是有公议的，大部分评委是学界同仁可以信赖的朋友，只有一小部分不知自律的人，给出了一个拙劣的表演。”

　　④不管自己如何认为以及是否能够做到，学者在公众心目中一直是社会良知的代表和正义的化身，是一个能够自律并有着高度责任感和牺牲精神的群体。但是，近年来，但凡出现学术不端行为，总有一些学人出来为之鸣冤叫屈，极力把道德甚至违法行为说成是学术问题。人们突然发现，学术界的道德水准远远低于社会其他行业。比如，官员中有公开为贪官受审喊冤、把贪污受贿说成是“行政问题”的吗？又比如，体育界有公开为“黑哨曝光”叫屈、把吹黑哨说成是“体育问题”的吗？而社会上又有谁公然把偷了人家财物说成是“合理借鉴”？只有中国学术界，敢冒天下之大不韪，以耻为荣开风气之先，不但“腐败”，还炮制出“腐败有理说”，为腐败“正名”。以前还藏着盖着掖着的丑陋，自从出了为剽窃教授辩护的丑事以后，学术界的黑暗另面一下子全都大曝于天下，学界在全体国民心目中威信一落千丈，“净土”成了“秽土”！目前这种为腐败者摇旗呐喊以非为是的恶劣学风，使学者社会楷模的形象丧失殆尽。这一状况不仅使学界本身遭受严重损害，更重要的是长此下去，势必造成整个社会价值体系的彻底崩溃。但我们似乎还认识不到问题的严重性。

　　⑤请看汤大民：“行走学术”（载《中华读书报》2003年8月26日）一文所揭露的情况：“在我国，每年要召开成千上万次各种规模、各种专业的学术交流会、研讨会、论证会、评审会、咨询会、成果发布会、名人纪念会……学界精英们因此而纷纷上路，风雨兼程奔四方，交流学术思想，实行集体攻关，传播学术成果，……这是多么繁荣的堂皇景象呀！遗憾的是，中国的堂皇，总可以让多嘴的文人‘但书’一下。学术繁荣背后，就有相当数量的‘行走学术’是只有过程，没有成果，只有行走，没有学术！//比如说，进行学术活动，必须优选场所，按理讲，这种场所应具备诸如专业文献丰富、信息灵通、人才相对集中、设备先进或有规模化的野外作业现场等条件。可是，许多‘行走学术’的‘选择’并不讲究这些，活动的地点与标榜的‘主题’毫无关系，甚至离题万里。那些地方有好山好水好吃的好玩的好乐的，或为新辟景区，或为避暑胜地，或为购物天堂，要啥有啥，就是没有学术。你怀疑选错了吗？不，你错了。请随便找一份这类活动的日程表看看吧，五天会期，第一天报到，晚上宴会，第二天上午领导致贺词，权威指方向，下午群儒论学，中、晚酒会，深夜放歌劲舞，后三天‘参观’山水市场形象工程……注重结尾的还有庆贺圆满成功的总结会。题目是‘学术’，文章却做成了‘醉翁之意不在酒，在山水之间’！平心而论，学者们非贪恋享乐者，他们只不过图个新鲜，浅尝辄止。然而，也正由于此，一个学术会议能从四川开到西安，从泰山开到庐山，从镜泊湖开到天池里……年年有年会，会会搬场子。//活动密集，搬场频繁，学界就流行起‘赶场子’。为了请教一个学术问题，我曾电话追踪一位名教授。半个月中，从北京追到海南，又追到广州、合肥、南京，谢天谢地，他终于在北京家中和我‘对话’了：‘对不起，你的问题比较复杂，我明晨还要飞西安，要在一个国际学术会上发言，改日再唠吧！’一位博导，一个月赶了7场，有一场请了别人未请他，那股酸劲儿冒上来，差点儿唱《贵妃醉酒》。据统计，某位演艺界大牌明星一个月最多演出150多场，一天最多赶了8场，创我国‘走穴’最高纪录。学界无人做统计，做了，纪录怕也相当惊人。”

　　⑥这不是我说的，而是具有权威的有关官员说（承认）的。据报载：“全国社科规划办副主任佘志远指出，1998年以来，中国人文社会科学的地位有很大提高，无论是在规模还是在职业化程度上都得到很大发展，也暴露出诸多问题。当前，中国人文社会科学发展到一个新的历史阶段，必须要回答这样一个问题：人文社会科学究竟给社会回报了什么？”（刘劲杨、刘永谋：“人文社科评价走上法治之路”，载《社会科学报》2004年3月25日）“人文社会科学究竟给社会回报了什么？”这句问话本身容易引起误解，但也确实道出些实情。

　　⑦以中国工程院院士、军事医学科学院原院长秦伯益亲身经历为例：“我过去在医药卫生界参加过国家级和军队的很多评审工作，很多待评项目我都不懂，只能跟着主审专家画圈。而且越是高层的评审机构覆盖面越宽，不懂的东西越多，越是外行评内行。被评的人怕我质疑，我怕提错问题露了馅。这种尴尬场景至今心有余悸。”（周欣宇：“工程院院士：学术腐败背后是科技评估导向错误”，载《中国青年报》2004年8月3日）

　　⑧这种搞法实际上混淆了政治权利与学术权利的区别：“学术评议和政治上民主权利的实施，最大的区别就是，政治上的民主权利，本质上是个人或社会集团利益的体现。这种权利的实施，应该使每个有条件表达自己意志的人都能充分地表达自己的意志，以维护自己或所属集团的利益。但学术评议者则不是代表个人实施权力，而是代表学术，或者说，是代表学术水平，来实施学术裁判的权力。这种权力，类似体育比赛体现水平、代表公平的裁判权。体育比赛的裁判是公开的，或者基本公开的。哪个裁判得正确，哪个不正确；
谁个公平，谁个不公平，都在众目睽睽之下。作弊的情况自然是有的，但比较容易发现，也比较容易纠正。体育比赛中能优胜劣汰，从而使体育水平不断提高，与这种裁判制度很有关系。学术评议则不同。评议者所投下的票本应代表学术水平，但由于处在秘密状态之下，所以从而黑票、黑事就有可能发生，而且还不能监督。这样一来，本应代表学术水平、体现学术公正的投票，就会变成行使个人意志的工具。于是，职称评定不公，奖项评定失正，项目分配失衡，甚至贪污受贿、拉帮结派，种种现象都可能发生。”（李申：“学术‘裁判’应公开”，载《光明日报》2002年10月22日）。

　　⑨参见邢东田：“中文核心期刊的误区与出路”，载《社会科学管理与评论》2002年第3期。

　　⑩沈利生：“探索科研成果水平的客观评价标准——谈科研成果引用率”，载《中国社会科学院院报》2004年5月18日。

　　11凌斌：“中国主流法学引证的统计分析——以CSSCI为数据基础的一个探索性研究”，载《中国社会科学》2004年第3期。

　　12有研究就从9个方面指出了SCI（科学引文索引）中存在的问题：（1）引用行为动机的复杂性，使SCI的引用率统计数字不能绝对可靠；
（2）漏引现象的存在，也影响引文统计的准确性；
（3）引用率在不同学科之间也存在不可比性；
（4）某些论文获得较高引用率在时间上的特殊性，也使引用率统计结果不尽准确；
（5）仅仅依据引用率一项指标，不能说明真实情况，也难以令人信服；
（6）因文献收录不全而导致较大的漏检率，限制了SCI评价的全面性和公允性；
（7）SCI来源期刊地域分布不平衡及语言障碍等因素，使SCI不适于作为我国通用的评价标准；
（8）SCI对多作者合作论文的荣誉归属方式，不利于实施科研合作；
（9）使用“SCI标准”，不适合于评价应用研究成果。（王晓莉、叶良均、徐飞、姚政：“SCI作为科研成果评价标准的局限性研究”，载“学术批评网”2001年11月15日）

　　13这是科学研究的常识，比如诺贝尔奖得主丁肇中就说过：“在社会生活的许多领域，我们都是少数服从多数。但科学研究是例外，常是‘多数服从少数’。”（徐敏、诸巍：“科学常常‘多数服从少数’”，载《解放日报》2002年09月17日）

　　14从理论上讲，“核心期刊”与“引用率”等最终都是“同行评议”的结果，所以“同行评议”是否有科学依据就成为问题的关键。按照卜卫等研究者的归纳，同行评议的确问题多多：“（1）同行评议本质上是保守的，对真正有创新的研究带有天生的偏见（杜开昔，1988）。在科学研究中，最具开创性的工作都是一些突破现有常规思维的工作。但是，这种工作很可能被囿于常规思维的评审人否定。例如，迈尔（J.R.Mayer）宣布能量守恒定律的论文经过同行评审，未能在一家权威刊物上发表。甚至有些后来获得诺贝尔奖的研究成果，在同行评议中也未能通过。因此，美国学术界一些人认为：在同行评议中，一种比别人先进三年的学术思想，很容易被同行通过；
如果先进五年，便很难被大部分同行理解，就有被否定的危险；
如果先进十年，则几乎不可能被多数人理解，所以很容易被同行否定（李明德，1989）。（2）这种制度存在天生的不公正，因为不同的评审人有不同的理论观点、方法论和评估标准。对同一研究成果，不同的评审人给予的评价会有很大差异。所以，很可能论文的命运决定于评审人的人选而不是论文的质量。一些调查证明了这种现象确实存在。但迄今为止，人们还没能找到一种客观标准，来统一不同的评审人对评估对象认识上的差异。（3）同行评审制度对在著名机构工作的著名研究人员有利。一些研究提供了关于这个观点的证据。彼得斯（D.P.Peters）和塞埃西（S.J.Ceci）从几家权威性的心理学刊物上选出十二篇由著名院校的研究人员写的论文，然后将他们的名字换上二三流院校的名不见经传的作者，重新投寄原先发表这些文章的刊物，结果，近90%的评审人没有发现文章已经发表过，90%的论文被建议退稿，理由是“有严重的方法错误”（杜开昔，1988）。（4）评审人对本国人或本单位人的文章持较宽松的态度。（5）这种制度假定评审人是诚实的、公正的，这就为那些不够诚实公正的评审人提供了便利条件，他们可以滥用他们的特殊地位为己谋利。耶鲁大学的一位研究人员曾经应邀评估一篇与他们自己的研究题目相类似的论文。他们对文章提出了严厉的批评，建议不予发表，其中一名研究人员剽窃了文章的内容，虚构数据，发表了自己的文章。一年以后被揭露出来。”卜卫等认为：“这些问题存在的根本原因是：评估结果在很大程度上取决于评审人的主观因素，而这个制度并没有提供一种方法或手段来制约评审人的主观因素，使他们能尽量客观地评估成果的价值。”（卜卫、周海宏、刘晓红：《社会科学成果价值评估》第13～14页，社会科学文献出版社1999年5月版）有关论述还可以参见严春友:《现代学术制度的漏洞》，载《学术界》2003年第6期。

　　15详见“国家社会科学基金项目成果通讯鉴定表（论文类）”，载全国哲学社会科学规划办公室网。

　　16该“评估指标体系”还有一些自相矛盾的设计。比如同是D级指标，“新意很少”，“难度很小”，“对学术研究或社会发展作用很小”，虽说什么是“很小”难说清楚，但毕竟“很小”不等于“毫无”，给分（1～4分）可以理解。但是“理论前提、资料、研究方法等方面有严重欠缺”“概念不明确，条理欠清楚或逻辑混乱”“引证不规范”，本应扣分，为什么也要给分？

　　17专家是如何进行“国家社会科学基金项目成果评估”的，尚未找到有关资料，但许纪霖教授的现身说法很能说明问题所在：“以我个人的愚笨，(点击此处阅读下一页)

　　常常在‘数目字管理’之下感到手足无措。比如，研究生答辩完了，我会面对一堆表格发呆：表上要你分项为每个学生打分：课题意义几分、论证合理性几分、论据充分几分、应用价值几分，最后算出总分，排出名次。虽然对学生们的优劣有一腔的评语，个中优劣也一目了然，偏偏我就没有‘数目字管理’的起码能力，最后只能反其道而行之，先为各位打上总分，最后胡乱分配到各个分项中。一边填，一边满腹狐疑：部分之和等于整体，还是整体大于部分之和？”（许纪霖：“数目字管理下的数字化生存”，转自学术批评网2004年6月26日）

　　18利用领导不懂行进行“圈钱”，也是傍大官的一个重要原因：“有些人不是通过申请科研基金的方式拿到经费，而是直接向领导要钱。现在有句流行的话叫做‘小钱大评、中钱小评、大钱不评’，所谓‘大评’要经过好几道手续，即使申请成功一年也只能拿到三五万的经费，即‘小钱’；
‘中评’手续少一些，而经费数一年为十万左右，即‘中钱’；
最多的‘大钱’可能是上亿的，无须大家评议，由领导直接决定，发放不合理不正确的有很多。”（“学术腐败：中国科学的恶性肿瘤——就学术腐败等问题采访邹承鲁、方舟子”，载《中华读书报》，2001年11月14日）。

　　19 2004年曝光的“熊良山现象”，很能说明问题。华中科技大学机械专业副教授熊良山，不仅缺乏古汉语基础，就连《道德经》的“道德”与伦理学的“道德”不是一回事都分不清，比如在其所撰写的《道德经浅释》（华中科技大学出版社2003年9月版）一书中，他把“如享太牢”解释为“（心里）实际像坐大牢一样的痛苦”，把“其政闷闷，其民淳淳”解释为“掌权的闷闷不乐，人民喝得酩酊大醉”等。仅五千言的《道德经》，据有学者披露：“诸如此类的错误不胜枚举，专家粗略统计，多达三百多处。”（崔雪芹：“学术研究有行规”，载《科学时报》2004年6月10日）更为严重的是，该课程还涉嫌传播巫术。比如《道德经》原文“太上，下知有之”，熊良山释为“太上老君，下面的事情他知道”，并演绎说：“太上老君创道以后，坐镇大道轴心指挥整个大道运转，但是下面的事情即宇宙中的各个银河系、恒星系、星球体（行星）上发生的事情他都知道。为什么呢？因为这些事情都在道的范围内，而他就是道的化身。”熊良山在《道德经浅释》“前言”中承认，他这一套解释来自其师孙享林的《李聃道德经意解·曲谱》（华中师范大学出版社1998年1月版）。经过比对与调查，可以发现：两书都打乱《道德经》81章顺序（只有第一章没有动），重新排列，改为81课；
每课冠以相同的课名，编排了相同的课次；
熊对《道德经》原文的胡乱释义与孙完全一样，只是比孙有了更多的“结合实际”的发挥。而据《李聃道德经意解·曲谱》“作者简介”“绪言”，作为原为武汉工学院副教授的孙享林，是一位气功师，“在修炼中接受李聃大道信息”“以《道德经》为理论基础，创编了自然神功”“通过《道德经》的修炼，先后练了五气朝元、三花聚顶、九转还魂丹、命功后天八卦、性功先天八卦、天人合一、练虚合道，抽阴练纯阳体、出仙鹤、道生阳神等”。就是这样的涉嫌传播巫术的胡编乱造，却被华中科技大学批准为该校的传统文化和人文素质教育选修课。8年间选修该课学生有8000人之多，不但没有受到任何阻止，反而获奖立项——荣获2001年湖北省高等学校省级教学成果二等奖（文科类），并被列为湖北省教育厅高校社会科学研究“十五”规划第一批项目，所撰写的“百孔千疮”之《道德经浅释》还成为该校“新世纪教学改革工程”第一批立项教材。在《湖北省教学成果奖推荐书》上，校评委会的意见是：“经过5年的探索和实践，开辟了一条利用文化经典《道德经》对学生进行素质教育的新途径，将素质教育进一步落到实处，取得了提高学生思想道德素质和为人处世能力的实际效果，在武汉地区高校产生了一定影响，具有理论和现实意义，具有在全国高校推广的价值。”（引自夏斐、夏静：“《道德经》引进华中科大”，载《光明日报》2004年5月10日）如此荒唐却大行其道，当然不是该校在人文方面没有专家，而是因为熊良山的胡编乱造得到了同样外行的“官”（时任华中科技大学校长、现任教育部文化素质教育指导委员会主任委员和华中科技大学学术委员会主任的杨叔子院士）的支持，专家或不敢说话，或顺着官说。于是越走越偏，以致闹出了大笑话。最后是港台学者出面找到《科学时报》记者，才将真相披露于世。（参见朱实：“‘熊良山现象’述评”，载《科学与无神论》2004年第5期；
邢东田:“令人忧虑的‘熊良山现象’”,载《学术界》2004年第6期）

　　陶世龙在批评“熊良山现象”时还提到：“从全国范围内来看，其实也是如此……我自己就有这样的经历，2002年出了个《百名地球科学家推荐沈阳版‘人与地球丛书’》事件，且不说这套书值不值得推荐，单就推荐人并不知道这件事就把人家的姓名印在书上了，就是无可辩解的错误。为什么敢这样干？拉到了当时的国土资源部部长田凤山出面，又是讲话又是发表文章为之吹嘘（此人对地质学一窍不通，可是居然当上了中国地质学会的理事长，发表点这样的文章更是小菜一碟了）。不少该说话的人也不说话了，个别人甚至还跟着说些捧场的话，原因么？不言而喻。”（陶世龙：“对所谓‘熊良山现象’的思考”，载五柳村网2004年9月）

　　20 2001年“湖北省社科优秀成果奖”丑闻，就是明证！湖北省社会科学优秀成果评奖（1994—1998）结果于2001年1月22日在《湖北日报》公示之后，舆论哗然。武汉大学教授邓晓芒、赵林、彭富春发表“是可忍，孰不可忍？——评湖北省社科评奖中的学术腐败”的文章指出：这是“学术腐败在政府评价体制中的一次公开的粉墨亮相。在本次评奖过程中，评奖主持人和个别评委利用职权，在哲学社会学组把一场严肃的评奖活动变成了一场一手遮天、结党营私、瓜分利益的丑剧，在湖北省哲学界造成了极其恶劣的影响，体现了搞学术腐败的典型方式”。在初评中，由于没有匿名评审制度和健全的回避制度，尽管在评审到自己的成果时评委本人也“回避”一下，但从评审的结果来看，“评委们相互之间的心照不宣、彼此关照、利益均沾、互投关系票，已达到了出神入化的程度”。如哲学社会学学科组全部五位复评评委（负责复评并参加终审），获一等奖二人、二等奖二人、三等奖一人，中奖率100%。该学科组负责初评的七位专家（即初评委），死位有成果参评，分别获二、三等奖，获奖率也是100%。其中武汉大学哲学系马列教研室有七人申报，六人获奖：一等奖一名、二等奖三名、三等奖二名，这六名获奖者中，有五名是师生关系，其中老师为本次评奖活动中哲学社会学组复评组组长、省社会科学优秀成果评委会副主任，而其弟子则是哲学社会学组初评组组长。鉴于哲学社会学组评审结果极不公正，三位教授“强烈要求按湖北省社联各学会团体举行会员投票，选出真正具有代表性的评委，对此次评审结果进行重评或复审，尤其是对陶德麟、汪信砚依靠权势和捣鬼所获得的一、二等奖，应本着严格的学术标准取消其获奖资格……否则的话，湖北省学术界尊严扫地，湖北省第一届‘政府奖’名誉扫地，湖北省大批有真才实学的专家教授和博导们也真该去扫地了！”（杨玉圣：“前车之鉴：晚近十大学案警示录”，载学术批评网2004年3月17日）

　　21其实，评比能否真正起到激励作用，很值得怀疑。一位学者在评论“长江读书奖”时指出：“设奖是一种激励手段，所谓重赏之下，必有勇夫，讲的就是重金奖励的效应。然而，读书人大概从来不是勇夫，所以，古往今来的历史上，还没有看到重金奖励出来的科学成果。特别是那些传世的著作，都没有提供奖励效应的根据。看来，设奖对于科学创造，特别是对于社会科学创造的激励，是值得商榷的。”（李振宏：《各种公私奖项可以休矣》，载中华读书网编：《学术权力与民主——“长江〈读书〉奖”论备忘》第335页，鹭江出版社2000年8月版）

　　22详见吴思：《潜规则：中国历史中的真实游戏》，云南人民出版社2002年5月第2版。

　　23笔者不止一次亲耳听到过这样的抨击，现行的职称评比简直就是一出现代版的“二桃杀三士”。

　　24职称名额有限时，在符合条件的申请者中实行“掣签法”，也比目前搞的“比优劣”那一套要公平、公正百倍。今年未“中签”者，明年自动升级；
如果名额不够分配，则今年未“中签”者明年优先“掣签”。新符合条件者，依此类推。如有特优人才，则另给名额。

　　25比如，在2004年10月17日召开的“首都中青年学者学术规范论坛”上，首都师范大学副校长刘新成先生虽然也承认“量化管理”问题很多，但又认为至少现在不能取消：“因为第一，我国学术圈里还有懒人存在，必须有‘奖勤罚懒’的政策，在这一点上，量化评价十分有效；
第二，在目前社会请托之风依然严重的情况下，数字毕竟有那么一点客观公正的可信度。”（刘新成：“质量规范与学术管理”，载学术批评网2004年10月18日）

　　26这种例子不胜枚举，比如孟德尔的遗传学说当年即被学界冷落。

　　27笔者相信，凡是亲身经历过评职称大战的学人，无论成败，都会得出这一结论。比如，孟彦弘最近在“减少学术泡沫界定道德底线”一文中就如是说：“许多行政管理人员认为虽然过分量化欠妥，但不能没有量化。对此，我不敢苟同。首先，学术研究的最终目的是要推动学术的进步。十本平庸的著作并不能折算为一篇有贡献的论文，这就如同重复一万次高度为一米的跳高并不能被认为是打破了奥运纪录一样。我们追求的是那一次有质量的一跳，而不是低水平的重复次数。从这个意义上说，所谓量化对学术发展和学术进步是没有意义的。其次，任何制度都有消极的一面。我们对任何一种制度的选择，实质上都是在做‘两害相权取其轻’的工作。学术的量化管理也应作如是观。量化可以奖勤罚懒，但是，我们学术管理的目标是要促使十个懒汉都各写出十篇平庸的文章呢？还是要为一个大师的出现创造良好的学术环境和学术氛围呢？我们放弃量化，可能出现不了大师，却白白养了懒汉，但至少有出现大师这种可能；
而目前的量化管理，扼杀的比率的却要远远高于培养大师的比率！当然，我们的前提是，在学术研究中，懒汉不会因为量化管理而成为大师。在1949年以前的学术界，没有实行严格的量化管理，不但没有妨碍学术研究的进步，没有养大批的懒汉，相反却出现了一批大师。难道现在有大师潜质的人变得更不道德、更不敬业、更不追求学术成就了！？”（《首都中青年学者倡议恪守学术规范》，载《科学中国人》2004年第11期）

　　28杨福家院士指出：“不管学校规模大小，要成为世界一流，最重要的还是要有‘大爱’。”“大爱”就是“一种宽松、宽容的环境，一种以人为本的爱心”。他特别举了两个例子：“一个是它的一位教授迷上了费马大定理，8年之间不担任教学，也不搞其他科研，一心钻研费马大定理，最后终于解决了这个难题，为数学做出了重大贡献。8年之间，普林斯顿大学可以容忍他沉迷于自己的兴趣而不承担任何其他教学科研任务，这在中国可能吗？”“还有一个故事更有名，后来改编成电影《美丽心灵》，原型是普林斯顿一位大学教授纳什，因为精神刺激而疯癫，但学校30年间一直容忍他的存在，关怀他，后来这位教授获得了诺贝尔经济学奖，他和普林斯顿大学的故事感动了全世界。普林斯顿就是典型的有大师有大爱，所以它能成为世界一流。”他认为：“量化的考核体制是成问题的，是缺乏一所真正的一流大学拥有的‘大爱’的体现。”（袁凌：“院士对话·有大爱才有一流大学”，载《新京报》2004年6月5日）

　　29刘劲杨、刘永谋：“人文社科评价走上法治之路”，载《社会科学报》2004年3月25日。这是目前非常主流的看法。

　　30目前学界有一个很糟糕的风气，就是同情被批评者，而不管批评是否正确。一些学人完全是双重标准，一方面按照圣人的标准要求批评者，另一方面又对违规者抱以同情，甚至还要为其无耻行为辩护，比如把道德问题说成是学术问题。

　　31如果有人给批评者扣“文革”帽，他完全可以理直气壮地说：我批评的是你的观点，又不是消灭你的肉体，这与“文革”何干！更重要的是，并没有剥夺也不可能剥夺你说话的权利，你完全可以据理而力争。用什么样的方式进行批评，完全是批评者的自由，在守法的前提下，批评者可以采用任何他认为最合适的方式。这就是学术的自由，(点击此处阅读下一页)

　　这才真正的学术批评。只有在这种毫无法外限制的自由的学术批评氛围中，学术才能发展，学术才能繁荣。

　　32[美]W.布劳德、N.韦德：《背叛真理的人们——科学界的弄虚作假》第27页，朱进宁、方玉珍译，科学出版社1988年1月版。

　　33关于外行学术官员支持熊良山，参见本文注释19。中央与地方多家主流媒体的大力表彰宣传，试举几例：“《道德经》引进华中科大”（《光明日报》2004年5月10日），“背靠五千年培育民族精神”（中国教育杂志网2004年5月11日），“《道德经》进入大学课堂一片叫好”（《江南时报》2004年5月12日），“人文之光照耀科学摇篮”（《人民日报》2004年5月13日），“华中科大将《道德经》引入大学课堂”（新华网2004年5月14日）。

　　34尽管有种种不同的观点，但我更同意这样的看法：“科学奖励在本质上是对科学成就和科学才能的承认，而不是对科学家的劳动给予的物质报酬，而且科学贡献的大小和科学才能的高低往往不能用金钱的多少为尺度来衡量，因此，在科学奖励系统中物质奖励本身不是目的，它只能起到一种象征性的作用，它可以增加奖励的庄重性，扩大奖励的影响，对于广大公众来说，‘它以一种使了解情况和不了解情况的人们都能懂得的方式说明科学和科学家真正受到重视。对于许多科学家本身来说，奖金使他们对科学知识做出的重大贡献得到了自己队伍象征性的和公开的承认’。”（何亚平主编：《科学社会学教程》，浙江大学出版社1990年1月版，引自浙江大学网）。

　　35目前学术界流行着一种看法，就是学术腐败主要是学人没有守住道德底线，或至少是重要原因。然而，上梁不正下梁歪，上有所好，下必甚焉，各种违规尤其是学术腐败，首先要守住底线的应当是管理者。如果他们在各个方面做的像点样，中国的学术绝不至于如此不堪。事实上，只要管理者能够坚持原则，其单位就很少或根本不会出现学风和学术腐败问题。

　　36参见顾海兵：“构建时间与空间双重制约的学术评价规则”，载《光明日报》2004年6月8日。

　　37这绝不是笔者个人的看法，而是学界诸多学人的共识。最近杨玉圣先生提出的“让学术回归学术”的意见，就很值得我们重视：“让学术成为研究型大学的主业，以教学型大学以及广大的各类中小学的教师和幼儿园阿姨则应该集中精力搞好教学，让教师回归教师，各就其位，各司其职。制订教育政策的主管部门不要乱点鸳鸯谱，尤其不要乱下‘越位’指标，把学校和教师往‘歧路’上赶。该搞好教学的必须把教学搞好，该搞好科研的必须把科研搞好，这样的话，或许中国的教育还有希望能搞好，学术水平也还有可能提升。果如此，将是中国教育的福音、中国学术的希望。”（杨玉圣：“让学术回归学术”，载学术批评网2004年11月18日）

　　38评比指标不实事求是的例子还可以举出许多，各高校实行的“核心期刊制”是很典型的一例。“以刊评文”之荒唐，只要有点正常思维都可以明白，为什么还要在最讲理性的大学校园里堂而皇之地大力推行？据了解，其奥秘就在于相当多的学术评比都是建立在“以刊评文”基础上的，如果将这个“劳什子”规定废除，那些评比就没法搞了。对此，人们不禁要问，既然如此，我们的这些评比又算是个什么东东！

　　39以下观点值得重视:\"美国学术界普遍认为，同行评议中的‘同行’应该包括以下特殊含义：他们应该是正活跃在第一线从事研究工作的科学家；
他们应该不是政府部门的雇员，因为科学正在迅猛地发展，研究方向和内容也会相应地发生变化，一个科学家只要不在第一线从事研究工作，他的知识很快就会落后，从而失去对科学发展趋势的准确了解和判断；
他们必须有从事研究工作的丰富经验，并且在研究工作中卓有成效。只有具备了这些条件，他们才有能力对项目或成果的学术价值做出客观的分析和判断。根据这个‘同行’的概念，政府部门依靠内部雇佣的科学家评审，不能算作同行评议（李明德，1989）。\"（引自卜卫、周海宏、刘晓红：《社会科学成果价值评估》第12页，社会科学文献出版社1999年5月版）

　　40质量上有着严重问题的《现代汉语规范词典》，就是一个典型的例证。有关官员出席捧场的情况，详见《尊重语言文字发展，恪守现代汉语规范——〈现代汉语规范词典〉人民大会堂首发式发言摘要》（载《光明日报》2004年3月15日）。正是因为有诸多官员的积极参与、出面捧场，才使得本来非常简单明晰的问题复杂化了，该处理的得不到处理。

　　41这种情况不胜枚举，本文中提到的博士点评比、《道德经浅释》获奖、湖北省社科优秀成果奖等皆为典型例证。据最新的两会报道，有人大代表批评“‘专家论证’成‘领导论证’，‘专家论证’成‘小圈子’论证”（陈二厚、代群、胡作华：“汪春兰代表：‘专家论证’不能成‘无责论证’”，载新华网3月10日）。看来此风是愈演愈烈。

　　42因为这不仅关乎官员的面子，更关乎政府的权威，所以错了也不愿认错，有时甚至还倒打一耙。比如“湖北社科优秀成果奖”争议一事，“湖北省社会科学优秀成果评奖办公室”就指责邓晓芒等人的文章“内容十分不真实”，用了“一手遮天、结党营私、瓜分利益”等“十分不负责任的语言，对我国著名的哲学家陶德麟先生进行了人身攻击”。“我们得到的信息是，社科界的绝大多数同志反映是很好的。大家都觉得省委、省政府为我省社科界做了一件大好事”。投诉率只有1%，“足见这次评奖活动是相当成功”。“整个评奖工作是公平、公正、科学、民主的。评审程序是合法的，评审结果反映了大多数评委的意愿，也反映了各院校的整体实力”。针对这篇“评奖办公室”的文章，邓晓芒等又公开发表“掩耳岂可盗大钟？——再评湖北省社科评奖中的学术腐败”，予以一一驳斥。（杨玉圣：“前车之鉴：晚近十大学案警示录”，载学术批评网2004年3月17日）

　　43这也绝不是笔者个人的意见，而应当也是相当一批学人的共识。最近顾海兵在“切断评价体系中的利益链”（载《社会科学报》2004年11月18日）一文共提出七项举措，其中第七项就是：“减少政府评价（评审、评定、评奖），学术性评价由学术组织自我决定。取消诸如国家级与部级重点学科、国家级与部级重点实验室、国家级与部级重点研究基地、人才工程之类的政府评价。政府部门应该是制定竞争规则、纠正违反规则，政府的任务是汱劣打假，不是去评优、定行政等级。正如市场管理部门的任务是打击假冒伪劣，而不是评选名牌。名牌由市场认定。政府应尽量减少干预的次数与频率，尽量间接干预，抓战略、抓大事，有所为有所不为。” （《社会科学论坛》2005年第4期）

相关热词搜索：矫正评比误区学术邢东田

邢东田：“评比学术”的误区及矫正

热点文章阅读