展览评估与展览评选研究述略：展览评价的专业化探索

字号：T|T

2025-04-24 16:11 来源:博物院杂志

展览评估、展览评选是展览评价的两种重要手段，它们在目标设定上具备共性，而在实施的对象和方式上有所区别，因此两者之间存在孕育与相长的双重关系，共同助推展览评价的专业化进程。基于此，本文纳入展览评估和展览评选两大领域的研究成果，尝试对从展览评估到展览评选的展览评价学术史进行爬梳，并按照阶段性特征将其分为三个阶段：20世纪50年代前的滥觞期、20世纪50—70年代的成长期、20世纪80年代至今的兴盛期。从中可以管窥展览评价专业化的发展历程：教育评价法催生出对展览评估标准的探索，展览评估实践助推评价标准的讨论，聚焦展览评选的标准研究继而出现。

一、问题提出

19世纪末，博物馆告别珍奇柜紊乱、随机的陈列时代，步入有秩序、有系统的展示时代，展览由此发展为博物馆的基本功能。博物馆在为物件展示提供表演舞台的同时，展览也被视为与观众沟通的基础载体。基于此，创建一流展览几乎成为所有博物馆矢志不渝的追求。但由于我们身处的时代拥有太多的大众媒体，视觉拟像、观光旅行、上网冲浪等又为今日生活增添了各色体验，虽然展览可在特定空间内为观众打造与物交流的独特体验，但也正如曹兵武所言：它不过是一类小众的大众媒体。一旦展览质量无法保证和缺乏自我约束，或一味谋新求变而茫无指归，那么很可能“在竞逐的过程中迷失于信息的旋流之内，成为末梢支流的下游文化集市”。因此，我们需要迫使自己放慢脚步，近距离观察围绕展览所做的一切，并重新思考做这些的理由。

时至今日，我们创建展览的目标大致可概括为以服务观众为导向，旨在达成传播目的并使观众从中获益。简言之，展览应经由专业化不断提升服务质量。尽管如此，目前中国大陆地区博物馆在展览方面遭遇的最大问题在于开展时宣传铺天盖地、人头攒动，但究竟是否达到预期目标、观众能否从中获益不得而知。有些展览没有预期目标或恰当的预期目标则另当别论。可以确定的是，不少博物馆人对展览和观众的关系有着长久深入的思考，展览也发挥着丰富而正面的影响，然而这种影响尚未被测知，但没有实证并不代表没有效应。展览评估、展览评选等展览评价仍然缺乏专业性强、共识度高的标准是无法评估展览效果的重要原因。这是博物馆展览质量提升的一大症结。这种标准不仅可作为效果衡量的工具，亦可作为专业提升的指南。

鉴于此，本文尝试对展览评估与展览评选的相关文献进行爬梳和述评，并将其分为滥觞期、成长期和兴盛期三大阶段，以探究展览评价专业化的发展历程及前后因果关系。我们认为，对展览评估的细化至展览评选的研究成果及其历程之回溯，有助于将行业普遍接受的展览标准及优秀表现置于讨论的焦点。

二、范围确定和方法选择

1.文献范围的确定

通常来说，展览评价包括展览评估、展览评选和展览评论三种手段。展览评估指“运用科学研究方法对展览的建设质量与呈现效果等进行评测并获得相应的判断结论，用于指导展览优化改善的评价手段”；展览评选指“根据确定的标准，从一定时间和范围内举办的博物馆展览中，选拔出最符合评选宗旨的代表性展览的评价手段”；展览评论指“侧重评价展览的策展思想和理念。这是一种在过程上强调批判、在结果上突出阐释的评价手段”。展览评论通常带有较为浓烈的个人色彩，所以探究展览评价专业化，尤其是标准问题时，不宜将展览评论的相关研究纳入讨论之列。而展览评估、展览评选作为展览评价系统的重要构成，既存在共性，又存在差异。就共性而言，两者运营目标较为一致，都着眼于提供标准来推动博物馆行业专业化发展，旨在提升展览质量。就差异而言，两者的对象和方式存在区别。前者的对象通常是某一展览、立足基层，后者则为多个展览、立足行业；前者的方式是聚焦效益的绝对性评价，后者则注重比较，是由选拔性竞争驱动的相对性评价。

基于此，我们不主张将展览评估、展览评选进行人为割裂以致逻辑难以自洽，而将其视为一个动态发展的连续体纳入讨论框架。同时，由于展览评选极其依赖具备可信度和共识度的标准，所以对标准的探讨更为集中，而标准的深化与完善则是展览评价专业化的核心表征。综上，本文的研究述略主要包括展览评估、展览评选两方面的研究成果。

2.方法的选择

本文希望对研究现象有一个较为完整的关照，因此文献的检索和筛选分三步走。一是以“exhibition evaluation”“museum evaluation”“博物館評価”“exhibition awards”“museum awards”为主题词在JSTOR、Taylor&Francis、Wiley、Eric、CiNii、Pro Quest等数据库进行检索；以“展览评估”“全国博物馆十大陈列展览精品”为主题词在中国知网数据库检索。二是选择高被引文献进行精读，确定与本文研究问题高相关的文献及核心作者。三是聚焦最终选定的关键文献，通过滚雪球的方式对论文、专著和报告予以增补。

三、从展览评估到展览评选：展览评价的三个阶段及其特征

1.滥觞期(20世纪50年代前)：教育评价法催生展览评估标准的探索

英国博物馆界通过研究观众以探讨展览效果的实践较为久远。而在美国，一部分学者认为直到1916年本杰明·吉尔曼(Benjamin Gilman)提出了博物馆疲劳，此类研究才开始发端。

20世纪后，美国成为展览评估发展势头最为强劲的国家，并将它的影响力辐射至全球。世纪之交，随着大量移民进入美国，针对移民同化的“美国化运动”风起云涌，公民教育成为美国的头等大事。对欧洲博物馆来说，19世纪国家博物馆的建立与欧洲民族主义的肇兴直接相关。而19世纪末20世纪初，美国博物馆的发轫则更多与城市中心的建立有关，且每一座城市都受到其他城市的推动，这股伴随城市发展而兴建博物馆的潮流一度蔚然成风。由此，20世纪的美国成为了博物馆教育和启蒙公众的国际中心。而展览教育和启蒙的效果究竟如何进行评估，此时一批教育学、心理学专家的研究热情被极大激发。20世纪30年代，耶鲁大学成为相关研究的重镇，由美国博物馆协会发起，受卡内基基金会资助，该校心理学教授爱德华·罗宾逊(Edward Robinson)和他的学生亚瑟·梅尔顿(Arthur Melton)进行了为期10余年的研究(1925—1936年)。该研究拓展了博物馆疲劳的心理因素，探索了影响博物馆教育效果的其他非审美因素，同时研究采用的非干扰观察法也为后来者提供了可借鉴的方法。

同时期另一个不容小觑的长时段研究，则是由拉尔夫·泰勒(Ralph W.Tyler)领导、美国教育协会发起的为期八年(1934—1942年)的实验研究，主要针对中等教育及其与大学的衔接问题，旨在实现中学生升学和就业的双重目标。随着美国加入第二次世界大战，政府要求评估人员对其举办的展览开展评估，试图借此改变公众态度和行为。衡量展览对目标观众的影响成为重要议题，而此前有关展览评估标准的探究已为其奠定基础。基于此，借1939年第20届世界博览会在纽约召开之际，荷马·考文(Homer N.Calver)、梅休·德里贝瑞(Mayhew Derryberry)等人引入评级方法，并讨论了该法之于展览评估的可靠性。研究认为只有立足观众行为进行评估才最有效。虽然此项研究仍未突破评估中的观众偏好，但难能可贵的是，专家视角也被吸纳进来。

英国虽然未受教育领域评估的直接影响，但却深受美国的影响，教育评估理念由此间接传播至英国。二战后期，艾尔玛·斯蒂芬妮·魏特林(Alma S.Wittlin)便是深受其影响的最具代表性的学者。1942—1943年，为比较新旧两类展览的效果，魏特林在剑桥大学考古学和人类学博物馆实施观众调查。采取偏向质性的方法，比较观众观展后的短期与长期收获。研究发现有更少展品、更多插图和解释的“新展览”比“旧展览”效果更佳。这项研究至少带来两点影响：第一，已认识到语境的重要性和明确展览主题及使用多种方法进行展示的必要性，这种观点相当超前；第二，采用访谈等描述性材料的同时结合数据。故魏特林被乔治·海因(George E.Hein)视为继希尔金、吉尔曼后又一位采用自然主义研究方法的学者。

可见，20世纪50年代前，无论是在美国还是英国，学者聚焦观众行为以探讨展览对其产生的影响。他们认为，通过控制和改进影响行为的因素，有助于提升观众的学习效果。同时，教育领域有关评价标准的探讨为展览评估标准的研究提供了优渥的土壤，加之美国政府的推动，展览评估得以全面开启。

2.成长期(20世纪50—70年代)：评估实践助推展览评估标准的讨论

二战后的三十年，整个世界发生了迅速而深刻的变化。社会步入城市化，工业化促使专业活动增加，大学纷纷创立并向此前被排除在外的社会阶层敞开大门。随着城市高学历、高收入人群的聚集，文化习俗得以改变、需求日益增多，如何安排这部分人的闲暇时间成为问题。同时，殖民独立运动推动文化民主化，博物馆成为社区重要的文化提供者。此时开展的研究往往基于这样一种信念：博物馆是教育场所，认为观众应该得到最好的教育，而展览评估有助于创造最佳的参观条件。不过，正如卢米斯所言，尽管很多人在讨论博物馆的公共使命，但很少有人意识到观众的实际需求。这一点似乎与我国当前情况较为相似。

直至20世纪60年代，博物馆界不情愿地接受了评估并对其日渐重视，认为评估是促进自身发展的手段，而观众则成了新方法的中心。围绕观众衡量展览效果的研究被博物馆采纳，成为指导博物馆实践的参照，研究由学术领域步入评估实践，典型代表为美国的密尔沃基博物馆、加拿大皇家安大略博物馆和英国自然历史博物馆。

美国密尔沃基博物馆是评估实践的第一个代表。20世纪50—60年代，学者亚瑟·尼霍夫(Arthur Niehoff)、斯坦利·比格曼(Stanley K.Bigman)等和时任馆长斯蒂芬·博尔海吉(Stephan F.de Borhegyi)以密尔沃基博物馆为阵地开展了大量研究，并根据研究发现对展览加以改进和创新。博尔海吉指出：“在我们馆内对展览的测试被认为是未来设计和规划展览成功的关键。”可见，研究结果不仅有助于策划展览、测试展览教育潜力，也有助于洞悉策展人可能覆盖的工作。尽管如此，谢特尔却对此项研究给予严厉批判，认为该展览评估是在没有任何精确目标的情况下实施的，且标准的获得不可靠和较为任意，难以广泛推广。这些观点主要体现在他的报告《确定展览有效性的策略》(Strategies for Determining Exhibit Effectiveness)中。我们可以这样概括谢特尔的立场：博物馆必须利用已知的学习和教育研究来策划教育展览，以便最大化提高展览的有效性。可见，谢特尔主张将教学技术的原则引入博物馆领域，希望设计有效且可靠的工具来衡量并提高展览效率。

斯克瑞文是另一位典型的教学技术理论家，他将展览视为学习工具。1969年，斯克瑞文的代表作《作为反应式学习环境的博物馆》(The Museum as a Responsive Learning Environment)发表，研究主要采用教育学中的行为框架模型和心理学动机研究等方法。展览评估由此引入环境认知的全新视角。七年后，斯克瑞文另一篇代表作《展览评估：一种目标参考的路径》(Exhibit Evaluation: A Goal-Referenced Approach)问世。该文实践性更强，主要评估观众对展览的反应并提出围绕“目标参考路径”的标准化评估流程，认为通过展览媒介，认真地向普通观众传递潜在的基本思想、概念和价值观是合理的。斯克瑞文实际上掀起了一场博物馆实践的革命，主张将评估方法整合至策展过程，这一革命有助于推动博物馆致力于为观众学习打造一个交流系统。

加拿大皇家安大略博物馆是评估实践的第二个代表。1958年，心理学家戴维·艾比(David Abbey)和博物馆学家邓肯·卡梅伦(Duncan Cameron)在加拿大皇家安大略博物馆开启展览评估。此项研究历时五年，发布了三项报告，意在确定博物馆的观众是谁，他们为何来馆，其他人为什么不来，以指导博物馆未来运营。该馆是第一家从1974年就开始系统化地进行展览设计和制作的博物馆，每一项工作都会遵循明确的展览目标，同时主张每个项目自始至终都施行评估，各项功能都要关联在一起，而非独立运作，这一点深受斯克瑞文影响。

英国自然历史博物馆是评估实践的第三个代表。北美地区博物馆界的评估影响远播欧洲。英国自然历史博物馆在20世纪70年代初先后开辟了陨石展馆、哺乳动物化石画廊，但开放后广受诟病，馆方希望重新思考如何实现与观众的有效沟通。1973年，该馆推出“新展览计划”，准备重建生物展厅，以帮助观众真正体验学习、了解现代科学。1976年，负责人罗杰·迈尔斯(Roger Miles)访美并确立了采用形成性评估对展览进行更新的方案。评估内容涵盖了观众的社会背景、观众期待的理想展览、参观动线和预设的匹配度等。20世纪80年代，撒切尔将市场机制引入公共服务领域，公共支出受限，需要对资金进行问责并开展营销，展览评估的外部动力更强。一方面政府资助博物馆的大型项目被要求贯彻绩效指标并对外报告，另一方面博物馆相继成立市场营销部，市场导向的展览需要被评估。评估实践的盛行推动评估及其标准的讨论日益广泛和深入。

3.兴盛期(20世纪80年代以来)：聚焦展览评选标准的研究出现

20世纪80年代以来是展览评估专业化的关键期。一系列专业组织相继问世，与展览评估有关的主要有美国国家博物馆展览协会和观众研究协会。前者于1985年纳入美国博协专业常务委员会，创办有专业刊物《展览家》(Exhibitionist)，2016年更名为《展览》(Exhibition)，刊发的文章不乏展览评估方面的佳作。后者于1990年创建，创建者为斯克瑞文和谢特尔。

作为观众研究协会的创办者之一，斯克瑞文有关评估类型的研究继承了早期迈克尔·斯克里文(Michael Scriven)的衣钵。他引入斯克里文的形成性评估，并将展览的过程评估系统化、标准化。指出具体包括四类：前置性评估、形成性评估、补救性评估、总结性评估。这四类评估已成为目前国际展览评估的通用工具，并诞生了一些重要著作。20世纪80—90年代，自然主义评估问世。就在教育技术成为展览评估的一种强制范式时，罗伯特·沃尔夫(Robert Wolf)旗帜鲜明地反对谢特尔、斯克瑞文和迈尔斯的立场，主张应基于魏特林和卡明斯(Cummings)的研究，尝试理解观众体验并赋予其意义，沃尔夫的观点拉开了方法论改革的序幕，改变了当时的主流方法，使自然主义评估在20世纪90年代发展壮大。

20世纪80年代以来，展览评估实践和研究已不再局限于英语世界，在法国也呈现一派欣欣向荣，并彰显出自身的特色。一是政府推动了博物馆评估部门建设和全国性博物馆民意调查。二是法国将观众视为意义构建者和传播文化的中介，语言学和符号学得以在评估中应用。三是法国博物馆支持专业评估，主张在明确需求的前提下，由评估人员提出针对展览评估和观众影响的衡量标准。

20世纪90年代，经济危机对博物馆造成重创——预算紧缩、捐赠减少，留住观众成为博物馆永续生存的重中之重。无论在美国、英国，还是加拿大和法国，聚焦于观众的研讨会增多、文章相继发表，标志着以观众为中心的评估研究高潮的到来。

20世纪80年代至21世纪初，随着展览评估研究的深入和细化，涌现出一批讨论展览评选及其标准的成果。他们的研究围绕展览评选的框架及其指标展开，不少涉及指标的改进和应用。肯尼斯·赫德森 (Kenneth Hudson) 在1982年出版《优秀博物馆指南》(Good Museum Guide)首次提出评判博物馆质量的九个指标，为后来英国博物馆年度奖的评选标准提供框架结构，引领欧洲博物馆评选走向规范化。贝弗莉·瑟雷尔(Beverly Serrell)在这方面的功绩与之相比不分伯仲。2001年，她发表了《评判卓越展览的一种工具》(A Tool for Judging Excellence in Museum Exhibitions)一文，明确提出从观众视角出发的展览评判指标，分别为舒适度、适应性、参与度、意义感和满意度。2016年，在《评价展览：衡量卓越的框架》(Judging Exhibitions: A framework for Assessing Excellence)一书中，瑟雷尔部分地采纳了以上指标，最终构建起卓越评审框架。在展览卓越奖实施20周年之际，美国国家博物馆展览协会项目组和彭妮·詹宁斯(Penny Jennings)回溯了评审指南的改进过程，并提出指南在2006年修订后更为简化，也更重视目标达成度。此后，卓越奖评审标准《博物馆展览标准及其卓越展览的标志》(Standards for Museum Exhibitions and Indicators of Excellence)于2012年更新，添加了“评估”这一维度，而前、中、后的系统评估实际是该时期展览评估研究的一大重要成果。

同一时期的亚洲，展览评估肇兴。20世纪五六十年代，欧美在实践领域兴起的以观众为中心的展览评估及其研究开始对日本产生影响。重盛恭一梳理和总结21世纪前日本博物馆展览评估和观众研究的历史，提出其包含黎明期(1957—1979年)、萌芽期(1980—1989年)、发展期(1990—1995年)和转换期(1996—1999年)四个时期。20世纪80年代末90年代初，日本出现经济过热的泡沫现象，博物馆步入兴建高潮期，在实践中积极效仿欧美、为我所用。但无论在资金来源，还是组织机构上，日本与欧美均不完全一致。首先在预算收支上，公共博物馆并不像欧美有较高支配度，而私立博物馆也不像欧美有众多税收优惠。其次，日本博物馆业务全部交由学艺员负责，这种组织结构导致学艺员缺乏评估的时间和精力。所以这一时期的博物馆评估只能退而求其次，由展览制作公司或拥有建筑学背景的学者而非博物馆承担。至20世纪90年代，日本展览评估出现转折，一批博物馆启动观众调查。以琵琶湖博物馆、松户市博物馆和江户东京博物馆为代表，这也意味着内部人士开始重视并投身其中，这种自主觉醒，直接推动日本展览评估的空前进步。

中国对博物馆展览评估的关注和推动同样深受西方影响。但不同于西方为生存所迫，希望证明自身价值以争取更多捐赠，我国很多时候是为了达成管理部门“以评促建”的目的。1992年，英国自然历史博物馆“新展览体系计划”的主持人吉尔·科拉克(Gill Clark)访华，在江苏南通演讲时提出展览评估分阶段实施的三种方式，即前置性、形成性和总结性评估，当初将其分别译为市场调查或从头至尾的评估、肯定性评估、累积性评估。2004年，葛建军在随首都博物馆考察团前往法、英两国考察后，撰写《法英博物馆考察与思考》一文，也介绍了展览评估的三阶段模式，同时指出观众在整个评估中的主体地位。综上，21世纪前后受欧美影响，我国开始接触并了解以观众为主体、分阶段实施的展览评估方法。

2008年起我国很多博物馆、纪念馆实行免费开放，不仅带来展览数量及其参观量的节节攀升，而且展览评估成果也与日俱增。首先，围绕展览评估的阶段性问题，学界主要强调针对展览结果进行检测，但已有一部分学者主张全过程、分阶段实施评估。杨玲一针见血地指出展览项目存在众多问题的根本原因是缺乏一个评估体系、评估指标及相应的监管机制，认为要将评估贯穿于展览的全过程，包括前期的可行性研究报告、中期的展览开幕成品验收和后期的销售业绩效益考核。严建强提出形成性评估的重要性不容小觑，主张建立形成性评估体制。周婧景、林咏能认为目前一部分博物馆还没有达到评估基准，可优先开展前置性和形成性评估。其次，针对展览评估的参与主体问题，过往研究尽管意识到观众在评估中的地位提升，但对究竟如何实施仍存在争议。方欣提出借鉴美国展览民间评价体系，构建以观众为评估主体，以舒适度、吸引度、提升度和有意义程度为一级指标的中国评价体系。宋向光认为建立一套基于观众立场，而非唯一官方的评估指标体系至关重要。再者，2010年后展览评估的成果更具系统性。以陈娜、陈汾霞、杨鹏为代表的学者分别探讨了展览评估的理念、类型及其普适性，展览评估体系构建的宗旨和原则，通过自上而下的扎根理论来构建展览综合评估体系。

随着全国博物馆十大陈列展览精品推介活动(后文简称“十大精品”)的持续开展，以及展览评估实践和研究的不断推进，国内诞生了不少针对推介活动及其标准的研究成果。研究多围绕推介活动的历史、现状、策展和措施四方面展开。其一，针对推介活动的历史、现状和措施。为纪念“十大精品”实施15周年，《回眸·创新：全国博物馆陈列展览学术研讨会论文集》出版，主张“十大精品”需要鼓励更多的学术批评并进行现场体察；围绕“十大精品”入选项目类型、区域分布等的历时性变化和优化策略展开探究；强调专家和观众双重视角，为“十大精品”构建评估指标体系；通过“十大精品”和美国展览卓越奖的比较，主张我国合理设置奖项结构、优化评选标准等。其二，针对推介展览的策展过程，2023年至今中国博物馆协会先后编著两辑《中国博物馆陈列展览精品·策展笔记》，分别从2019—2022年“十大精品”中遴选上乘或特色展览13个，讲述其诞生的生命史，以及台前幕后不为公众所知的故事。

可见，中国博物馆展览评估的起步主要受西方濡染，21世纪后逐渐开枝展叶并进行本土化探索。成果总体表现为：一是以观众为主体，主张多元参与；二是热衷于构建科学、完整的评估体系；三是展览评选虽起步晚、数量受限，但已从历史、评审、对策等多个维度展开讨论，多为问题解决型的应用研究，同时还拓展至中美比较研究，提出的对策多指向标准细化和优化。

四、结语

本文遵循时间逻辑，对从展览评估到展览评选的展览评价的学术发展史进行了简要回顾，主要关注展览评价已呈现专业化发展趋势的欧美地区和东亚地区，其中欧美地区以英国、美国、加拿大、法国为代表，东亚地区以日本和中国为代表。总体来看，既有研究已取得显著成果：早期围绕观众进行的展览效果研究以英国为主，但美国无疑是后起之秀。同时，教育领域的评价法催生出对展览评估标准的早期探索。

20世纪50—70年代，一方面心理学、教育学、市场营销学对博物馆领域影响颇大，观众成为博物馆关注的焦点，另一方面受教育技术化思想的推动，自20世纪60年代起观众研究领域的众多专家开始接受来自博物馆或基金会的委托，专门针对展览开展评估并促使评估流程标准化。同时在认知和人本心理学、市场营销学的作用下，也开始重视观众的内心及其变化，讨论展览效果及其达成度。

20世纪80年代至今，美国的研究一马当先，其他国家受美英影响，以及在文化民主化、观众主体性增强、经费减少等内外压力下，也纷纷开展本土化的研究和实践。这一时期出现由行为主义向建构主义的范式转换，不再只关注展览效果的实际达成，还开始探讨个体在展览中的实际获益。同时，随着斯克瑞文引入“形成性评估”，评估方法上更加强调分阶段和全过程。另外，伴随展览评选的风行，教育评价影响下诞生的展览评价标准研究开始聚焦展览评选。

综上，展览评估的启动可追溯至20世纪60年代，而展览评选大致始于七八十年代。展览评估的早期实践及专业化发展，为后期展览评选的实现及其标准研究铺设了基石，展览评选又推动了展览评估进一步深化，由此形成展览评价的专业化进程。

目前研究还存在两大突出问题。一是未能从纵向维度探讨国际展览评价专业化进程的相关研究。二是未能基于横向维度对全球展览评选进行深入考察。本文一定程度上可为其提供研究的起点和前提。无论如何，梳理和归纳展览评价相关的学术史对探索展览评价观念和操作的变化具备学术价值，也能帮助从业者更自觉和清醒地开展评估与评选工作。诚然，展览评价的标准会因参与人群、组织等不同而各异, 取得共识难度极大。但对展览评价专业化的不断探索，不仅可彰显博物馆行业勇于接受公众问责的自律，还可为其提供反向激励——因赢得公众而平添魅力。