第26页 01,02章
- 章节名:01,02章
- 页码:第26页
- 总序
- 译者序
- 中文版前言
- 前言
- 第 1 章人因学简介…
- 1.1 人因学是做什么的?
- 1.1.1 人因学的范围
- 1.1.2 人因学作为一门科学学科
- 1.2 全书总览
- 1.1 人因学是做什么的?
- 第 2 章研究方法……
- 2.1 研究方法简介
- 2.1.1 基础研究与应用研究
- 2.1.2 研究方法概述
- 2.2 实验研究法
- 2.2.1 做实验的步骤
- 2.2.2 实验设计
- 2.2.3 选择实验设备和实验条件
- 2.2.4 选择实验的被试
- 2.2.4 实验控制和泥淆变量
- 2.2.5 进行实验
- 2.2.6 数据分析
- 2.2.7 获得结论
- 2.2.8 统计意义和实践意义
- 2.3 描述性方法
- 2.3.1 观测法
- 2.3.2 调査法和问卷法
- 2.3.3 故障和事故分析
- 2.3.4 描述性测量的数据分析
- 2.3.5 复杂建模和模拟
- 2.3.6 文献调研
- 2.4 伦理问题
- 2.1 研究方法简介
总序
译者序
中文版前言
前言
第 1 章人因学简介…
1.1 人因学是做什么的?
Human factors .
因此我们定义人因学的目标是,在人机系统中
提高系统的绩效;
增进系统的安全;
提高人员的满意度。
必须认识到这三个概念是;笼统而且互相有冲突的。
比如绩效,可以是一个笼统的概念,它可以涉及到减少错误,也可以是增加产出(也就是加快产出的速度)。然而,加快速度有时会引起工作人员的失误,进一步可能危及安全。
人因学可以同时实现这两种目标:绩效和安全。
点 A 表示一个回路,即当入一系统交互中有问题(例如事故或者特殊事件)发生情况下,需要采取人因学解决方案的回路。点 B 表示在一个设计循环的开始处,好的人因学因素应用的切人点。
【图解: 完成任务的基本主线是:各个方面的安排:设备到培训(环境和前期准备),进入到人机系统(执行过程),任务结果】,人因学的关联: 人机系统中问题确认A,设计阶段B。
任务事故统计,技巧分析这个环节,应该放在设计阶段。
设备设计(equipment design)即通过改变工作中的物质工具的特征来解决问题。
任务设计(task design)是通过改变操作者所做的事情,而不是改变他们所用的设备来解决问题。
环境设计(environmental design)即改变环境因素,比如改善工作场所的照明温度控制和降低噪音,来解决问题。
培训((training)即通过教学和实践提高对某一特定工作所需要的体力的和智力的技巧,使得工人能够更好地从事某一工作。
选拔(selection)就是根据人与人之间在物理维度和心理维度上存在的差异,制定相应标准,找到适于某项工作的人,进而获得好的系统绩效的技术。
1.1.1 人因学的范围
- 从使用者的相关要素和任务环境看
- 从人因学与其他科技领域的关系看
工程心理学(engineering psychology)
人因学研究的终极目标是运用合适的人的心理的和生理的参数进行系统设计。与此相对应的,工程心理学的终极目标是弄懂与系统设计有关的人的心理(Wickens& Hollands,2000)。
认知工程学(cognitive engineering)
....它注重复杂的、具有认知思考和与知识有关的系统的作业方面,而不管这部分作业是由人来完成的还是由机器来完成的。后一种情况与人工智能和认知科学密不可分。
1.1.2 人因学作为一门科学学科
人因学作为一门科学学科的特征在于其探索普遍性和预测性(Meister 1989)。在问题诊断阶段(见图 1.1) 研究人员希望获得各类问题的普遍特征。比如,飞行控制中心与飞机之间通讯过程中的问题的组成要素,可能和在高噪音的工作环境下的工人之间的沟通,或者在急诊室中医生和护士之间的沟通具有共性。这样,类似的解决方法就可以应用于以上三种情况。这类建立在对人的体力和脑力特征的深切了解的知识之上,且具有普遍性的方法就更加有效。同样重要的是,我们需要能够预测我们根据人因学原理提出的对问题解决的方法的有效性。【预测自己所提出方法的有效性。】
获得有效的普遍性和预测性的一个关键是观测和研究人类操作者,...我们可以在一系列的环境条件下研究人的行为,其逼真性可以高低不同。在严格控制的实验室条件下,可以模拟相关系统的要素,也可以在现场研究实际用户的行为(包括正常行为、故障中的行为以及事故行为)。....
1.2 全书总览
第一部分,2,3章,各种研究方法和设计方法 第二部分 人的信息加工的特征,4,5 视觉和听觉系统,6, 知觉和认知,7,决策,8, 显示过程,9 ,控制。 第三部分,一些非心理学的问题,10 , 工作场所的不只,11, 体力强度,12, 生理学,13,应激,14, 安全,15, 自动化,16, 人,计算机交互,17,交通,18,人员选拔和培训,19 小组和组织行为
参考材料:
有几本很好的书,也涵盖了与本书相似的内容和相关的材料,可供参考。它们是由 Sanders i 和 Mccormic (1993)、Bailey (1996)、Proctor 和 Van Zandt (1994) 完成的。Norman (1988) 的著作也谈及日常生活中的人因学问题。Meister (1989) 的著作则从科学的角度看人因学。Wickens 和 Hollands (2000) 的著作只注重工程心理学方面,而比较忽略与心理学关系不大的一些问题,比如,可见性、伸及和力度等还有一些书则比较全面地论述了人因学的生理学方面的问题,比如 Wilson 和 Cor ett191), Chaffin、Andersson 和 Martin (199, 以及 Kroemer 和 Grandjean (1997) 等人的书。最后,Salvendy 有一本集大成的人因学的书《人因学和人类工效学手册》(Handbook of Human Factors and Ergonomics,1997)。Booher (2003) 则提供了有关系统整合的一部书。这些都是很好的参考材料。
还有一些关于人因学的期刊,其中最重要的是由国际人类工效学会(the Inter national Ergonomics Society)出的《人类工效学》和也是在英国出版的《人类工效学科学理论论丛》(Theoretical Issues in Ergonomics Sciences)。美国人因学和人类工效学会出版了三种重要的期刊:《人因学》(Human Factors)、《设计中的人类工数学》(Ergonomics in Design)和每年出一次的《美国人因学与人类工效学会年会论文集》(the Proceedings of the Annual Meetxing of the Human Factors and Er genomics Society)。
第 2 章研究方法……
研究就是针对具体的问题进行科学的数据(观察)的采集,并对数据的意义作出说明的过程。
人因学的基本工作是通过实验室和现场研究总结科学原理。....如何将科学原理和知识应用到系统设计中去....让研究结果具有可应用性。
人因学研究者还必须了解最基本的研究方法。在任何一个产品或是系统设计的最初阶段,往往需要进行一些常规的研究。随着对需要设计的问题更多的了解研究者再根据情况做正式的和非正式的研究,以达到最好地解决眼前的问题的目的。此时,研究者就需要决定采用何种研究方法了。
2.1 研究方法简介
2.1.1 基础研究与应用研究
基础研究的定义是:为了建立覆盖众多的人、任务和场合而进行的发展理论、原理和结果的研究。比如,一系列验证人经过上百次反复训练就可以产生不太需要费力思考的自动化加工理论的研究。应用研究可以粗略地定义为:针对具体的人群、任务、产品、系统,或者环境,而发展出的相应的理论、原理和结果的研究。比如测量司机在高速公路上开车并同时使用某种品牌的手机,对司机分配给驾驶本身的注意力有何影响的研究就是一项应用研究。
现状:推崇应用研究,因为能解决实际的问题,精准。
....应用研究的优点也就成了其致命的缺点,它更多地是针对现实世界中具体的行为,因而缺少普遍性,不能推广到別的场合。.....花费巨大....涉及到伦理问题....时间限制....这就需要我们进行一些比较基础的,花费不大的,对被试没有危险的实验室研究,或者利用其他研究者在期刊和书籍中发表的他们的研究的成果,从中提取出结论。.....比如根据人因学研究的成果,我们可以提出,驾驶的难度可能对用手机造成分心的程度有影响;使用语音驱动方式比用手动拨号对驾驶的影响要少一些。
2.1.2 研究方法概述
科学研究的目的是描述、理解和预测变量之间的关系。.....实验研究法....好的实验的关键是控制,即只有自变量在变化,别的变量都要保持不变,或者被控制住。然而,对应用研究来说,当要从被试在其实际工作中的表现获得一般性的结论时,越是应用性强的,控制越是困难。
当我们失去对变量的控制时,研究者们多倾向于描述性方法,尽管我们不能实际调节和控制实验,但我可以描述某些存在的关系。比如,我们可以根据在城市道路中使用手机导致的事故多于在高速公路上使用手机导致的事故,进而推论,用手机可能对在路况多变的情况下的驾驶作业影响更大。研究者还可以在实际场合观测和记录人的行为,并在稍后进行分析。
就像在其他研究中一样,在人因学研究中,收集数据,无论是实验法还是描述法,仅仅是整个工作的一半。另一半工作是从数据中发现其意义,这通常涉及到将抽样的特定数据分析结果推导到广阔的群体的一般状态的工作,并进行预测。...研究结果的推广能力取决于实验设计和统计分析。
2.2 实验研究法
2.2.1 做实验的步骤
步聚 1. 提出要研究的问题和理论假设。研究者首先要假设一些变量之间的关系,然后提出一个实验设计以证明这一假设的因果关系是否确定存在。
步骤 2. 明确实验计划。明确实验计划包括要做的实验的所有细节。我们必须明确何为因变量,作业究竟指什么,让参加实验的被试完成什么任务,对完成任务的哪个方面进行测量等。
步聚 3. 实验操作。...如果研究者觉得还有什么事不太有把握,在做正式实验前,可以先做一个小规模的预备实验,等所有的问题都通过预备实验搞凊楚了以后,就可以开始正式实验并采集数据了。
步聚 4. 分析数据。
步聚 5. 推导结论。....首先要看最初的理论假设是否能得到实验结果的支持。...为什么会这样的问题...
2.2.2 实验设计
对任何实验都有不同的采集数据的设计方法,哪一种设计最好?这要依具体的情境而定。不同的实验设计的主要区别是:每一个自変量有两个水平还是多个水平;有几个自変量被调控;从因变量看,几个条件下是用同一组被试,还是用多组被试(Keppel,1992; Elmes 等,1995; Williges,1995)。
两组设计。在两组设计中,我们考察一个自变量(因素)的两种条件(即两种水平)。在经典的两组设计中,被试被分为两组,一组作为控制组,不给任何处理(比如,开车时不准使用手机),另一组作为实验组,给予某种程度的自变量的变化(比如,开车时使用手机)。实验就是比较两组之间的因变量的变化(在我们的例子中,指的是开车的绩效)。然而,在人因学研究中,我们常常需要比较不同的实验条件,比如比较使用追踪球和使用鼠标时作业绩效的差别。在这一类的情况中,控制组就不需要了。假定有人试图搞一个没有控制光标的组,来和一个追球粗和一个鼠标组来比较,实际上一点意义地没有。
多组设计。有的时候两组设计不适于用来检査我们的假设,比如,我们想要考察工作站里监视器的亮度对显示知觉的影响时,我们可能需要考査亮度的若干个水平的影响。在这里,我们是只考察一个变量(亮度),但却是这个变量的多个水平。如果我们用 5 个组考察 5 种不同亮度,就会比用 2 个组考察 2 种亮度获得更多的信息。用这种设计,我们就可能发展出一个定量的模型,或者定量的方程,用来预测作业绩效随着亮度变化的改变。在另一个研究中,我们可能需要考查 4 种不同的光标输人设备,比如追踪球、拇指轮、传统風标和犍鼠标对光标操作绩效的影响。在这里,我们有 4 种不同的实验条件,但还只是考察一个自变量,即输人设备的类型。
因素设计。在増加一个自变量的变化水平的前提下,我们还可以通过扩展两组设计,在一个实验中检査多个变量(因素) 的影响。在人因学研究中,我们常常对复杂系统感兴趣。这就常常涉及到两个以上的变量之间的关系的问题。比如在上面的关于倒班的例子中,我们可能需要知道倒班的安排(因素 A)对年纪不同的人(年纪大与年纪轻,即因素 B)是否有一致的,抑或不同的影响。
几个自变量分别由几个水平构成的多因素的实验设计称为因素设计。在这里,因素这个术语表示,各个自变量不同水平之间可能存在的组合所产生的条件将被综合起来,并接受考察。因素设计可以让我们不仅考察每一个自变量的影响,还可以考察它们之间的交互作用。因为人的作业多数都是复杂的,人和机器的互相作用也是复杂的,所以在人因学研究中,无论是基础研究还是应用研究,最常用的是因素设计。
因素设计从几个方面看,都会比 2×2 更复杂。首先,每一个变量可能不止 2 个水平。比如,我们可能在两种不同的手机使用方式(手动拨号和语音拨号)下考察驾驶绩效,但是同时还有一个控制条件(不使用手机),这就是一个变量有 3 个水平了。然后,我们可以用这个变量的 3 个水平再结合第二个变量的 2 个水平,即驾驶的条件(城市道路和高速公路)。这就形成了一个 3×2 的因素设计。另一个情况是,研究者也可能同时考察两个以上的自变量(因素)。假定我们做上面的 3×2 的设计的一个研究,但是同时比较年老的司机和年轻的司机。这就形成了一个 2×3 X2 的因素设计。具有三个自变量的设计称为三因素设计
【自变量1, 手机使用方式,这个变量有三个level: 手动拨号,语音拨号,不使用手机。
自变量2, 驾驶条件。这个变量有两个level: 城市道路,高速道路。】
增加自变量有三个好处:(1) 它使得研究者可以在一个实验中考察系统的多个方面,也就是说效率高;(2) 它使得研究更接近实际生活中系统的复杂性,其结果更有普遍意义;(3) 它使得研究者可以考察变量之间是否存在交互作用,也就是说,个変量对结果的影响要依赖于另一个変量的情况。这一点,我们将在下文的方框中给予进一步的说明。
组间设计。在前面提到的多数例子中,自变量的不同水平是用不同的被试组来考察的。比如,我们让一组被试在交通拥挤的情况下,边打手机边开车;另一组在交通通畅的情况下边打手机边开车,等等。我们比较不同组的被试开车作业的绩效,所以称为组间设计。在做组间设计时,实验的每一个条件(水平)使用一组不同于其他组的被试
我们要明确,在做一个组间设计的研究时,有多少个不同变量的结合的水平,就要有多少组被试来一一对应。在让同一组被试执行不同的实验条件可能产生某种问题时,最常用的就是组间设计。比如,在实验中,如果我们让被试接受一种类型的训练(比如某种模拟器),就不可以再让他们接受另一种类型的训练,因为他们已经知道要学什么了。组间设计也可以让我们回避次序效应,这一点我们稍后再讨论。
组内设计。在很多实验中,可以让被试参与实验中的各种条件。比如,在一个关于驾驶的研究中,我们可以让同样的被试参加实验中的 4 种条件的实验(如表 2.1)。这样,我们就可以比较同样的人在不同的条件下的作业绩效。因为实验的各种条件都是使用的同一组被试,所以这种设计被称为组内设计。如果同样的被试经历一个自変量的各个水平,这个变量就被称为被试内変量。一个实验中,所有的自変量都是组内变量的设计被称为组内设计。采用组内设计有很多好处,特别是组内设计更加敏感,更容易获得不同实验条件之间的统计学上的显著差异。同时,这样的设计可以使用比较少量的被试。
混合设计。在因素设计中,每一个自变量都能设计为组内的,也能设计为组间的。如果我们使用了组内变量,也使用了组间变量,这种设计就称为混合设计。上面的例子中,如果一组被试在交通繁忙的路上开车,测试他们使用手机和不使用手机对驾驶的影响;而另一组被试在交通通畅的条件下,也做同样的两种条件的测试,这就是一个混合设计
多因变量设计。以上我们谈到的几种不同的实验设计中,変化的都是一件事,就是看不同自变量的组合对一个因变量的影响。然而,在我们研究的涉及人的系统中,情况是非常复杂的,我们常常希望同时测量影响因素对几个因变量的影响。比如,我们可能希望测量使用手机对驾驶的诸方面的影响,如驾驶偏离道路的情况;在车前面出现汽车或者其他物体时,踩刹车的反应时间;在周边视野中发现目标的时间;速度;加速度等。
2.2.3 选择实验设备和实验条件
对于应用性研究,我们要尽可能通过实验任务和实验环境的选择来获得最具有普遍性的结果,这也常常意味着实验要在实际环境或者是高度符合真实环境的条件下进行
2.2.4 选择实验的被试
被试应该能代表研究者兴趣所在的总体或者群体。
2.2.4 实验控制和泥淆变量
在决定如何完成一项研究时,一个重要的环节是考虑所有可能影响到因变量的变量。外部变量可能会千干扰自变量和因变量之间的因果关系,必须对其进行控制,使它不产生干扰。如果这些外部变量确实干扰到因变量,我们称其为干扰变量。一组典型的外部变量是被试在很多方面互相都不一样,对这些变量必须控制。因此,在做组间设计的实验时,非常重要的一点是两组之间的不同只能是实验的处理,而不是其他任何变量和类型。比如在上面讲到的关于手机和驾驶的实验,切不可让年纪大的被试使用手机,而让年纪轻的被试不使用手机。如果这样,年纪大小就会成为一个干扰变量。解决这个问题的一个办法是将所有的被试随机地分配给各个实验条件。如果样本足够大,用此方法可以抵消被试个体特征带来的影响,这个方法被称为随机分配法。另一个避免被试特征带来的影响的方法是使用组内设计。然而,组内设计也会对实验的控制带来一系列另外的问题。
除了被试变量以外,其他一些变量也必须控制。比如,如果让用手机的被试驾驶一种汽车,而让不用手机的被试驾驶另一种汽车,这样的实验设计就很有问题。因为,按这样做实验,汽车的驾驶特性和汽车的大小都可能影响驾驶行为。对使用手机和不使用手机进行比较必须使用同一辆汽车(或者同一种汽车)。我们需要记住,在更注重应用性的研究中,有时侯不可能做到十全十美的控制。
在使用组内设计时,还有一个变量必须被控制,即被试接受不同实验处理的次序。次序可以造成次序效应。当人们接受一连串不同的实验条件时,被测的因变量可能仅仅因为次序的变化而产生变化。例如,我们在一个实验中,让同一组被试使用五种不同的巡航定速装置。到了第五个的时候,被试已经疲劳了,就会表现出更多的失误和反应迟钝。这就是次序效应造成的,而不是被测装置本身的不同造成的。与此相反的是,假定使用巡航定速装置对被试来说是一件新鲜事,被试可能会随着使用的次数的增加带来练习效应,到了测试第五个的时候,被试会因为更加熟练而表现出好的操作。这也是次序效应的结果,而不是设备本身带来的。这些组内设计的因疲劳和练习带来的次序效应都是潜在的混淆変量,它们的作用是相反的,但是不一定能互相抵消。
为了避免次序效应对自变量的影响,我们有很多方法。比如,强化练习可以减少练习效应。在不同实验条件之间给被试一定的时间休息,可以减少疲劳效应。最后,研究者们最常用的是对抗平衡技术。简单讲,就是不同组的被试以不同的次序来接受不同的实验条件。比如,一半的被试先用追踪球,后用鼠标;另一半被试则先用鼠标,后用追踪球。对抗平衡技术有很多应对次序效应的方法,最常见的是拉丁方实验设计。关于研究方法的书,如 Keppel (1992),对此有详细的介绍。
总之,研究者必须控制外部变量,保证它们不对自变量产生影响。否则就容易造成混乱,使得我们无法解释实验的结果。这样研究者将无法分辨因变量的哪些变化是由什么变量引起的。
2.2.5 进行实验
完成研究的设计,并确定一个被试的样本之后,研究者就可以做实验和采集数据了(有的时候,我们又称这个过程叫“测被试”)。根据研究的性质,研究者也可能会做一个预备实验。预备实验的目的是检査调控的水平是否合适;确认被试没有经历未预见到的问题;看实验总体上是否顺利。一旦实验开始,我们要确保采集数据的方法保持一致。比如,研究者不可顺着时间的推移表现出对被试更多的宽容;测量的设备必须维持校准的状态。最后,对所有的被试必须注重伦理道德。这点,我们在以后还要说到
2.2.6 数据分析
当实验数据已经被采集到之后,研究者必须确定因变量的变化是否是因为实验条件所引起的。比如,使用手机的时侯,驾驶的绩效真的变糟了吗?为了评价研究的问题和提出的假设,研究者通常要进行两类统计:描述性统计和推断性统计。描述性统计对因変量顺着实验条件而发生的变化进行总结,而推断性统计告诉我们不同实验条件间的差别是真实的,这种差别的出现符合某种概率,而不是因为随机发生的。
描述性统计。通常用各种条件下的均数来表示条件间的差异。其中,最常用的是算术平均数。研究者要报告每个组的被试的因变量的平均数(如表 2.1 和图 2.2),这是表达自变量对因变量的影响的最简要的方法。同时,我们也常常用标准差来表示数据的离散程度。
推断性统计。实验各个组可能有不同的算术平均数,但是,这种不同也可能完全基于随机的水平。即使没有实验的操控,人在操作时,也常常会有各种波动。两组被试在某个变量上的均数不同,但是却和实验调控没有关系的情况也是很常见的。比如,你将十枚硬币两次扔在桌子上,两次得到正面向上的个数可能就不样,而且两次正面向上的个数一样比不一样的机会要少得多。这样一来,我们就产生了一个疑问,两组间的差别是不是大到足够的程度,使我们能肯定其差异不是随机发生的,而确实是实验的自变量的变化所造成的?推断性统计能有效地告诉我们差异是否因为随机的因素造成的。如果我们能够排除随机性的解释,我们就能推断出差异就是实验调控所产生的。
【得到的结果,需要判断是随机原因还是来自实验原因。】
对于两组的实验,推断性统计通常用检验。对两组以上的实验,我们用方差分析(ANOVA)的方法来检验。这两种检验都给我们一个值,对 t 检验,我们获得一t个值;対 ANOVA,我们得到一个 F 值。最重要的是,我们还要确定差异的概率,即 p 值。因为对某一特定的数据,t 值和 F 值也可能出于随机的原因,而非实际效应(差异)而产生。p值越小,我们结果的意义越大,我们就越能推断差异是由自变量的变化而产生。均数之间的差异越大,在一个条件内每次观测间均数的离散程度(标准差)越小都会使值变小。特别是,如果样本的量增加,容易获得小的 p值。大的样本能够给我们的实验增加统计效率,更容易发现显著的差异。
2.2.7 获得结论
研究者们通常认为,如果p值小于 0.05, 我们就可以说结果不是由于随机的因素造成的,而确实是自变量的效应。如果我们认为实验的结果是自变量造成的,而实际上却是随机的因素带来的,这种情况被称为第一类错误。如果采用 0.05 的显著水平,我们发生第一类错误的机会是二十分之一。在传统的科学中,第一类错误被认为是坏事(Wickens,1998)。这一点是很显然的,如果一个研究者试图构建物理世界或者社会中因果关系的模型,第一类错误可能导致构建出虚假的理论。
【二十分之一,?】
人因学研究者也接受这种假定,认为第一类错误是个坏事。多数学术刊物般不发表数据推断性统计的p值大于 0.05 的研究报告。研究系统不同的设计方案时,如果当 p 值大于 0.05, 研究者们认为这些不同的设计方案没有什么差别。评价不同的程序时,如果差异的显著性 p 值大于 0.05, 我们通常认为这里面没有什么有意义的差异,因为有大于二十分之一的可能差异是由无关因素引起的。
将显著性的可接受水平定在 p=0.05, 虽然减少了第一类错误,但却可能增加了第二类错误。所谓第二类错误就是实际上我们的实验操控有效应,但我们却推导出没有效应的结论(Keppel,1992)。例如,一位安全官员判断某一个新的设备在恶劣的环境情况下会不好使用,而实际上却是好使用。出现第一类错误和出现第二类错误是互相关联的。因此,如果一位研究者将标准定在 0.05 水平,判断个新的设备在统计显著上并不比老的好,而实际上却是比老的好;如果他将 p 值的可接受水平调整到 0.10 可能就会得出新的比老的好的结论。
将p值的可接受水平完全定在 0.05 对人因学研究来说是值得怀疑的,出于经费的原因和不可能找到很多受过良好训练的专业人员进行施测的原因,我们常常需要在被试相对少的情况下做实验,或者作评估(Wickens,1998)。如我们上面所提到的,用少量的被试做实验,由于统计效率不足,很可能不能显示出显著的差异,或者说 p 值可能会大于 0.05, 尽管实际上是有差异的。另外,当我们试图在更接近应用的环境下进行实验研究的时侯,很多混淆变量的影响很难被控制,这就使得被试间的差异,以及随着时间的推移被试内的操作绩效的波动也会变大。这样,这些因素也容易使得结果的差异不显著,或者使 p 大于 0.05。其结果是,人因学研究者常常认定实验条件之间没有差异,仅仅是因为随机变化造成两种实验条件下数据结果之间差异的可能性在二十分之ー一以上。
在人因学研究中,当他们的差异没有达到通常的 p 小于 0.05 的显著水平时,研究者应该考虑到出现第二类错误的概率,并考虑到他人采用这种认为没有差异的结果而带来的后果(Wickens,1998)。例如,因为不显著,可能一个安全装置就不要了。让我们回过头来看开车用手机的例子。假定用手机和不用手机的差异没有大到使 p 值达到 0.05 的水平,我们就认为没有差异,这样可能会导致立法部门认定开车时使用手机是“安全的”。平衡第一类错误和第二类错误不是一件容易的事情(Keppel 1992; Nickerson,2001)。最好的建议是要意识到:样本越大,发生任何一类错误的可能性就越小;在样本不大和统计学效率不高的时候,要考虑到每类错误的后果。
【?】
2.2.8 统计意义和实践意义
当随机性被排除,即 p <0.05, 研究者就将不同组之间的差异作为事实来讨论。然而,必须记住尽管两组之间差异并不大,只要样本数大也会导致统计学上显著的差异。同时研究者还要考虑统计显著的实践意义。假定我们在比较两组陆军受训者。一组用真实度很低的个人计算机模拟的坦克炮进行训练;另一组用昂贵的逼真度高的模拟器进行训练。结果我们发现,个人计算机组的正确率达到 80%,而模拟器组的正确率达到 83%。再假定我们用大量的被试以获得高统计效率,两组之间的差异就能够达到统计学上的显著水平,于是我们得到结论:模拟器是更好的训练系统。然而,在应用性研究中,我们必须注意到不同组之间差异的实践意义。值得花成百万的美元在每一个军事基地装备这种模拟器使训练的成绩从 80%提高到 83%吗?这个例子提醒我们,有些研究者过分注重统计意义,而忽略了实践意义。
2.3 描述性方法
这类研究的例子可见于:评估某地居民开车经过不同路口的驾驶行为;测量人们如何使用某种型号的 ATM(即自动取款机);观测某一制造工厂的工人,看他们不安全行为的类型和频次。
2.3.1 观测法
在很多情况下,人因学的研究通过记录不同场合下完成任务的行为来完成。比如,我们可以在车中装一台摄像机(经被试同意)来记录他毎天开车过程中接听手机的情况。
在计划观测研究时,研究者需要确定要测量的变量、观测和记录每一个变量的方法、在何种情况下进行观测、观测的时间框架等等。例如在前面的手机和驾驶的研究中,我们要提出一系列“车的状态”,在每一种状态中使用手机(比如,停车状态、转弯驾驶、城市道路驾驶、高速公路驾驶,等等)。这些类型就形成一套状态分类清单。如果没有这种分类,记录下大量的信息可能就无法说明任何意义。通常最好通过预试来确定状态清单。通过这种方法,研究者可以使用一个对照单来记录和分类每一个新的信息并对其进行整理。
在可以获得大量数据的情况下,最好只采集那些和问题有关的行为,或者分情况记录行为,而不是统统都大量采集。比如,工厂的安全员最好在不同时间的不同场合来采集不安全的行为,而不是在一天之内将什么行为都采集下来。为了达到采集不安全行为的样本的目的,采取在几天中,不同的条件下来采集就比较容易一些。
2.3.2 调査法和问卷法
基础研究和应用研究都经常采用调查法和问卷法来测量变量。如果想要获得有信度和效度的结果,设计问卷和调査是非常艰难的工作。读者可以参考 Salvendy 和 Caravan (1997 的文章了解正确的方法。问卷和调査有时侯采用开放性问题来获得定性的数据,比如,“您希望看到这个仪器的什么特点?”或者问“用这个仪器的最大问题是什么?”然而,最有用的是使用调査获得定量的数据。这常常通过量表的方式来获得,可以是 7 点量表(1-7),也可以是 10 点量表(1-10)。这样的数据有利于进行统计学处理。
采用问卷的一个关键的问题是其效度。除了假定问卷是依据所需要评测的问题有针对性地设计的以外,在大多数情况下,还要让填问卷者知道他们的回答是保密的和不记名的。常用的方法是在问卷上标注号码,而不是填写名字。填问卷者在确保他们的名字和问卷没有联系时,他们的回答更可靠。
问卷法的一个问题是,如果是自愿填写,很多人会不填。如果对某一有关问题有人回答,有人不回答,显然会造成结果的偏差。比如,在用无记名问卷调査工厂中的不安全行为时,工作中觉得有时间压力的人更倾向于有不安全行为,但是,同时因为时间紧张,他们可能觉得没有时间填问卷。这就导致他们的行为在调查中得不到应有的表达。
就定义而言,问卷法和调査法是主观方法。其结果可能常常与客观数据相矛盾,比如用错误率和反应时表示的客观结果。注意到这两类度量的不同是很重要的,因为在大样本时主观度量更容易获得并更加便宜
关于客观度量和主观度量的关系,已经有一些好的文章发表,如 Hennessy (1990)、Muckler (1992) 的文章。如果我们去看文献,很明显的是,客观度量和主观度量都有它们各自的用途。例如,Solomon, Mikulincer 和 Hobfoll (1987) 曾经在土兵中研究了导致应激失常的因素。....对于主观度量,一个重要的问题是,人们主观喜好的评价结果不一定总是系统的最佳运作状态(Andre& Wickens,1995)。例如,尽管有的时侯使用彩色显示器对绩效已经产生了不好的影响,人们还总是喜欢彩色显示器,而不是黑白显示器。
2.3.3 故障和事故分析
有的时侯人因学分析员必须确定一个系统的总体功能情况,特别是安全性方面的功能。评价安全性有很多方法,包括使用调査和问卷。另一种方法是评价发生的故障和事故。故障是指系统的运行已经有明显的问题发生,但是还没有形成事故。在有些领域,比如航空领域,有正式的记录故障与事故的数据库(Rosenthal& Reynard,1991)。美国国家航空航天局(NASA)的航空安全报告系统(ASRS)数据库每年收集大约 3 万例由飞行员和空中交通管制员报告的故障
这些大量的信息有潜在的价值,但是同时也有一些问题(Wickens,1995)。首先,这种定性的数据库中的数据很难从中作出原因分析;第二,尽管报告人被保证是不记名的,也不是所有的故障都被报告了;第三,报告人不一定能报告导致故障和事故的根源。最近采用的事后访谈有利于减少以上问题,但是还不能根本解决。
预防事故是人因学专业的一项主要的目标,.....
2.3.4 描述性测量的数据分析
做描述性研究的大多数目的是评价一些变量之间的关系。无论数据是通过观测采集的还是通过问卷采集的,目标都是看变量之间是否存在关联以及关联的强度。测量变量之间的关系有很多方法。
连续变量之间的关系。如果我们要考察某个组织内的人员的工作经验和安全态度之间是否有关系,我们可以做一个相关分析。相关分析度量两个变量之间的连接的程度,这样知道其中一个变量的值,就可以预测另一个変量。比如,在正相关时,一个变量会随着另一个变量的值的增加而上升,如读书需要的照明度随着年龄的增加而上升。在负相关时,一个变量随着另一个变量的值的增加而下降,如听力随着年岭的増加而下降。通过计算相关系数 r 我们就能够测量两个变量之间关系的强度。统计检验可以用来确定相关是由变量的几率波动带来的概率。这样,我们就可以获得变量之间是否存在关系(p)的信息和这种关系的强度(r)的信息。和别的统计测量一样,随着样本的增加,获得显著性相关的可能性也増加。在这里,样本量是被测量的两个变量中的数据的个数。
2.3.5 复杂建模和模拟
研究者有的时候针对多个变量采集大量的数据,然后通过模型或者模拟来考察变量之间的关系(Pew& Mavor,1993)。根据 Bailey 的定义(1989),所谓模型 是“一个数学的/物理的系统,它遵循某些确定的规则和条件,其内容可以用来理解一个在某些方面与之类伐的真实的(物理的、生物的、人一技术的,等等)系统”。模型可以简单到一个数学公式,如可以预测对显示器的知觉是其亮度水平的函数的一个公式,也可以是复杂的计算机模拟(可运行的模型)。但是不管怎样,模型与真实的系统比起来都是有局限的,真实性也低些。
模型常常用来描述人体中物理系统和生理系统的一些关系。人体的一些数学模型已经应用于支持工作场所设计的模拟。比如,COMBIMAN 就是可以根据不同的工作场所的结构提供人体几何尺寸模拟的模型(Mcdaniel& Hofmann, 1990)。它正被用于评价飞行员对于已经存在的和计划中的机组工作场所是否适合。
数学模型能够被用于发展复杂的模拟(kind 等,1990; Pew& Mavor,1998 laugher& Corker,1997)。也就是说,一些特定的系统的重要变量以及它们之间的关系能经过数学建模并被编成可以运行的模拟程序。....模拟法的一个非常重要的优点是可以不需要人类被试来验证对人类有害环境条件下系统的情况(Kantowitz,1992; Moroney,1994)。
2.3.6 文献调研
最后一种应该考虑到的研究方法是对文献的搜索和调查。这通常是实验报告的一部分,但是如果发现别的研究者已经对某个问题做了研究了,这项工作实际上就可以代替需要做的实验。有一种特别的文献工作叫做元分析,通过元分析可以整合就一个共同的自变量所做过的大量实验的统计学发现,进而得出关于该自变量效应的可靠性很高的总结性结论(Rosenthal& Reynard,1991)
2.4 伦理问题
显然,大多数人因学研究要用到人类被试。......一些美国保护人类被试的规则:
保护被试免受心理的和身体的伤害;
被试的行为是其隐私权的一部分,不得侵犯;
被试参加研究必须是绝对自愿的;
被试有权在事前知道实验过程的性质。
当被试参加一个实验,或者用其他方式提供用于研究的数据时,他们必须被告知研究的基本性质。通常,不能告诉他们详细的研究假设,因为这样会导致他们行为的偏好。被试应被告知,所有的结果都是匿名的和保密的。这一点对人因学研究特别重要,因为被试常常都是员工,他们会担心他们在实验中的表现会被用于评价他们。最后,通常要被试在一个“知情书”上签字,说明他们参加实验(或者用其他方式提供数据)的前提是,他们知道研究的性质和风险,他们是自愿参加的,他们懂得他们可以在任何时间退出实验。在人因学研究中,如果实验的风险不大于日常工作的风险,我们就认为这种风险是可以接受的。在大学和研究所中应该设有伦理道徳委员会,评价“知情书”的内容是否合适,并且根据研究对社会的意义来看被试所面临的风险是否可以被接受。
最后要提到的是,研究者要始终尊重被试。被试是很敏感的,他们会觉得他们完成任务的绩效受到评测(从某种程度上说,也确实是如此),他们总担心他们做得不够好。研究者有贵任使被试放松,让他们知道,被评价的是系统的组成,而不是人。这也是为什么我们将过去的使用者测试(user testing)改称为可用性测试(usability testing)。这就是为了强调要测试的是各种设备对人是不是好用等一些因素,而不是测试人。
说明 · · · · · ·
表示其中内容是对原文的摘抄