Abstract: Based on the assumption that 1. 10 guidelines given tothe evaluator in the heuristic evaluation (HEM) developed by Nielsen(1993) is not covering enough the whole range of usability problems,2. but at the same time, a large number of guideline items should notbe given to the evaluator at the same time because of the distractionof the his/her attention, a new method called structured heuristicevaluation method (sHEM) was developed. The main features of the sHEMare 1. 32 to 41 guideline items with 82 to 212 sub items are usedinstead of 10 guideline items in HEM, 2. these guideline items arecategorized into 5 different aspects of the usability, 3. theevaluation session was divided into six sub-session each of whichfocuses on each of categories of usability, i.e. operability,cognitivity (assigned two sub-sessions), amenity, novice/expert, carefor the special users.
Keywords: usability, inspection method, heuristic evaluation
1.はじめに
ユーザビリティの評価手法には様々な手法があるか、大別して、実ユーザを使う方法と使わない方法に区別される。前者には、日常的な状況において使われる方法と非日常的な状況で使われる方法がある。日常的状況での方法には観察や面接、質問紙、ログツールを利用したものがある。ここで観察や面接の手法は開発の中流、下流工程で行われる評価だけでなく、上流工程で行われるユーザ分析の手法としても多用されている。非日常的状況での方法にはフォーカスグループ(focusgroup)やユーザテスティング(usertesting)、心理学や整理学の実験などの手法がある。また、ユーザを使わない方法としては、インスペクション法(inspection method)やタスク分析などの手法が知られている。
評価の手法はその目的によっても幾つかに分類される。すなわち、それらは、問題点を発見する方法や操作性能を予測する方法、ユーザの要求や目標を確認する方法などに区別される。ここで、問題点を発見することは、開発のプロセスにおいて、開発担当者に対して改善すべき箇所をフィードバックする際に重要なものであり、重要な問題をいかにたくさん、また効率的に摘出できるかが、手法の善し悪しを決定するといえる。
問題点の発見を主目的として従来一般的に用いられてきたのはユーザテスティングであるが、近年盛んに利用されるようになってきたインスペクション法と比較したJeffrieset al. (1991)によると、同一の課題に適用した場合、最も多く105件の問題点を発見できたのはインスペクション法の中でもNielsen& Molich (1990) の提案したヒューリスティック法 (heuristicevaluation)であり、ユーザテスティングとインスペクション法の一種である認知的ウォークスルー(cognitivewalkthrough)はそれに次いて゜30件の問題点を発見できたにすぎなかったという。一般にユーザテスティングはその準備から結果のまとめまでを含めると月のオーダーがかかるが、インスペクション、特にヒューリスティック法は数日で完了してしまうことを考えると、そのコストパフォーマンスの良さはかなり顕著なものであるといえる。
また、Nielsen (1995)によると、ユーザテスティングと様々なインスペクション手法とを比較評価した結果、手法としての有用性に関する評定では、ヒューリスティック法は他のインスペクション法を抜いてユーザテスティングに次いで二番目に、また実際に利用されている頻度では両者はほぼ同じ程度になっているという。
もちろんヒューリスティック法を含むインスペクション法は机上の検討であり、実物を使わなければ発見できない問題が存在することも確かではあるが、実物が無くても使用できる点でユーザテスティングよりも上流側のフェーズで使用することができ、その点で有利な手法といえる。理想的には、中流の工程で外部仕様書や機能仕様書をベースにしてインスペクション法を行い、下流工程では、時間的余裕があればユーザテスティングを行い、そうでなければインスペクション、特にヒューリスティック法を利用するのが良い、と考えるのが適切と思われる。
2.ヒューリスティック評価法の問題点
このように、利点の多いとされるヒューリスティック法であるが、Nielsen& Molich (1990) にしても、Nielsen (1993, 1995)にしても、内容は少し異なるが、いずれも10項目のヒューリスティック原則を用いて、評価をすることになっている。具体的には、Nielsen(1993)によると
(1) Simple and Natural Dialogue
(2) Speak the User's Language
(3) Minimize User Memory Load
(4) Consistency
(5) Feedback
(6) Clearly Marked Exits
(7) Shortcuts
(8) Good Error Messages
(9) Prevent Errors
(10) Help and Documentation
である。筆者等はここに二つの問題を感じた。一つは、これらの項目が内容的に整理されていない点であり、二つ目は10項目に限定されている点である。
Nielsen (1993) はユーザビリティ(usability)の概念を木構造の形で見事に整理し、ユーティリティと合わせたものを上位概念の有用性(usefulness)によって適切にまとめているが、逆にユーザビリティの下位概念としては、Easyto Learn, Efficient to Use, Easy to Remember, Few Errors,Subjectively Pleasingといった内容を雑多に並べているだけで、特に整理を試みていない。こうした点に関し、黒須(1996) は、黒須 (1993)にもとづいて、操作性、認知性、快適性という三つのカテゴリーにユーザビリティの下位概念を整理した。こうした観点から考えると、先の10項目はまだ内容的に整理されておらず、またその結果とも考えられるのだが、認知性に若干偏っていることがわかる。
また、10項目のそれぞれについては、Nielsen (1993)は、各項目の解説の中で相当詳しくその内容を説明しており、実質的にはかなり豊富な内容をもとにして問題点の摘出を行うことになっている。しかし、評価セッションにあたって、評価者がそれらの10の項目を念頭において評価にあたることには変わりがない。この10という数は、249のユーザビリティの問題点の因子分析でみつけた7つの規則に3つの規則を追加して構成されたものであるが、結果的にはMiller(1956) の主張するmagicalnumberの上限に近い数であり、評価セッションにおいて、評価者が同時に頭の中で意識しながら対象機器をチェックできる上限ということができる。しかし、評価にあたって利用すべきヒューリスティック原則の数をその上限に限定していることにより、結果的に評価者の注意がその範囲に限定され、それにより摘出される問題点の数がある程度の水準で頭打ちになってしまっている可能性が考えられる。ヒューリスティック法による評価セッションは、Norman& Bobrow (1975) のいう資源依存型 (resource-limited)の課題であると考えられ、したがって作業の達成度は配分された資源の量に依存するといえる。それゆえ10の原則に対して認知的資源を配分してしまうと、それ以外の側面に対して深く認知するための認知的資源を配分できないことになり、結果的に問題点の見落としが発生する可能性があると考えられる。
3.構造化ヒューリスティック評価法の提案
前述のようなヒューリスティック評価法(HEM: heuristic evaluationmethod)の問題点を解決する目的で、我々は構造化ヒューリスティック評価法(sHEM:structured heuristic evaluation method)という手法を開発した。これは、
(1)10よりも多数のヒューリスティック原則を利用すれば、それだけ多数の側面に関して問題点を摘出できるだろうという仮説
(2)しかるに、同時にそれだけ多数の原則を与えると、評価者は注意が分散してしまい、結果的には問題点の摘出効率が下がるであろうという仮説
(3)そのため、多数のヒューリスティック原則を前述の操作性、認知性、快適性などのカテゴリーに分類しておき、評価者が一度に検討すべき範囲をある程度限定するのが良いであろうという仮説
から考案されたものである。基本的にヒューリスティック評価法をベースにしており、そのやり方を構造化した点に特徴があるため、構造化ヒューリスティック法と命名した。
こうした考え方の結果、sHEMでは次の3点をその方法上の特徴とすることにした。
(1)(HEMに比較して)多数のガイドライン項目を用いる。
(2)それらを、操作性、認知性、快適性、初心者/熟練者、特別な配慮を要するユーザ、という5つのカテゴリーに区別する。
(3)評価セッション全体を6つのサブセッションに分割し、それぞれで前項のカテゴリーに関する評価を行わせる。なお、認知性については、Nielsenの10項目においても関連する項目が多数含まれていたように、特に情報機器の場合には重要な項目であり、問題点も多数発見される可能性があるので、サブセッションを二つ割り当てることにした。
具体的には、最初の段階では、付録1にあげたように、(1)操作性として8つの項目(21の下位項目)、(2)認知性として5つの項目(22の下位項目)、(3)快適性として7つの項目(17の下位項目)を用意した。また、その他にNielsen(1993) もShortcutsを挙げているように、熟練者に対する配慮と初心者に対する配慮を区別する必要があるとの考えから、(4)初心者と熟練者に関する6つの項目(10の下位項目)をあげ、さらに (5)障害者など特別な配慮を必要とするユーザに関して6つの項目(12の下位項目)を用意した。このようにHEMに比べると多数の項目を擁することになったが、評価者に対してはそれをチェックリストのように使用して、順番にチェックしていくような使い方はせず、問題があると思われたとき、それを確認するために使用するように求めた。
一般にヒューリスティック評価法のセッションは2,3時間行われることから、その時間を30分ごとのサブセッションに区切り、各サブセッションに、操作性、認知性、快適性、初心者/熟練者、特別な配慮といったカテゴリーを割り当て、それぞれの30分の枠の中では、評価者は指定された側面に特に注意をあてて対象機器の問題点の摘出を行うものとした。
4.実験1の考え方
sHEMをHEMと比較した実験の詳細は松浦他 (1997)で報告するが、そこでの考え方は次のようなものである。
まず被験者(評価者)は初心者5名とした。この数値は、Nielsen& Mack (1994)を参考にした。彼らは評価者の人数を変えた実験にもとづき、その人件費を考慮しながら、問題発見に関してもっともコストパフォーマンスの良い人数は数人である、としている。また、評価者の熟練度に関しては、Nielsen(1993)は、評価手法にも対象機器にも熟知している評価者は、まったくの初心者に比べて2.7倍もの多くの問題点を見つけることが出来たと報告しているが、この手法に熟達した人間の少ない日本においては、まず初心者でどの程度の問題点を見つけられるかを問題にするのが適当と考えられたため、被験者としては初心者を用いた。また、熟練してくれば、いずれの方法をとるにせよ、ヒューリスティック原則は評価者に内化され、構造化されることが予想され、そうなった段階では手法の差はあまり大きくならないことも予想されたからである。さらに、方式に熟達した被験者が集まらない、という現実的な理由もあった。以上のことから、評価者となる被験者は初心者5名とした。
対象機器としては、情報機器でありながら、その機能の範囲があまり大きくなく、一日の実験でほぼその全容が把握できる程度のもの、という基準から、小型の情報機器を利用することにし、最終的には録音機能付きのミニディスクプレーヤーとした。
セッションの構成はHEMとsHEMとで同等になるように配慮し、被験者の透湿性に配慮し、時間配分も同一とした。なお、講義に際しては、HEMについてはNielsen(1993)の記述をもとに行い、sHEMについてはガイドライン項目について同じ時間の中で、同一の講師が説明を行った。評価にあたってはポストイットを配布し、それに一件一葉で問題点を記入し、それがガイドラインのどの項目に違反しているかをあわせて記入させた。
なお、最後に全体作業を行ったが、これは個別に発見した内容を公表しあい、その後、KJ法に類似した方法で全体的なまとめを行ったものである。今回の実験の主目的は、問題点の発見数を比較することにあったので、ここではこの全体作業の結果は特に重視していない。
4.構造化ヒューリスティック評価法の改善
実験の結果から、ガイドライン項目は煩雑にならない程度に詳しいことが望ましいことが示唆された。そこで、付録2にあげたように、(1)操作性として9つの項目(26の下位項目と14の補足項目)、(2)認知性として10の項目(34の下位項目と59の補足項目)、(3)快適性として7つの項目(19の下位項目と11の補足項目)を用意した。また、(4)初心者と熟練者に関する8つの項目(13の下位項目と4つの補足項目)をあげ、さらに(5)障害者など特別な配慮を必要とするユーザに関して7つの項目(16の下位項目と16の補足項目)を用意した。ここで、補足項目というのは、例えば色盲について配慮すべし、という下位項目の表現だけでは具体的なイメージが沸きにくいと思われた場合、赤と緑、青と黄の組合せを識別表示に使っていないか、という具合により具体的に下位項目の内容を説明したものをさす。
セッション構成は基本的には同一だが、認知性の前半でドキュメンテーションを中心に評価を行わせ、後半では本体について評価を行わせるようにした点が改善前とは異なっている。
5.実験2の考え方
実験2は、前述のようにセッション構成などは多少変化したものの、基本的には実験1と同様である。これにより、実験1と実験2をあわせて比較考察し、HEMとsHEMと改良sHEMの三者を相互に比較できるようにした。
6.おわりに
Nielsenのヒューリスティック評価法を改良し、より多くの問題点を発見できる構造化ヒューリスティック評価法を開発した。その問題発見性能に関する実験結果については、松浦他(1997) と杉崎他 (1997)を参照していただきたい。最初に述べたように、問題点の発見だけがユーザビリティの評価において重要なわけではないが、開発プロセスの中で適切なタイミングで問題を摘出できることは、開発担当者に適切なフィードバック情報を提供することを意味しており、実際の評価業務においては重要な意味をもつものである。
引用文献
Jeffries, R., Miller, J.R., Wharton, C., and Uyeda, K.M. (1991)User interface evaluation in the real world: A comparison of fourtechniques. Proc. ACM CHI'91 Conf. 119-124
黒須正明 (1993) ヒューマンインタフェースのデザイン、情報処理 34(8),1063-1072
黒須正明 (1996)ユーザビリティ概念の構造、ヒューマンインタフェースシンポジウム 11,351-356
松浦幸代、黒須正明、杉崎昌盛 (1997)問題発見効率の高いユーザビリティ評価法−2.問題発見効率に関する評価実験、ヒューマンインタフェースシンポジウム#13
Miller, G.A. (1956) The magical number seven, plus or minus two: Somelimits on our capacity for processing information. PsychologicalReview 63, 81-97
Nielsen, J. (1993) Usability Engineering, AP Professional
Nielsen, J. (1995) Usability Inspection Methods. ACM SIGCHI95Tutorial Notes #17
Nielsen, J. and Mack, R,K, (1994) Usability Inspection Methods,Wiley
Nielsen, J. and Molich, R. (1990) Heuristic Evaluation of UserInterfaces, Proc. ACM CHI'90 Conf. 249-256
Norman, D.A. and Bobrow, D.G. (1975) On data-limited andresource-limited processes. Cognitive Psychology 7, 44-64
杉崎昌盛、黒須正明、松浦幸代 (1997)問題発見効率の高いユーザビリティ評価法−3.問題発見効率の改善に関する評価実験、ヒューマンインタフェースシンポジウム #13
●操作性
1.身体適合
2.視認性
−表示は見つけやすい場所になされているか。
−表示文字は小さすぎないか。
3.可聴性
−エラー警告音などは聞き易い大きさか。
4.疲労軽減
−不自然な姿勢を長時間続けることはないか。
5.携帯性
−重すぎないか。
−大きすぎないか。
−電池の使用時間は十分か。
6.収納性
7.柔軟性
8.効率性
−操作の手数は少なく設定されているか。
●認知性
1.平易さ
−分かりにくい用語は使われていないか。
−モードは浅く設定されているか。
−視覚的な表現は内容が分かりやすいか。
−関連する機能は隣接しているか。
2.一貫性
3.連想性
4.誘導性
−操作手順のガイダンスは行われているか。
−具体例を使って操作が説明されているか。
5.習熟性
●快適性
1.主体性
−説明の文章の主語はユーザになっているか。
2.寛大性
3.美しさ
4.快適操作
5.安心感
6.動機付け支援
−楽しく使えるような配慮がされているか。
7.親近性
●初心者
1.ハイテク弱者
2.利用開始直後のユーザ
3.低頻度利用ユーザ
●熟練者
1.長期利用ユーザ
2.高頻度利用ユーザ
3.専任オペレータ
●特別な配慮を必要とするユーザ
1.視覚障害(弱視を含む)
2.聴覚障害(難聴を含む)
3.身体障害
4.幼小児・シルバー世代
5.左利き
6.色覚異常
●操作性
1.身体適合
2.視認性
表示は見つけやすい場所になされているか
−表示文字は小さすぎないか
読みやすい書体を使っているか
3.可聴性
−エラー警告音などは聞き易い大きさか
−音の大きさは変更可能か
−イヤホン端子がついているか
4.疲労軽減
−不自然な姿勢を長時間続けることはないか
5.携帯性
−携帯型の機器の場合、重すぎないか
−携帯型の機器の場合、大きすぎないか
6.収納性
7.柔軟性
−ユーザが自分の好みに応じた設定をできるか
8.効率性
−操作の手数は少なく設定されているか
操作の所要時間は短く設定されているか
9.エラー対応
−スリップを防ぐための配慮がしてあるか
−入力の確実性
●認知性
1.平易さ(知覚関連)
目立たせるべき表示を大きくしているか
2.平易さ(認知関連)
−分かりにくい用語は使われていないか
専門用語は使っていないか
−数値の表現はわかりやすいか
日常的に理解可能な単位を使っているか
3.平易さ(記憶関連)
4.平易さ(エラー関連)
エラーからの復帰の操作は簡単か
5.一貫性
同じ機能は同じ名称で呼ばれているか
6.連想性
7.誘導性(ヘルプ関連)
−ヘルプ機能は適切に提供されているか
8.誘導性(ガイド関連)
−操作手順のガイダンスは行われているか
−具体例を使って操作が説明されているか
9.誘導性(ドキュメンテーション関連)
機器各部の名称がすぐに調べられるか
−説明の文章は分かりやすいか
むつかしい用語は使われていないか
適宜、図表をまじえて説明してあるか
事例を交えて説明してあるか
−項目の検索は容易か
機能名称から検索できるか
症状から検索できるか
やりたいことから検索できるか
−分厚くて携帯に不便ではないか
10.習熟性
−必要と思われる機能範囲をカバーしているか
●快適性
1.主体性
−説明の文章の主語はユーザになっているか
2.寛大性
3.美しさ
画面レイアウトは整然としているか
画面レイアウトは混雑しすぎていないか
4.快適操作
−適切なフィードバックがなされているか
−操作に対して即座に応答が返ってくるか
5.安心感
6.動機付け支援
−楽しく使えるような配慮がなされているか
7.親近性
●初心者/熟練者
1.初心者一般
−電話相談のシステムが用意されているか
2.ハイテク弱者
3.利用開始直後のユーザ
4.低頻度利用ユーザ
5.熟練者一般
−熟練者にふさわしい機能が用意されているか
6.長期利用ユーザ
7.高頻度利用ユーザ
8.専任オペレータ
●特別な配慮を必要とするユーザ
1.視覚障害
−視覚障害のひとにも無理なく使えるか
2.聴覚障害
−聴覚障害のひとにも無理なく使えるか
3.身体障害
−手指に障害のある人にも無理なく使えるか
−左右半身麻痺の人にも無理なく使えるか
−下半身運動障害の人にも無理なく使えるか
4.幼少児
5.シルバー世代
−シルバー世代にも無理なく使えるか
文字表示は小さすぎないか
画面表示の拡大機能があるか
6.左利き
−左利きユーザにも無理なく使えるか
操作部位は左右対称になっているか
7.色盲
−色盲のユーザにも無理なく使えるか