ビートマニアを科学したい①(編集中)

 beatmania IIDXという音楽ゲームをご存知でしょうか。私はこのゲームをブランクを挟みつつ10年弱やっています。

 去年20周年を迎えたこのゲームは、画面上部から落ちてくるオブジェクトが画面下部の赤いラインと重なるタイミングで対応したデバイスを操作するという、音楽ゲームの原点とも言えるゲームシステムとなっています。

 基本的であることは簡単であることを意味しません。音楽ゲームをほとんどプレイしたことのない人は、同時に2つのオブジェクトを処理することにもかなり苦労するでしょう。
 これはゲーム筐体の構成上、オブジェクトが表示されている画面とデバイスを同時に見ることが出来ず、いわばブラインドタッチのような技術を習得する必要があるためです。

 一方、熟練したプレイヤーは約2分間のうちに2000以上のオブジェクトを苦もなく処理することができます。
 他の音ゲーと比較して特別な身体能力を必要としないbeatmania IIDX(特にシングルプレイ)においては、「目の前のオブジェクトをいかに速く・正確に認識するか」が腕前の大きな要素を占めています*1

 

”縦認識”と”横認識”

 beatmania IIDXプレイヤー(弐寺er)の間では、初心者から上級者へと熟達していく過程で、流れてくるオブジェクト(譜面)の認識方法が変わる、あるいは変える必要があることが知られています。
 初心者が行っているものは”縦認識”、後から習得するものは”横認識”と呼ばれます。

 引用ツイートで取り上げられている譜面(ギガデリSPH)は、段位認定というモードの八段ボスとして以前に設定されていたもので、長らく上級プレイヤーへの壁として君臨していました。”縦認識”と”横認識”で体感する難易度が激変する譜面の代表例ということができます。

 高難度譜面をプレイするにあたって、「なぜ”縦認識”よりも”横認識”の方が有利である場面が多いのか」という疑問に対する考察は様々になされて来ました。
 以下では、脳科学的な観点からこの疑問にアプローチすると共に、「実際に”横認識”はどのように成されているのか」「なぜ”横認識”の習得・維持は難しいのか」といった点についても触れていきたいと思います。

 

人間の脳は勝手に”縦認識”するように出来ている

 突然ですが、ゲシュタルト崩壊という言葉を聞いたことはありますか?Wikipediaの説明では、

全体性を持ったまとまりのある構造(Gestalt, 形態)から全体性が失われてしまい、個々の構成部分にバラバラに切り離して認識し直されてしまう現象をいう。

となっています。例えば単独の文字をじっと見つめていると、だんだん何の文字を見ているのかわからなくなる、というやつです。

 このようなゲシュタルト(全体性を持ったまとまりのある構造)を人間が知覚するときの法則を解明しようとしたのが、20世紀初頭のドイツで興ったゲシュタルト心理学です。
 それまで主流であった、要素を重視する心理学に対する反論として提唱されたもので、(このあと詳しく触れますが)現代の脳科学ではこのゲシュタルト心理学の考え方を支持するような証拠が多く見つかっています。

 ゲシュタルト心理学の中心的存在であったマックス・ヴェルトハイマーは、人間の視覚認識に関するプレグナンツの法則をまとめ上げました。法則についてはとってもわかりやすいこの記事

note.com を読んで頂くのが良いですが、以下では法則のうち弐寺の譜面に関わりそうな部分について紹介しようと思います(これらの性質はお互いに少しずつ重なり合っています)。

 

・近接性

f:id:rice_Place:20200620001733p:plain

 近接した要素は同じグループに所属しているように感じられます。この譜面では、横よりも縦にまとまって見えます。

 

・類似性

f:id:rice_Place:20200620002356p:plain

 類似した性質を持つ要素は同じグループとして知覚されます。この譜面では横一列(同時押しと呼ばれます)ごとに、白いノーツと青いノーツがまとまって見えます。

 

・連続性

f:id:rice_Place:20200620002852p:plain

 よい連続性を持つ要素は同じグループとして知覚されます。この譜面では横方向のつながりよりも、縦一列のつながり(縦連)がまとまって見えます。

 

・顕著性

f:id:rice_Place:20200620003410p:plain

  特徴的な形を持つ要素は同じグループとして知覚されます。この譜面では中央にある繰り返し(トリル)がまとまって見えます。

f:id:rice_Place:20200620005016p:plain

 この譜面では、下の連続してズラされた配置(階段)が、上のランダムな配置と比べてまとまって見えます。

 

 音ゲーの譜面はふつう音楽の構成にある程度沿って作られているので、必然的に縦連・トリル・階段といった要素で構成される傾向にあります。そのため、特に意識しないと”縦認識”で譜面を見がちになるというわけです*2

 (”縦認識”が起こりやすい他の理由についても後ほど考えていきます。)

 

脳の「輪郭統合」システム

 ここまでは、人間が見た物体を無意識にグループ化しているという事実について、心理学の分野における有名な法則をご紹介してきました。
 ではこの法則について、脳科学的にはどのようなことがわかっているのでしょうか?

 本題に入る前にまず抑えておきたい点ですが、人間の視覚はカメラのように光の情報をピクセル単位で1対1対応させているのではなく、目の前の光景のどの要素に属するのかを決定することで認識しています。

 例えばリンゴの乗った机を普通のカメラで撮影するとき、どこまでがリンゴで、どこまでが机で、どこからが背景か、ということをカメラが把握してから撮影している訳ではありません。人工知能の発達により、最近はスマホですら背景を認識してぼかしたりしてくれますが、そのような処理はレンズそのもので行っているのではありません*3

 一方、人間においては、最初に光を認識する網膜の時点ですでに情報の処理が行われていることがわかっています。具体的には、光に対する反応の仕方が異なる細胞が特定のパターンで並んでいることによって、初めからコントラストの情報が強調されて脳へと送られているのです。

 このような処理で得られた無数の境界線の情報は、座標の情報を保ったまま、網膜から視神経を通って、脳の一次視覚野と呼ばれる領域にまず送られます。ここには、ある決まった角度の線分に選択的に反応する方位選択性を持つ神経細胞が存在しているので、無数の境界線には角度の情報が与えられることになります。

 方位選択性を持った神経細胞は、似た方位の選択性を持った別の神経細胞たちと水平に接続されています。これにより、同じような角度の情報が集まるとより強調されて、さらなる視覚処理の過程へと送られていくことになります。

 

Fig. 11.

Global Contour Saliency and Local Colinear Interactions
Wu Li and Charles D. Gilbert

Journal of Neurophysiology 2002 88:5, 2846-2856

  この「輪郭統合」システムによって、先ほど紹介したプレグナンツの法則に従うような形は、眼の前に広がる複雑な光景から浮き上がって見えてくるという訳です。

 

 ここで紹介した内容は視覚処理のほんの一部に過ぎません。実際には、色・動き・奥行き・視覚以外の知覚・過去の経験・……といった様々な文脈的手掛かりによって、視覚情報は修飾されていきます。眼から入って来た情報は、このような処理がされた上で、意識へと登ってくるということです。

 

”横認識”は行動の選択肢を減らし反応速度を上げる

 ここまでは、人間の脳が弐寺の譜面を”縦認識”してしまう傾向について、その理由を考えてきました。
 では、なぜ熟練したプレイヤーは、いわばゲシュタルト崩壊である”横認識”をわざわざ行っているのでしょうか?

 この疑問に対するひとつの回答となりそうなのが、「選択肢が増えると反応速度は遅くなる」という事実です。

 1950年代、HickとHymanは人間の平均反応時間RTが \ RT=a+b \log(1/p) \ でよく表せることを発見しました(Hick-Hymanの法則)。 \ a \ は選択肢が1つの場合の反応時間を、 \ b \ は実験ごとに変わるパラメータを表します。
 そして \ p \ は、反応を引き起こす刺激の出現確率を表します。すなわちこの法則は、「出現する確率の低い刺激に対する反応は遅い」ことを示しています。もちろん、選択肢が全て等確率で出現するような系であれば、反応時間は選択肢が増えるほど長くなると言って良いことになります。

 音ゲーの話に戻りましょう。ふつう弐寺においては、ノーツが画面の上端に現れてから、下端の判定ラインへと移動するまでの時間は固定されています*4
 一方、曲の速さ=BPMは曲によって変わり、連続的な値を取ります。ということは、”縦認識”における譜面の見え方≒選択肢はほぼ無限に存在することになります。

 ”横認識”の場合は、BPMに関わらず横一列の同時押しを見て反応することになるため、その選択肢は \ 2^8-1=255 \ 通りで済みます*5
 255という数が多いか少ないかは別として、有限の数なのはありがたいことです。いったん選択肢を覚えてしまえば、反応時間を大幅に短縮できるので、オプションでノーツの表示時間を短くしてさらに画面の情報量を減らすことができます。こうすることで、音ゲーに慣れていない人の数十倍の処理速度でゲームをプレイすることができるようになるという訳です。

f:id:rice_Place:20200620191749p:plain

この譜面では、縦方向のノーツの配置には無限に選択肢があるが、
横方向のノーツの配置はたった7通りしかない

 今回は単に見えたノーツを押すまでの反応時間を考えましたが、弐寺はリズムに合わせるゲームであるため、判定ラインと正確に重なるタイミングで押すほど良いスコアを獲得できます。
 そのような観点で言っても、横方向の同時押しをベースに譜面を認識することは、認識→動作までの時間を固定化することに繋がってメリットがあります。

 

 さて、ここまでは”横認識”の良さについて考えて来ましたが、デメリットが無い訳ではありません。
 先述のように、脳がやってくれたせっかくのパターン認識をもう一度組み直す訳ですから、当然そこには余計な脳内処理が必要になりそうです。

 この処理は、”横認識”が可能であるプレイヤー間でも腕前に大きな差があることから、上達に従って速度や精度が向上していくことが予想されます。
 熟練したプレイヤーの脳内では何が起こっているのでしょうか?

 

熟練により新たなパターン認識が無意識下で可能になる

 先ほど、視覚情報の処理はかなりの部分が無意識下で行われていることを述べました。このような無意識下の処理は並列実行が可能であり、意識下のそれと比べて大幅に速く行えることがわかっています。

 では、人間は無意識下でどのような処理を行うことができるのでしょうか?

 

 無意識下での脳内処理といえば、サブリミナル効果は有名だと思います。映画のフィルムに意識できないほど短い時間だけコーラの映像を表示すると、映画が終わったあとのコーラの売上が倍増した……というやつですね。
 1950年代に行われたというこの「実験」は、実際には完全に作り話なのですが、近年の研究によって、実際に無意識下の視覚情報が人間の行動に影響を与える例が見つかって来ています。

 例えば、外傷や脳卒中などによって、不幸なことに一部の脳領域を損傷した人々について、「モノの形を認識して区別することができないのに、形に合わせて正確に握ることができる」「意識的には視野の半分が認識できないのに、無意識に(認識できない視野の情報を用いて)区別することができる」といった、意識と無意識の分離を示唆するような症状が出現することがあります。

 健康な人間についても実験でこのような状況が再現されています。閾下プライミングと呼ばれる特殊な技法を用いることで、オブジェクトを数十ms表示しつつ、それを被験者には「見えない」ようにすることができます。
 この研究により、被験者が何も見ていないと感じたとしても、実際には無意識で様々な処理を行っていることが示されて来ています。簡単な計算や言語理解のみならず、チェスの上級プレイヤーであれば簡単な盤面を分析して、王手(チェック)の有無まで判別していることがわかっています(繰り返しますが、被験者は何も見えていないと感じています!)。
 このような実験結果を見ると、きちんと調べられたことはありませんが、「生得的な処理回路とは異なるタイプの認識であっても、弐寺プレイヤーは上達に従って無意識下で譜面を(ある程度)処理できるようになる」ということは、かなり肯定的な証拠が揃っていると言えそうです。「見えないのに何故か押せる」ことがあるというのは、あながち嘘では無かったんですね。

 

 上達に従って認識・処理能力が上がるということは、脳内で何かしらの変化が起こっているということです。このような知覚能力の向上には、脳神経回路の可塑性が重要な役割を果たしています*6
 こうした訓練による知覚能力の向上と持続=知覚学習は、五感すべてで起こりうることがわかっています。

 数多くの実験によって、この知覚学習は知覚課題に対する特異性が高いこと(例:弐寺の練習をしても太鼓の達人は上達しない)、学習結果のフィードバックが必須でないこと(例:弐寺の上達には判定やリザルトが必要でない)といったことが調べられ、ここから視覚処理経路における比較的低次の領域(一次視覚野など、網膜から入って来た情報が直接伝わる部分)が知覚学習における大部分の役割を果たしていると考えられてきました。
 しかし、近年の研究によって、これらの報告に部分的に反するような結果も示されてきており、結局のところは複数の処理段階が相互作用して生まれるプロセスであろうと言われています。まあ、例に出したような内容が100%真実では無いことは、音ゲーマーの方にはわかってもらえるのでは無いかと思います*7

 (ちなみに、訓練による運動能力の向上は運動学習と呼ばれ、こちらも様々なことが調べられており、当然弐寺の上達にも関わってくると思われますが、今回は割愛します。)

 

 まとめると、弐寺プレイヤーは知覚学習を通して、”横認識”のような「技術」を後天的に獲得し、ある程度を無意識下で実行できるようになり、結果的に処理速度の向上を達成しているのではないか、ということになります。

 

人間は2種類の眼球運動で動く物体を追いかける

 もう一度、眼の話に戻りましょう。

 意識下であれ無意識下であれ、眼に映らないノーツを認識することは(記憶しない限り)できません。
 とはいえ、視野は眼の前すべてに広がっており、いくら弐寺の画面が40インチ近くあるといっても、視野から完全に外れてしまうことはありえません。

 しかし、先ほども出てきた網膜の細胞は、視野の周辺になるにつれて解像度が落ちていきます。視野の中心が最も視力が高いことは、特別なデータを持ち出さずとも皆さん実感として知っていることだと思います。

 ということで、弐寺をプレイする上で難しい譜面を認識するためには、情報を与えられた脳はもちろん、情報を入手する眼もきちんとノーツを追いかける必要がありそうです。

 

 ここで、一方向に流れ続ける景色を眺めているような状況を考えてみましょう。

 こんなとき、眼でずっと追いかけているといずれ視野から外れてしまうので、ある程度のところで流れの方向とは逆向きに戻す必要があります。このようなリセットのための速い眼球運動は急速相と呼ばれ、その角速度は毎秒900度に達します。
 流れていく風景を追っている比較的遅い(毎秒100度ほど)眼球運動は緩徐相と呼ばれ、先ほどの急速相と交互に繰り返して行われることになります。このような眼球運動のパターンを視運動性眼振と呼びます。 人間や一部のサルでは、この緩徐相で視野の中心を使ってしっかりと対象を追いかけるべく、滑動性眼球運動(SPEM)という運動が発達しています*8

 

 弐寺のプレイにあたっては、この緩徐相と急速相の繰り返しによって、上から下へと流れ続ける大量のノーツを解像度の高い中心視野で追いかけ続けることができている、と考えられます。

 いやいや、弐寺の基本は目線の固定でしょ?そんな繰り返しの眼球運動なんかしてる訳ないじゃん……とお思いの方もいるでしょう。私もこの運動を知るまでは、ノーツを目で追わないことが認識にとって重要である、と強く信じていました。

 というのもこの眼球運動は、行うかどうかは自分の意思で(随意的に)決定できるものの、その速度制御は無意識下になされており、意識に登ってくるのは眼球運動と物体の移動量の誤差のみです。そのため、すんなりと眼球運動が実行されている状態では、私たちは眼を動かしていると強く意識することはありません。

 すなわち、緩徐相で「止まった」ノーツをしっかり認識し、急速相で眼球の位置を(上を見る方向に)戻し、緩徐相で認識し……といった繰り返しで、プレイヤーは譜面を眺めているということになります。

 プレイヤーの皆さんには、このような眼球運動の存在を簡単に確認する方法があります。ご家庭のモニターに動いている譜面あるいは譜面動画を表示させ、いつも見ている辺りに、糸を張ったりなんなりして水平な目印を置いて、それをじっと見つめてみてください。びっくりするほど後ろの譜面を認識することができないはずです。
 反対に後ろの譜面を認識しようとすると、目印がチラついてかなり違和感があると思います。

 

 さて、このような仕組みで譜面を見ていることを前提にすると、簡単な譜面=短時間見れば脳内処理に充分であるような譜面においては、必要な眼球の上下運動量が少なくなり、逆もまた正しそうな気がしてきます。
 すなわち、眼球の上下運動量と体感する難易度には負の相関が見られる可能性があります。

 ということで私自身が実験台となって、画面表示の条件を変えることがプレイ成績にどのような影響を与えるのか、について実験してみようと思います。

 

 

(以下執筆中)

 

【実験】レーンのどの部分をどれくらい見てプレイしているのか?

考察・今後の展開

*1:シングルプレイにおいては、オブジェクトの配置を完全に記憶してプレイすることは通常されません(一部の例外を除く)。これは、記憶することに多大な労力が必要なのに対して、得られる恩恵がそれほど多くないことに起因しています。

*2:紹介したものに加えて、「見慣れた形はまとまって見える」といった法則も加えられることがあります。これらの事実は一種のイップス音ゲー用語における”癖”)とも関わりが深いのですが、今回は深く触れません

*3:と認識していますが、正直専門外すぎてわかりません。複数のレンズを使用したり異なる露出で連続撮影したりはしてますよね……。

*4:熟練プレイヤーであれば大体0.4~0.6秒ほど

*5:弐寺ではノーツごとに音源がアサインされているため、同時に押すノーツが多いということは、同時に鳴っている音源の数も増えるということになります。そのため、実際は同時に押すノーツの数が増えるほど出現確率は顕著に減っていきます。

*6:知覚能力には例えば絶対音感のように、ある特定の時期(臨界期)にしか得られず、大人になったら可塑性が失われてしまうような物もありますが、多くの神経細胞の性質は生涯にわたって変化し、訓練をやめてもその変化が持続する可能性があることが知られています

*7:音ゲーを一切やったことの無い方へ向けて補足すると、ある機種の音ゲーを極めているプレイヤーが別の機種をプレイしたとき、ごく短期間で元の機種に比肩するほど上達する人も、平均的なプレイヤー並の腕前に留まる人もいます。

*8:ちなみに、緩徐相と急速相は支配する神経経路が全然違います。