音声ユーザーインターフェイスの世界
弱いAIと、さりげない声のコンピューティング
音声と、その発せられる言葉は我わて人類の長い歴史の中で、唯一無比のコミュニケーション・ツールだった。
そして今起こっている声のコンピューティングがどういう世界に向かっているのか?リアルに把握できている人は本当に少なく、しかもその状況は刻々変わっている。その本質を捉えて、今後テクノロジーと人との関係がどう変わり続けていくのか?その大きなヒントは、"声とコンピュータ"の関係にこそ秘められている。
「ネットはいつから世界を繋ぐようになったのか?」
最近買ってきた起源図鑑でも触れられている歴史的瞬間(1969/10/29) UCロサンゼルスからスタンフォード研究所宛てに送られた最初のインターネットプロトコルを介した通信メッセージは「lo(loginと打とうとして、途中で通信が途絶えた)」だった。
考えてみれば、コンピュータ同士をつないで通信可能にする以前のネットワーキングは電信電話など一対一のタイムシェアリング中心だったので、まとまったメッセージを同期・非同期ミックスしてやりとりすことはできなかった。
または手紙のような物理的な通信手段は数日単位のやりとり時間が欠かせないし、テレビラジオ新聞雑誌などの手段を用いる限りは、とても大掛かりなシステムや資本を要してしまう。
当初は有線通信だったインターネットは今やラジオ技術の延長として電波を介した通信に進化を遂げ、オフィス空間や個人家屋に紐つかなくても、つまり、個人がどこにいても通信可能な状態を我々にもたらした(2台のコンピュータが超低速かつ有線でつながってからたった30年程度で!)。
そしていま僕らの目の前にはデジタルエージェントと声でやりとりできる新しいネットワーキングが開かれている。これのもたらす変革の意味合いは、まだまだ多くの人にとっては未知数だと言えるだろう。
ツールからエージェントへ 弱いAIのデザイン — 人工知能時代のインタフェース設計論
偶然知ったこの本には、その変革の本質的意味合いについて非常に具体的明快なヒントが述べられていて、とても示唆的だった。その内容の一部をその目次からお伝えすると、
第3章 エージェント型技術が世界を変える
「瞬間」から「興味」へ
不得意な作業をエージェントに任せる
エージェントは人間がやりたくないことを引き受けてくれる
エージェントは人には頼みにくいことをやってくれる
エージェントに任せきりにすべきものとそうでないもの
エージェントは「ドリフト」で「発見」を促す
エージェントは最小限の努力での目的達成を助ける
シナリオは生涯に及ぶ
エージェント同士の競争も
エージェントはインフラに影響を与えるほど拡大中
エージェントは場所やものに結びつく
エージェントは人間の弱点を克服するのにも役立つ
エージェントを介して世界をプログラムする
エージェントは人類の未来を大きく左右する(かもしれない)
この章のまとめ―そう、世界が変わるのだ
そう、音声ユーザーインターフェイスの切り開いた世界の入り口には、総じてリアルタイムに応答可能なデジタルエージェントが待ち受けているのだ。
なので、スマートスピーカーのハードウェア性能や表面的なデジタルエージェントの受け答えの品質に騙されてはいけない(現状のプアさは、表面的な限界に過ぎない)。
本質的にはそのデジタルエージェントのインタラクションを通じたソフトウェア・アルゴリズム経由の対話ネットワークが存在すること。その対話ネットワークが構成する新しい"通信状態"こそが新しいのだ。
言ってみれば知的なコンシェルジュが常に控えており、その受け答え経由で必要なサーチやコミュニケーションやコネクションを受け持ってくれる通信環境に我々は直面している。
だから、それはマウスインターフェイスからタッチインターフェイスに至った我々の20世紀的コンピューティングのパラダイムとは、もはや大きく異なる世界を意味するのだ(常にスタンバイしているデジタル秘書が通信や検索をサポートしてくれている通信機、それはまるでかつてのApple提唱の Knowledge Navigator やインターネット黎明期の MagicCap by General Magic 社みたいだ!)。
上記のブログで述べられているデジタルエージェントのデザイン作法に関しての指摘には非常に納得させられるので、その一部を引用すると、
擬人化はするな!
具体的なデザイン指針として共感したのは”擬人化はするな”という部分だ。
ヒトは擬人化されたものには自分たちと同じくらいの理解力や汎用性を求めるから、擬人化するということはエージェントに対する期待値を上げてしまう事になり、意図通りの回答や動きができなかった際の信頼性の失墜に一役買ってしまうから、と言うものだ。
SiriやAlexa,Google homeなどVUIのスマートスピーカーに対するネガティブな意見の大半が、この擬人化デザインと期待値の高さからのように見受けられます。ヒトは、擬人化されたものに期待をし過ぎてしまう。
( https://note.mu/kugehajime/n/n491ae37bff2b "弱いAIのデザイン"より)
そうそう、その通り。弱いAIは強い。
もはや、擬人化されたデジタルエージェントらしさの感じられるハードやソフトだけではなく、YouTubeやSportify、GoogleMapやGoogleSearchなど気の利いたレコメンドやサジェストをしてくれる技術の中にも、弱いAIが日々浸透している。
と、すれば、今後デジタルエージェントが進化する中では、それらのより弱いAIについてもますますその能力を高めるだろうし、それに伴い(より解りやすい、ある種の人格化を伴う)デジタルエージェントについても、ますます進化を速めていくだろう。
音声UIは新しい通信状態をもたらしている。
音声ユーザーインターフェイスの世界はそのようにもっと広い裾野で拡張を続けているとも言える。
そして、その全体像の中で、今後いかなる製品を発明するべきなのか?を考えるべきだと思うのだ。
スピーカー機能やエージェントの応答内容のみ見ているだけでは、それは枝葉末節のチューニングに過ぎない製品開発に終わってしまうだろう。
時代1:一対一の対話(実空間)から始まる。言葉と会話の始まり。有史以来のとても長い時間はこの対話モードだけだった。
時代2:一対一の通信(遠隔で!)が発明される(電話による通話が開始される)。
時代3:複数が複数と通信可能になる(by コンピュータネットワーク)。
時代4:人と人との通信をデジタルエージェントが媒介する。
これは通信対象がデジタルエージェントの場合も含んでいる。弱いAIを介した、遠隔ネットワークとも言える。
大雑把に区別するとこういう感じの進展だろうか?スマートスピーカーがコミュニケーションのハブ役として浸透しつつある今、通信状態に必ずAIが介在すると言う世界はもうかなり実現しつつある。
そう、我々は今この四つ目の時代に差し掛かっているのだと言える。そう言った時代感覚で今何を作るべきか?考えてみるのは、非常に面白いと思うのだ!(フェイスブックのAmazon Echo Show対抗デバイスが、ちょうど今日発表された:追記 2018/10/09)