見えないコンピュータ、聞こえるコンピュータ。

takahito iguchi
8 min readApr 20, 2017

まさかブルートゥーススピーカーに”未来”が宿っているとは?

正直 2016年までにそのことを正確に見抜いていた専門家は、ほぼ存在していなかったのではないだろうか?

Amazon EchoとEcho Dotは、2017年代に2000万台インストールを超えるだろう。確かにAmazon Echoは(そして、その内部のAlexaは)賢いスピーカーとして、発売開始当初から良く出来たガジェットだった。

だけど、それが、コンピューティングそのもののパラダイムを書き換えるような代物とは、誰も予想していなかったに違いない。

声で人とコンピュータが直接繋がるようになった。そのフレーズだけだと、それは大して意味のないセンテンスだと言える(So What?)。

だって、電話アプリとか、デジタルエージェントとか、声でやりとり可能なUI/UXとか、いくらでも存在するではないか?と...

でも、Siriの搭載されたiPhoneとAlexaの搭載されたEchoとは全く別物なのではないだろうか?

エコーの成功はアマゾンの初期の予想を遥かに超えているように見える。

それは単純化すると、それを使うときの「人とデバイスの距離感」の問題だと言える..。

スマートフォンはだいたいが目の前にある。あるいは耳のそばだったり、鼻の先であったり、せいぜいおヘソのあたりで構えているか、場合によってはカーナビとして、はたまた読書リーダーとして使っている時でも、パソコンよりは大分距離が近いし、家庭用薄型テレビよりも随分近い。

一方、Amazon Echoは相当離れた距離でも声を拾い(全周囲に拾える工夫がなされている)、コマンドを理解し、情報処理を行い(場合によってはハードウェアの駆動を含む)そして、その場で応答してくれる。

しかも、全てが声で行われる。

発話も声なら、その処理が完了したことの応答も声なのだ。この一連プロセスが一切画面を介さず、すべて声で完結していることの意味は大きい。

Siriだと多くの場合は、スクリーンに情報を表示することで必要な処理を完了する。Wikipediaの検索結果をiPhoneのスクリーンに出して、done!

Alexa&Echoの場合は、要するにその距離がある程度リビングスペース程度の範囲内であればほぼどこで使っても良いということで、即ちそれはそのコンピューティングとしての「自由度」なのだ。

ハンズフリーで、画面への注視や様々なメニューの操作や処理の監視をする必要がない。

場合によっては今後指示代名詞や文脈的な前後関係まで汲み取ってくれるとなればアレとか、コレとか、ソレとか言うだけで処理が可能な場合すらある(今の段階は、その少しだけ手前だと言える。Google Homeはそういう文脈解釈の力が優れている)。

それはちょうど気の利く知人や家族やパートナーのような振る舞いに近いのかも知れない。

しかも、声はその人の個性でもあるのだから、固有の発話者の特定さえできれば(現在Alexaでも実装中らしい)その個人のアイデンティティを理解した上で必要な処理を行うこともできる(携帯デバイスを所有することを持ってその特定個人を識別する時代の終わりが目前だとも言える... Apple Pay などの考え方よりもずっと先進的な「声だけでの決済」はすでに稼動し始めている)。

声がその人の口から発せられ、空気を震わせ、コンピュータの耳へ届き、それを理解し、必要なアクションを引き起こし、そしてその完了が再び声として反応され、それが空気を震わせ、すぐに人の耳に届く。

ロボットと人との対話のレベルは現状まだまだ低い。それは未だに大きな課題と言える。

そして、アレクサの先には、ロボティクスが解決しようとしていた大きなテーマの一つが横たわっている。

つまり、声を通じた感情的なエンゲージメントは、声をコマンドとして、機械的に扱えることの、とても大きな成果と言えるだろう。

自然な対話関係を多少の距離感でも保てること、それは全く簡単ではなかった。ロボットと日常対話できるような体験サイクル。...口から声へ、声から耳へ、それらを通じた日々の情報処理サイクルを対話的に自然に行える端緒がここに開いたのだ。

それが人とそのデバイス(この場合はスピーカー)との距離感に顕著に出ていると言える。

デジタルエージェントも得意不得意や性格・傾向がある。

よって、Amazon Echo及びAlexaとApple iPhone及びSiriとは全く別物なのだ..。

そして、それは単に別物というだけでな。それは人とコンピュータが対話するパラダイムの、大いなる変革者だと言うことでもあるのだ(そういうことを敢えて大上段に言わないのは、果たしてベゾズ流なのか?)。

その大きなポテンシャルへの過小評価は、皮肉にも、そのポテンシャルの巨大さそのものだとも言える。

かつてスティーブジョブズがiPodをアナウンスした時、それが iTunes、iPhone、そして iPadへと至る巨大な変革への道筋だと見抜いた人間はほぼいなかった。

ただの音楽プレイヤー(デジタルのウォークマン)、当時はネットワーク機能もなかったし、iTunesなどのエコシステムもなかったのだ(アップルにもその視野がどの程度クリアーだったのかが怪しい)。

iPodの最初のアナウンスはタウンホールで小規模に行われた。

それがやがては、世界最大規模のモバイルカンパニーの序章を奏でる。大きな変革は最初は気付かれない(あるいは、気付かれにくい)。

一方、アマゾンエコーは同じく音楽再生を対象としたデバイスであり、iPodよりずっと早い速度で生態系(実際ASKは素晴らしい出来だ)を構築しつつあるにも関わらず、その変革への評価は相変わらず低いままだ。

他方でApple SiriKitは寄せ集めのガラクタに過ぎず、サードパーティに可能な自己裁量はゼロに等しい..。

オープンであることの展開力機動力を十全に生かせない、アップルの秘密主義は、今となっては Old Fashioned の苦しさがある。

要するに画面の時代は終わって、声の時代がやってくる。

とはいえ、それまでの画面の時代は40年ほどの経験(テクノロジーの世界での40年は数百年の時間軸に等しい)蓄積、財産や基本的な安心感や信頼感があるため、「声の時代」の大きさにはなかなか気づきづらいのだ。

例えば Siriにしても、iPhoneでの成功が大きすぎて、スクリーンとタッチの呪縛からはなかなか逃れられないでいる...。

パーソナルコンピュータは当初モニターとキーボードの組み合わせから始まった。

耳を澄まして、アレクサの声を聴いてみよう、そして話し掛けてみよう。

それはマウスとキーボードの時代の終末を伝える、優しい、軽やかな、新しい時代から響いてくる Her の声だと思うのだ。

シンギュラリティ時代になっても、まだ、なおマウスとキーボード或いはタッチディスプレイの操作に甘んじているだろうか? きっと、それはない。声を通じた自然な対話関係がそこにはあるべきなのだ。

声を発する。耳を傾ける。人の声の対話は、長い歴史と深さと広がりがある。だから、声のコンピューティングとは、人間らしい交流と交感の経験のコンピューティングへの応用を意味する。

ようやく、そのレベルへとコンピュータ能力と資源の双方が追いついたのだ。とも、言えるだろう。

R.I.P Personal Computing with Eyes and Fingers....

--

--