人のコミュニケーションの拡張こそが中心課題だ。

イメージ操作してシンボルを作り出すことが瞬時に可能になったら?ートランスペアレントの狙い。

takahito iguchi
5 min readAug 19, 2018
時差はともかく、距離を乗り越えて出会えている感覚はVRミーティングの真骨頂です。

サンフランシスコ訪問中の亮さんとOculus RoomsでVRミーティングした。なぜか僕の方が日本(京都)にいるから入れ替え状態。そして色々と刺激があって、改めて色々考えさせられた(VRミーティング凄い!)。

そもそもトランスペアレント (コミュニケーションの可視化を行うウェブサービス)の原点になったのは、あらゆる雑談を引き受けてくれる(仮想の)赤ん坊の人工知能エージェント「ベイビー」なのだけど、このプロダクトの本当の狙いをちゃんと理解してくれたのは世界広しと言えど亮さんだけかも知れない。

あの頃は音声系の人工知能クラウドもまだまだ発展途上だったしスマートスピーカーが広範なプラットフォームとして、例えば声で買い物するなど具現化する手前だったので「クラウドを通じ人工知能エージェントと雑談する行為が様々なアプリケーションの源泉になる」という製品イメージを持つのは難しかった。

東京で会うときは大体一緒に飲んでいる気がする。

考えてみれば、セカイカメラもテレパシーも非常に本質的な部分で製品の持っている世界観を正面から理解してくれていたのも亮さんだ。で、僕が今回気づいたのは、自分自身がトランスペアレントの潜在能力を過小評価していたということだ。

トランスペアレントはコミュニケーションの内容を会話から可視化する(=ビジュアライゼーション)という製品定義だ。それ自体製品の機能の説明としては間違ってはいない。

いや、でも、本質的にはそうではない!これは人のエンハンスメントだ。声を元にコミュニケーションする能力を拡張することがそもそもの主たる製品価値なのだ。ビジュアライゼーションと言うだけでは、その意味している会話内容を画像へ変換する=正しい解答があって、それに正しく置き換える機能だとする"狭さ"を感じる。

ドキドキのサンフランシスコオフィスはDG 717内。非常に良いオフィスですよ!

現状のコア機能は、発話された内容を自然言語処理して、一連の画像検索を束ね画像とキーワード(話された内容から抽出された固有名詞が中心)の組み合わせをほぼリアルタイムにウェブやアプリで表示する機能だ。

そして、その性能(精度)向上が最大の課題であって、その性能をブレイクスルーする事を狙った開発を現在急いでいる。

いや、でも、本質的には、その会話内容の可視化(ビジュアル言語化)は、人のコミュニケーションのエンハンスメントの一部だと言える。

なぜなら、人のコミュニケーションには様々な感情表現も含まれるし会話内容をそのまま画像に変換して映し出す以上の劇的な、演出効果的な表現も含まれる。あるいはLINEのスタンプのような会話をスムースにするための"潤滑剤"のような記号も存在する。だからビジュアライゼーションだけでは、開発すべき機能の全体像を言い尽くせない。

かつてアランケイはコンピュータの機能を「イメージを操作してシンボルを作り出す」と、極めてロジカルかつこれ以上ないほどシンプルに言い当てている。これはいまだに示唆に満ちた素晴らしい指摘だと思う。

ビジュアルとテキストを自在に組み合わせてコミュニケーションに用いる事(パワポやワード、エクセルなどもある意味この範疇に含まれることに気付かされる)を従来のマウスやキーボード、タッチ操作など用いず、声で瞬時に操れる事。これこそがトランスペアレントの中心的な価値なのだと思う。

もし、それが可能で有れば、例えばAR/VR/MRなどxR領域のすべてで非常に使い勝手の良いパワフルなツールになる。人が話した時、それをその場で即拡張し、伝えるべきメッセージを表現・伝達することができる。

そのように考えると、声でコミュニケーションを表示・拡張するこの製品の持つ大きな可能性をよりイメージしやすくなるのだ。

そして、その原点に立ち戻れただけでも、凄く大きな気づきだった。

気がついたら指針を探るため何度も何度も読み直している。

--

--