ウェブ雑談コーナーです。今回は、最近話題のAI(人工知能)と検索アルゴリズム RankBrainなどについて少し触れます。
先日、システムコンサルタントの友人と会ったので、あまり盛り上がらなかったものの少しAIの話題になりました。
そこでAI関連として3番目に重要なランキングアルゴリズムであるとされる「検索アルゴリズム RankBrain」について触れていきます。
このRankBrainはGoogle が検索クエリにの奥にあるユーザーが本当に知りたい情報、真に求めているコンテンツに対して、AIを用いて適切なコンテンツを検索結果に表示させるという仕組みです。特に検索数が少ない検索クエリなどには良い効果を発揮するようです。
検索アルゴリズム RankBrain
Googleの検索エンジンは、基本的には、かつてから特許である「PageRank」アルゴリズムで検索結果順位が決められてきましたが、最近では、RankBrainと呼ばれる「検索キーワードによるクエリやページのコンテキストを解釈し、検索クエリを構成する単語やフレーズを分析するアルゴリズム」が導入されてきています。昨年の暮れから話題になっています(Google Turning Its Lucrative Web Search Over to AI Machines)。
検索エンジンとAIは相性が良いと考えられます。
PageRankにしても、特に昔からスパム排除のために「正当なリンクの見分け」が重要課題だと考えられ、リンクの質などの見分けには、こういった人工知能のディープラーニングと相性が良いでしょう。
この機械学習、ディープラーニングは、最近では画像に関しても「猫の顔」だと判断して、猫の顔のパターンではない場合は画像検索でランクを落とすというようなところまで進んでいます(と言ってもOS純正ののフォトギャラリーなどでも顔認識があり、さらに同じような顔の人物が写った写真を並べてくれますからそれほど目新しいものではありません)。
RankBrainによって、リンク周りの文章だけでなく、コンテンツ文章全体の質を判断するにあたり、良質なコンテンツごとの共通項を学習していくことで、どんどん精度は上がるとは考えられますが、いくつか問題点は考えられます。
日本語表現と文脈とクエリ
一つは、あるフレーズに対するコンテンツの中に占めるクエリなどで判断すると、「根本から情報が間違い」だったものも正しいものになってしまう恐れがあります。
また、非常に論理的でおカタい文章ならばよいかもしれませんが、日本語で様々な詩的表現、比喩表現がなされた場合、根本の意味が掲載されている情報までたどり辛くなるのではないかと考えます。
例えば、「観念論」は、プラトンなどに代表される哲学的な「イデア論」を指しますが、比喩表現で、「具体性がない空論」といったように使用される場合があります。
前後文脈で意味の解釈を行うとき、観念論と「机上の空論」がほぼ一致してしまう、というようなことが起こりえるのではないかと考えています。
また、アルファベットを用いる諸国では、単語フレーズは比較的単純ですが、ひらがな・カタカナ・漢字など様々な表現のある日本語では、クエリの解釈精度が高まるまで少し時間がかかるのではないかと考えられます。
例えば、ひらがな表記の場合には、ロボットには意味が限定しにくい、という点があります。
「内容に」と「無いように」は、ひらがなでは同じ「ないように」ですが、前後文脈にもよるものの、どちらの意味ででも文脈に一貫性が起こる可能性があります。
同時に、日本語表現の面白い例として、「~と言えないということもあまりない」というような表現をすることがあります。
おそらく様々な施策は施されていると思いますが、アルファベット圏よりは、RankBrainアルゴリズムの精度の向上には時間がかかるのではないでしょうか
人工知能の情報取得
何かと人工知能が騒がれていますが、人工知能自体はそれほど目新しいものではありません。
「Web2.0みたいなフワフワしたものになるだろう」
というのがシステムコンサルタントの友人との会話でした。
人工知能を活用する場合でも、情報の入力は必要になります。
それは分野によって異なり、ハードが必要な分野では、センサーなどが必要になると思いますが、検索エンジンであれば情報の取得はクローラーで行えるので、検索エンジンとAIは非常に相性は良いでしょう。
「人工知能が人間の知能を超える」と囁かれていますが、例えば検索エンジンのしていることを「人間がクエリの取得を手入力でする場合」と比べて、コンピュータのほうが圧倒的に処理が早いことと同じように、分野によってはある程度新しい発想の種などは、人工知能が担ってくれる場合があるかもしれません。
例えば本当に面白いゲームを人工知能に作らせる、という場合には、面白いとされているゲームのサンプルをたくさん仕入れれば可能になりそうですが、おそらく本当に「面白いゲーム」を作ろうと思うと、ただゲームのサンプルを集めるだけでなく、プレイ画面と同期しながら実際にプレイしている人の脳波などの情報まで入力して、「このゲームのどの部分に面白みを感じているのか?」というサンプルがたくさん必要になるでしょう。
しかし、そのサンプルは一度取れば終わりというわけではありません。
もちろん時代を越えた「面白みを感じるポイント」は見えてくると思いますが、時を経れば時代時代で「面白みを感じるポイント」が変化していく可能性があります。
同一人物であっても、その情報を取得した時点と数年後では、頭の中に入っている情報の量が変わっているからです。
情報の抽象化と意味のレイヤー
同時に、おそらく人工知能が人間にたどり着くことのできないポイントがあります。
それは厳密な意味での情報の抽象化と意味のレイヤーなどです。
パブロ・ピカソは、空間認識を超越して平面であるキャンバスに絵を書きましたが、そういったピカソの「空間抽象化」というサンプルが元々どこからも入力されなかった場合、人工知能がそれを新たに新設することはないでしょう。
「クリエイティブ」をどう捉えるかにもよりますが、「頭文字Dを観てひらめく」といったことや、聴覚情報を視覚情報に変換して応用するといった他分野での情報の共感覚が起こり得ることはあまり予測できません(音の波形でグラフィックを描くということはできますが、他チャネルの情報をある分野の抽象化に応用することは難しいでしょう)。
逆にパターンの習得による「デザイン」などには応用が効くかもしれません。例えば、過去の流行の流れを学習して、ある周期ごとのリバイバルを予測して、過去(前周期)のサンプルを複合して最適化する、といった事が可能になる可能性はあります(それが良いものかどうかはわかりませんが)。
といったような会話になりました(上京区の中華料理店にて)。
ヨナ抜き音階と日本語
彼とは、人工知能よりも「ヨナ抜き音階」で盛り上がりました。
太田裕美さんの「木綿のハンカチーフ」の突然現れる「7度」がグッとくるということを(「いいえ」のところですね)、以前亀田誠治さんの亀田音楽専門学校でやっていたので、そのことで盛り上がってしまいました。
ヨナ抜き音階という音階のセオリーを、突然一時的に崩すことによる情緒まで、人工知能は学習していくのでしょうか。
ヨナ抜き音階と日本語って合いますね。日本語の美しさがマッチします。
歌詞が子音で終わることの多い英語などではまた雰囲気が変わるでしょう。
と、感じるのはおそらく日本人だけでしょう。
そんなところもAIは学習していくのでしょうか。
どうなんでしょう…
ウェブ雑談ならぬ人工知能雑談でした。
(初回投稿日 2016年5月30日)