第91号：JNSAメールマガジン NPO日本ネットワークセキュリティ協会

★☆★JNSAメールマガジン　第91号　2016.7.22☆★☆

こんにちは
JNSAメールマガジン　第91号　をお届けします。

Facebook社のテキストメッセージアプリ「メッセンジャー（Messenger）」の月間利用者が10億人を超えたそうです。最近はプライベートのやりとりだけでなく仕事上のやりとりもフェイスブック社のMessengerを使うことが増えてきました。手早く意志確認ができることはメリットなのですが、常に返事ができる状態であるというのもなんとなく気が休まらない気もします。
たまにはスマホ断ちも必要なのかもしれませんね。

さて、今回のリレーコラムは、前号に引き続き、　SECCON実行委員／事務局長の園田道夫様に「人工知能とセキュリティ」（後編）をご寄稿いただきました。

【連載リレーコラム】
人工知能とセキュリティ（後編）

（SECCON実行委員／事務局長　園田　道夫）

前回はどちらかと言えば人工知能のシステムとしての側面に寄ったお話でした。今回は、人工知能という特異なシステムの特異さ、特徴に近いところでのセキュリティという話をしようと思います。

■最初期の学習データの汚染

人工知能は基本的に学習するシステムなので、学習するデータが必要になります。学習というプロセスは厳密に言えばいろいろ分かれるのですが、ここでは割とザックリとしたイメージで書きます。別の言い方をすれば入力データなのですが、その入力データの形を崩されてしまうとバッファオーバーフロー攻撃になったりしてしまうのですが、形が崩れていなくても中身に問題が有る場合もあります。

前回も触れましたが、最初の段階で教育されるシステムの場合、そのデータの中身が実装と違うデータになっていたとしたら、結果としては例えば過激思想に染まってしまうわけですね。だから最初期の学習プロセスが必要な場合には、そのプロセスで用いられるデータは保護される必要があります。

そして、人工知能によるソリューションの展開をビジネスとして考えるならば、この最初期のデータにどんなものを用意するかというところが提供するソリューションを特徴付ける、影響力の大きな要因となってきますので、それこそ企業秘密的に保護される必要が出て来るでしょう。逆に言えば、だからこそ産業スパイなどに狙われる可能性もあるわけです。

また逆に、最初期のデータセットが業界標準的にオープンになる可能性もあります。研究という領域では、ある画期的なアルゴリズムやモデルを思いついたので世に問おう！というとき、そのアルゴリズムの実力を測る必要があるのですが、その段階に独自性の高いデータセットを用いていると「都合の良いデータを使ってゲタを履かせている疑惑」を免れません。そこでオープンな、この分野この領域にはこのデータセットを標準的に用いる、というようなものが必要になってきます。そのデータセットが汚染される可能性も考えなければならないでしょう。ただ、オープンなデータセットは一カ所だけでなく数カ所に保管・公開されているでしょうし、それらすべてが汚染されるというのは社会的なリスクとしてはそれほど深刻なものではないかもしれません。

学習というプロセスは最初期の性格付け以降も続きます。保護されたプロセスの中で保護されたデータセットによる教育を受けていた最初期とは異なり、よりオープンな形での学習になりますが、そこでのデータ汚染というのは少々厄介です。

お客さまから送られてくるデータがきちんと実相を反映していて、汚染されている可能性は極めて低いと言えるならば大きな問題はありません。契約に基づいてソリューションを提供する場合はそう期待しても良いでしょう。お客さまの中にライバル会社の人たちが紛れ込んで汚染を企てることもあり得ますが、100個ある契約先のうち2個か3個で汚染が発生したとしても影響は大きくは無いでしょうし、そもそも切り離すなどの対処が可能でしょう。楽観はできませんが。

もっと広くデータを集める場合はどうでしょうか。数多くのセンサーからのデータを学習していく場合は、汚染されるセンサー数の全体からみた割合が低ければ影響は小さいでしょう。ただ、センサーから情報を収集するプロトコルを攻撃されて、偽装センサーを大量に仕掛けられてしまうと影響力の強い汚染を作られてしまう可能性があります。全国のATMに一斉に不正引き落としを仕掛けにいった組織犯罪の例もありますし、通常は普通のセンサーとして動作させておいてあるとき一斉に、という攻撃モデルを仕掛けられると、致命的なダメージを被ってしまうかもしれません。普通は攻撃にそんなにコストをかけないのでは、と思われるかもしれませんが、人工知能への社会の期待値が増大している今、社会的な重要度が増せば増すほど、攻撃者はコストを度外視してくる可能性が高まると思います。最終的には情報テロとでも言うべき状況もあり得るでしょう。もっとも、プロトコルがそれだけ脆弱ならば、もっと低コストでシンプルな攻撃を仕掛けてくるかもしれませんが。

とはいえ、攻撃の目標達成度で言えば、破壊やサービス不能よりは制御下において思うとおりに動かすことの方が、人工知能というシステムの性質からすればビジネスインパクトは大きいでしょうし、手間をかけて静かに攻撃し、制御下におく、という攻撃モデルに対しては最大限警戒すべきだと思います。

■インターネットデータの汚染

インターネット上から広くデータをかき集める場合などはもっと攻撃しやすいかもしれません。ネットのデータは膨大ですが偏りも多く、しばしばネット以外の世論とのズレが論じられています。また、一部の人間がデータを短期間に大量生産して意見や空気をリードしてしまう現象などもありますし、信頼性はそれほど高くないと言えそうです。この性質を考えつつネットのデータを汚染する攻撃を考えるならば、例えばコンテンツデータを機械的に大量生産して収集データに対する影響力を増す攻撃は簡単に行えそうですし、定点観測的にクロールするポイントをあぶり出すためのピンポイントなデータ汚染と観察を行えば、影響力を増す攻撃もさらに威力を増すでしょう。

機械的な大量生産という不自然な形ではなく、普通に世論操作しても良いかもしれません。ネットの増幅力は近年ものすごいことになっていますが、過激な意見ほど広まりやすいとか、炎上させるには正義感を刺激すれば良いとか、現状でも観測できる拡散のこのような性質を利用すればネットの言説に影響を与えることは容易でしょう。･･･と考えると、ネットから学習に適したデータを拾う、というモデルだけでは人工知能側としては心許ないとは言えそうです。

ここまで見て来たように、人工知能のセキュリティとは結局利用するデータの適切さをいかに保つか、ということになると考えます。あるいは、保たないで良いシステムにするか、というところでしょうか。しかしこれはなかなか厄介な問題で、偏りが仮に生じたとしてもそれが実相であるなら偏りとは言えないのでは、というようなちょっと哲学的な命題に向き合う必要もありそうです。それよりは、保護されたプロセスでのみ学習するモデルか、清濁併せ呑んでも大丈夫なモデルにする、というのが現実的かも知れません。そのようなシステムのアイディアはいろいろ持ってますが（笑）、そのあたりはまた別な機会にお話できればと思います＆みなさんもぜひそういうシステムを考えて行っていただければと思います。

＃連載リレーコラム、ここまで

＜お断り＞本稿の内容は著者の個人的見解であり、所属企業及びその業務と関係するものではありません。

【部会・WG便り】
★「セキュリティ市場調査WG」による「2015年度情報セキュリティ市場調査報告書」を公開しました。
　https://www.jnsa.org/result/2016/surv_mrk/

★「SECCON 2016 × CEDEC CHALLENGE ゲームクラッキング＆チートチャレンジ」
ゲームのクラッキングやチートを扱った競技です。ただいまオンライン予選の参加登録を受け付け中です。以下のURL(申し込みフォーム)から必要事項を入力し、参加登録を行なってください。登録されたメールアドレスへ課題のファイルをダウンロードできるURLが送られます。
　https://frm.f2ff.jp/form/seccon2016_yokohama/

【事務局からの連絡、お知らせ】
★「第6回日韓情報セキュリティシンポジウム」いよいよ来週開催です！　　 https://www.jnsa.org/seminar/2016/0728/
　　日時：2016年7月28日（木）10：00?18：15（受付開始 9：30）
　　場所：秋葉原UDX Gallery Next-1 （東京都千代田区外神田4-14-1）

☆コラムに関するご意見、お問い合わせ等はJNSA事務局まで
　お願いします。

*************************************
JNSAメールマガジン　第91号
発信日：2016年7月22日
発行：　JNSA事務局　 jnsa-mail

*************************************