このページのいちばん上です

東日本大震災ビッグデータワークショップで提供される情報を、テレビのように表示するインタフェース。規約によりワークショップ参加者限定公開となります。

東日本大震災ビッグデータワークショップ

本システムは東日本大震災ビッグデータワークショップ - Project 311クライシス・メディア・プロジェクトのデモシステムとして構築したものです。その目的は、もし震災当時に各種のデータへのアクセスが確保できていれば、どんな情報を人々に提供することが可能だったのか?という可能性を探るという点にあります。そこで、時間と空間を基本的な軸として情報を整理し、時間と空間で切取られた(フィルタリングした)情報の流れを可視化したメディアを作ろうと考えました。その成果が「311TV」です。利用したデータは以下の通りです。

  1. 3月11日から1週間のツイート(Twitter Japan株式会社)
  2. 3月11日から1週間の朝日新聞記事(株式会社朝日新聞社)
  3. NHK総合テレビ大震災発災直後から24時間の放送音声書き起こし(日本放送協会)
  4. レスキューナウの鉄道運行情報/緊急情報/被害状況のまとめ情報(株式会社レスキューナウ)
  5. 地震情報・津波情報(日本気象協会)
  6. 混雑統計データ(株式会社ゼンリンデータコム) - 追加

これらの情報を、Google Mapsの表示範囲とスライダーの時間軸を組み合わせてフィルタリングし、テキスト情報と速報情報に分けて表示します。まずツイッター、朝日新聞、NHKのデータについては、テキストから地名を自動抽出(後述)して緯度経度を付与してデータベースに蓄積し、時間・空間の条件で絞りこんだデータの頻度を地図上に可視化した上で、テキストが画面右側に流れるようにしました。一方レスキューナウ、日本気象協会のデータについては、速報データの本文中の地名または地域コードから緯度経度をを付与したデータベースに蓄積し、時間・空間の条件で絞りこんだ速報テキストが画面上部にスクロール形式で流れるようにしました。これによって、ある地域に関係する情報を俯瞰的に捉えることができるようになります。

もともと私はこのようなメディアを台風情報を対象にデザインしようと考えていたのですが、今回のワークショップで提供された多種多様なデータを活用することで、地震情報の方で先に実現することができました。データ提供者の方々には感謝申し上げます。

GeoNLP - 自然言語文のジオタギング

311TVを実現するための第一のポイントは、自然言語文のジオタギングという技術です。自然言語文に明示的に緯度経度が付与されることは少なく、それが地図を使った情報フィルタリングを難しくしています。自然言語文に対するメタデータとして緯度経度が付与されることはあるものの、例えばツイッターの場合はジオタグという形式で緯度経度が付与されているものは全体のわずか0.15%しかなく、それだけを対象とした分析には偏りが生じます。そこで必要となるのが、地名辞書を用いて自然言語文に含まれる地名を自動的に抽出し、その緯度経度をテキストに付与するというジオタギングの技術です。そして、その実現のために我々が開発しているのがGeoNLPというソフトウェアです。

これは自然言語処理(NLP)の世界では固有表現認識と呼ばれる分野の研究テーマの一つとして、長年にわたって研究が積み重ねられていますが、実用的に誰でもが使えるツールとして広く使われているものはありません。なぜかと言えば、単純に地名辞書とマッチングするだけでは解決できない問題、すなわち曖昧性の解消という問題があるためです。

第一に、同綴異義語の問題です。例えば「第一小学校に避難した」というテキストがあるとします。おそらく家族の間では「第一小学校」がどこを指すかは自明のことで、ほぼ確実に「近くの」第一小学校であるはずです。ところが全国的に見ると「第一小学校」は269校もあるため、このテキストだけではどこの学校なのか一意に特定することはできません。その周辺情報として、○○市に住んでいる、現在地の緯度経度がいくつである、あるいはどこの場所についてふだん言及している、などの情報を集めて、それをもとに判断する必要があるのです。この点については、GeoNLPでもヒューリスティクスを用いてある程度の処理は可能となっています。

第二に、品詞の曖昧性の問題です。例えば「野田」という単語が出てきたとき、それが地名なのか人名なのか、これだけでは判定できません。また沖縄県国頭郡大宜味村には「津波(つは)」という地名がありますので、「津波」という単語が出てきたとき、それは一般的な名詞としての「津波(つなみ)」とは断定できず、地名である可能性も残るわけです。ただしこの問題に詳しい人なら、「津波に行く」という文章は「格」を使えば区別できるではないか、と指摘するかもしれません。確かにそれで解ける場合もあるでしょう。では「津波を見に行く」はどうでしょうか。さらに難しいのは「風呂」という地名です。「風呂に行く」が、特定の地名を指しているのか、それとも近くのどこかの風呂を指しているか、テキストだけから区別できるでしょうか?品詞についてはGeoNLPでも形態素解析器(mecab)の情報などをある程度利用していますが、格構造やさらに深いテキスト解析は、まだ改良の余地が大きい部分として残っています。また「風呂」の問題などは、「常識」や「一般論」などを導入する必要も出てきそうです。

第三に、表記揺れや異表記、地名定義の揺れに関連する問題です。例えば地名にはよく「ケ」という文字が使われますが、これは「ヶ」と表記されることもあり、しかも「正式」な表記が定かではない場合があります。こうした表記揺れをすべて列挙して対応するのは、なかなか面倒な作業です。また福島第一原子力発電所は「福島第1原子力発電所 福島第一原発 福島第1原発 福島第一 福島第1 第一原発 第1原発 フクイチ ふくいち 1F」などという異表記がよく使われており、さらに現実には存在しない「福島原発」も、311後はほとんどが福島第一原発を指す言葉として使われています。

今回のワークショップでは、GeoNLPを使って全自動でジオタギングを行いましたが、その精度はまだ実用的と言えるかどうか微妙なレベルです。もしもっと高い精度が必要であれば、半自動のジオタギング、すなわちまずツールを使って地名の候補を抽出し、後からそれを人手で修正していく方法も使えます。これは手間がかかりますが、何もない状態から始めるよりは効率が上がりますので実用的な方法としてすでに使われています。さらにソフトウェアの精度を向上させるためには、地名辞書やその他の辞書をより充実させることによって、地名と非地名の判定精度を高めたり、機械学習を高度化して他の周辺情報も取り込んだりすることが重要な研究課題になると考えています。

ベイジアンTV - プッシュ型インタフェース

311TVを実現するための第二のポイントはプッシュ型インタフェースのデザインです。現在のウェブはプル型、すなわち必要な情報を検索キーワード指定で取り出すというパラダイムのもとで発展しています。これは自分が必要とする情報がピンポイントで分かっており、それを指定することが可能という条件のもとでは有用です。ところがそれだけでは不十分な場面もあります。例えば東日本大震災の後、テレビやラジオを付けっ放しにして情報を得ていた人も多いと思いますが、これらは上とは全く異なるパラダイムで情報を扱うメディアです。自分で積極的な情報探索行動をしなくても、すでに編集された情報が継続的に送り込まれてくるので、閲覧者はそれを眺めているだけでよいのです。こうしたプッシュ型のメディアをウェブでどうやって実現するか、それがもう一つのテーマです。

この考え方でデザインした一つの例が311メモリーズです。この「静かに動く年表」はプッシュ型のインタフェースを取り入れているため、閲覧者が何もしなくても情報は自動的に切り替わっていきます。このような受動的なモードでは情報探索に対する負荷が低下するため、閲覧者は情報を見ることに集中できるようになって、情報をきっかけとして思いを巡らせる余裕も生まれてきます。そしてタイムラインの中で興味のある情報に出会ったら、そこから能動的なモードに切り替えて情報を探索することもできる仕組みになっています。つまり、プッシュとプルのモード切り替えが可能なメディア、そこが従来のテレビのようなプッシュしかできないメディアとの相違点となります。

311TVでは311メモリーズで試したプッシュ型インタフェースをさらに空間にも広げて、時間と空間の軸で必要な情報をフィルタリングしプッシュする仕組みをデザインしました。Google Mapsで表示されている「窓」がその地方のチャンネル(地方局)として動的に生み出され、その地方の情報の流れ(ストリーム)が窓から流れてくるというものです。ここで地方の情報には、その地方から発信された情報だけではなく、その地方に関して言及している(他の地方からの)情報も含みます。つまり、現地発信の情報だけではなく、現地に関心を持っている人々の情報も混ざることになります。

現地に関心を持っている外部の人の情報が混ざることには利点と欠点があります。もちろん純粋に現地の情報のみが知りたいという人にとっては、それは邪魔な情報でしかないかもしれません。しかし、被災地においても、現地周辺の情報だけが知りたいわけではないと思わせる事例があります。例えば東日本大震災で有名になった石巻日日新聞は、津波によって新聞発行に必要な機械がすべて使えなくなったため、手書きの新聞を避難所に張り出しました。それが災害の状況を被災者に伝える情報源として機能し、メディアの原点として高く評価されました。また河北新報の証言にも、避難所に届けた新聞には多くの人が殺到してむさぼるように読んでいたとの記述があります。これらを参考にすると、クライシスにおいては、必ずしも内から外への情報発信だけを重要視するのではなく、外から内への情報提供についても考えていく必要があるでしょう。例えば被災地の外で各種の情報をとりまとめてコンパクトに編集し、被災地の避難所に送り出すといった連携の仕組みが考えられます。重要なのは場所そのものよりも、被災者の情報ニーズに合った情報の選別という役割にあるでしょう。

その意味では、311TVの機能はまだ不足している面があります。現在のところ、311TVは時間と空間ではフィルタリングができていますが、「何」というトピックによるフィルタリングはまだ実現できていません。もし「何」というレベルで情報の整理ができれば、例えば現地発信の情報だけをフィルタリングしたり、ガソリンスタンドに関する情報だけをフィルタリングした「テレビ」というメディアが実現できますので、ここが次の大きな課題です。そしてより挑戦的な課題は「個人化」、つまり個人の状況に合わせた情報のフィルタリングやレコメンデーションの実現で、将来的な研究課題として取り組んでいきたいと考えています。