Googleクローラ:Flashコンテンツをインデキシング可能に!

2010年2月14日

2008年6月30日 Googleの 発表によると、GoogleのインデックスにFlashコンテンツが追加されることになったそうです (つまり、GooglebotがFlashコンテンツに対応)。

インデクス対象は、Flashコンテンツ(swfファイル)内のあらゆるテキストデータで、 ボタンやメニューのラベルデータもこのインデクス対象に含まれるとのこと。
これは、非常にインパクトありますねー。
特にケータイの世界では、現在Flashコンテンツが大幅に増加しています。 

HTMLに頼らず、All Flashサイトというところも珍しくありません。 

このようなサイトがサイトマップのような特別なメタデータをクローラのために用意しなくても

検索対象サイトとなるのだからうれしい限りです。

また、通常のHTMLページにリンクを発見したときと同じように、Flashコンテンツ内にリンクを 発見すると、PageRankへの反映やクローリング候補に追加するようです。


以下にいくつか特徴を書いておきますね。


 

・Flashコンテンツ内のあらゆるテキストがインデックス対象になる。


・Flashコンテンツ内のリンクもHTML内のリンクと同様に扱われる。


・現在の所、画像コンテンツ(イメージファイル)は認識しない。
 つまり、画像検索の対象とはならない。


・FLVファイルもインデックス対象外。


・ユーザアクションに伴い画面遷移するFlashコンテンツについても、
 swf内のボタンクリックやテキストインプットへの文字列の入力などを行うことで
 出来る限り網羅的にテキストデータをクローリングする機能を持つ。


・クローリング対象となるサイトは別段特別な登録処理などをする必要はない。
 自動的にFlashのインデキシング処理が今後開始されることになる。


・クローリング対象として欲しくないFlashコンテンツを保持する場合、
 テキストをイメージ化するなどの対応をしなければならない。


★・Googlebotは、javascriptを処理しないため、javascript経由
  でFlashコンテンツが生成されるようなケース(document.write()で
  object/embedタグが生成されるようなケース)は、Googlebotに
  認識されない。


★・Flashコンテンツが動的にサーバと通信してデータを処理する場合は
  インデキシング対象とはならない。


★・bidirectional言語(文字の記述方向が一定ではないヘブライ語などを指す)は、
  現在の所、認識対象外となっている。

※上記★マークは、Googleによれば今後改善する余地があるとのこと。