ソフトウェア

検索(Search Engine)

 インターネットで公開されている厖大な情報をキーワードなどを使って検索できるWebサイトのこと。サーチエンジンは、WWWなどで公開されている情報の全文を貯えておき、キーワードによって検索するキーワード(ロボット全文検索)型と、カテゴリー別に分類されているディレクトリ型の2種類に大別できる。最近ではロボット型でもディレクトリ型の情報提供をしているところが増え、またディレクトリ型のサーチエンジンにも検索機能が搭載されるようになってきた。 日本のサーチエンジンは、全文検索型ではGoogleやgoo等が有名で、ディレクトリ型ではYahoo! JAPANが有名。

 ディレクトリ型

 分類されたカテゴリーの中から欲しい項目をたどっていく。利用者が検索対象のカテゴリや項目が分かっている場合は利用しやすい検索エンジンである。登録されていないWebサイトは検索されないこともある。
 サーチエンジンを運営するスタッフが独自の基準に従ってホームページを収集し、検索の基となるデータベースを手入力で作成する。人手でデータベースへのテキスト情報の登録、サイトの「索引」を構築する。
 ディレクトリ型検索エンジンの長所としては、サイトの登録には人の手による審査がおこなわれるために、登録されているサイトはおしなべて質の高い情報が多い。
逆に短所としては、登録をすべて人の手に頼るため、情報量が少ない。

 キーワード(ロボット)型

 専用のアプリケーションソフトがインターネット上のWebサイトを自動的に巡回してデータを収集するタイプのもの。データを収集するソフトウェアをロボットと呼ぶ。各Webサイト内を指定したキーワードなどの検索条件にしたがって全文検索することができる。ロボットは人間と違って各サイトやページに書かれている内容の意味や相互の関連までは把握できないため、ディレクトリ型サイトに掲載されているようなサイトの分類や要約などを生成することはできない。最近ではソフトウェア技術の進歩により、ロボット型でもサイト間の相互の関連性を利用した検索結果の重み付けを行なったり、内容をベースに自動的に関連のあるもの同士を結び付けて分類を行なったりするものも登場するようになった。
 ロボット型検索エンジンは、登録を人の手に頼らないため、データベースや検索結果にエディター、サーファーの主観が入らない。人間の主観に関係なくデータベースが作られ、「情報の適合度」を判断基準として検索結果を表示するため、サイト作成時の対策が確実に結果にあらわれる。
 この検索エンジンは、(1)Webページを収集し、(2)それを索引化してデータベースを構築し、(3)検索要求に応じてランキングし、(4)検索結果を返す。の手順で実施。

 クローラー(crawler)

Web上の情報を自動で収集し、インデックスを更新することによって、常に最新の情報にする。
各検索サイトにてロボットの考え方を説明している。
Googleのクローラー:http://www.googlebot.com/bot.html
msnのクローラー:http://search.msn.com/msnbot.htm

 サーチエンジン最適化 (Search Engine Optimization

 サーチエンジンの上位に自分のWebページが表示されるように工夫すること。また、そのための技術。「検索エンジン最適化」などとも呼ばれる。サーチエンジンにとって一番重要なのは表示順位である。サーチエンジンは登録されているWebページをキーワードに応じて表示するが、その際の表示順位はそれぞれのサーチエンジンが独自の方式に則って決定している。この順位が上にある方が検索エンジン利用者の目につきやすく、訪問者も増えるため、企業などでは検索順位を上げるために様々な試みを行なう場合がある。実際インタネットユーザは検索されたサイトの上位10〜30位までしか見ていない。Webサイト構築などを手がける事業者の中には、SEOをメニューに用意しているところもある。ディレクトリ型サーチエンジンで手作業で登録している場合には順位を変動させることは困難だが、全文検索を行って一定のアルゴリズムに従って順位を決定しているロボット型のサーチエンジンでは、そのアルゴリズムを分析することで順位の変動がある程度制御できることがある。具体的には、適切なキーワードの選択や相互リンク先の増加などの手段がある。
 まず最初にしなければならないことは検索エンジンロボットに理解されるサイトにすることである。

  1. タグを正しく使用する
  2. 不要なタグを無くする。
  3. ブラウザによって表示されないものは設定しない。

 タイトル

 ロボット型のサーチエンジンでは、「本文内にキーワードが含まれる場合」および「タイトルにキーワードが含まれる場合」の両方を検索結果として表示する。これらが検索結果として表示される際の順番は、「タイトルにキーワードが含まれる場合」の方が上位に表示される傾向がある。
 アクセス向上を望むのであれば、キーワードに指定されそうな単語をできるだけタイトルに含めておくとよい。

 ヘッダー

 またHTMLソースコードを上から順に読み取るのでよりスムーズに重要なキーワードの情報を拾えるようにするため、ヘッダー情報はできるだけシンプルにしておく必要がある。JavaScriptやCSSといったソースコードに関しては、ヘッダー部分に記述するのではなく、できるだけ外部化する。

 META

 SEOの手段としてサーチエンジン用のキーワードを「META」タグを利用してホームページに埋め込む方法がある。この場合は「META」タグのname属性に「robots」、「keywords」、「description」を指定し、検出許可、キーワード、説明文を記述する。

 name属性で「robots」はロボット型サーチエンジンのロボットに検出されやすくするための命令。
例 <META name="robots" content="index,follow">

 name属性で「keywords」はcontent属性にキーワードを記述する。複数のキーワードを指定する場合は、半角の「,」(カンマ)で区切ってキーワードを記述する。 ただし、サーチエンジンによっては「META」タグでのキーワードが無視される場合も多くある。このため、重要なキーワードはタイトル内に含めるようにし、「META」タグでのキーワード指定はサブ的な要素として考えるようにしたほうがよい。
例 <META name="keywords" content="サーチエンジン,ロボット検索">

 name属性で「description」はホームページの紹介文である。ロボット型サーチエンジンの検索結果に表示される。
例 <META name="description" content="パソコンの基礎,無線LAN,ホームページの紹介など。">

 BODY

 ある特定のテーマに沿ったキーワードで構成されるコンテンツは、検索エンジンでもそのテーマ内のキーワード検索では重要なウェブサイトとして認識し上位表示いたします。 用意するテキストはページBODY内の全テキストのうち10%〜20%を最適化したいキーワードで構成されるテキストにするとよいと言われている。
また通常、自動巡回しているロボットが収集しているのは、各サイトのテキスト情報となっている。したがって、画像しかないページや、すべてがFLASHで制作されたページはロボットにはひっかかりにくい。また、TOPページから見て、あまり深い階層にあるページやフレームを使ったページも不利といわれている。であるから、SEOでは、デザイン的な要素を重視するよりも、可能なかぎり情報を書き込んだり、画像ファイルにも「alt」タグにキーワードを入れておくほうがベターである。階層の問題も、プロバイダが提供しているWebスペースよりも、独自ドメインによるTOPページほうがSEO的には有利となる。
 日本語には多数の同義語があるだけでなく、「送り仮名の違い」や「漢字と仮名」などの表記の違いによって、まったく同じ意味の言葉に複数の表記のしかたが存在する。英語表記、カタカナ表記、平仮名表記の違いをサーチエンジンは同じ単語として認識してくれないので検索対象としたいキーワードを設定したら、その表記方法について統一することが必要である。
 重要なキーワードを強調することで検索エンジンに重要度を認識させることができる。論理的強調のemタグ、strongタグ、視覚的強調のbタグ、iタグなどを効果的に使用する。

 Blog

 また、「どれだけ多くのサイトからリンクが張られているか」という「PageRank」への対策としては、最近人気の「Blog」が非常に有効であると考えられている。Blogには記事を引用した時に、自動的に相互間のサイトにリンクがはられる「トラックバック」という機能がある。これを有効的に活用することで「PageRank」アップにつなげることが可能となる。

 アンカー

 アンカーテキストにはリンク先のページの説明をする文字列を使用する。リンク先のページのタイトルタグ、または<H1>タグに使用されている文字列をアンカーテキスト内に含め、ページ同士の関連性を示すことによって、上位表示に効果がある。また、アンカーにテキストではなく画像を使用している場合は、ALT属性に適切なコメントをつける。

 リンク

 どこからもリンクされていないホームページは、サーチエンジンのデータベースに登録されない。
 ページAからページBへのリンクをページAによるページBへの支持投票とみなし、リンク数によりそのページの重要性を判断する。しかしリンク数を見るだけではなく、票を投じたページについても分析し、「重要度」の高いページによって投じられた票はより高く評価されて、それを受け取ったページを「重要なもの」にしていく。 自ページにとってメリットのある外部リンクを増やすのが良い。外部ページに掲載されるソースコードをあらかじめ指定しておくことにより、自ページの特定キーワードでのランクを向上させることができる。
 ページランクの高いサイトから自サイトへリンクを張られる事は、自サイトのページランク向上へと繋がる。さらに、自サイトのテーマに関連したコンテンツがある、高いページランクを有するサイトからのリンクはさらにページランクの向上となる。

 ウェブ検索の回避

  1. metaタグを入れる
    ウェブページに以下のmetaタグを入れることで、インターネット上にページを残したまま、検索結果に表示されないようにすることができる。
  2. 検索結果からタイトルや要約、キャッシュなどすべて削除したいウェブページに以下のmetaタグを挿入する
    <meta name="robots" content="noindex, nofollow">
  3. 検索結果にタイトルや要約は表示されるが、キャッシュへの保存を拒否するには、以下のMETAタグを挿入する
    <meta name="robots" content="noarchive">
  4. robots.txtを設置する
    robots.txtというテキストファイルを、公開しているサーバーのルートディレクトリに設置することで、クローラーの巡回を拒否することができる。ルートディレクトリに設置とは、サイトのドメインが
    「http://www.excite.co.jp/」であった場合、
    「http://www.excite.co.jp/robots.txt」でアクセスできるように、サーバー上にrobots.txtファイルを保存する。
    例:すべての検索エンジンのクローラーに対して、サイト上のすべてのページへの巡回を拒否するには、robots.txtに以下の内容を記述する。
    User-agent: *
    Disallow: /

    例:すべての検索エンジンのクローラーに対して、「diary」ディレクトリ以下にあるページへの巡回を拒否するには、robots.txtに以下の内容を記述する。
    User-agent: *
    Disallow: /diary/
    いずれもクローラーが巡回しmetaタグやrobots.txtファイルの内容を認識、次回データベースが更新されたタイミングで、ウェブ検索結果に表示されないようになる。