robots.txtとは何か、そしてrobots.txtを使ってウェブサイトを最適化する方法

  • 702単語
  • 4分
  • 26 Jul, 2024

robots.txt は、検索エンジンのクローラー(例:Googlebot、Bingbotなど)に対して、どのページや部分をクロールしてはいけないかを指示するためのファイルです。このファイルはウェブサイトのルートディレクトリに配置され、例えば https://www.example.com/robots.txt のようになります。

robots.txtの役割

  1. クローラーのアクセス制御:どのページがクローラーにクロールされるべきか、またはされるべきでないかを指定する。
  2. クロールリソースの最適化:重要でないまたは重複するコンテンツのクロールを防ぎ、クロール予算を節約する。
  3. サーバー負荷の管理:クロールの遅延を設定することで、クローラーの頻繁なアクセスによるサーバー負荷を軽減する。
  4. サイトマップの位置を指示:検索エンジンにウェブサイトの構造をよりよく理解させ、インデックスさせるためにサイトマップの位置を提供する。

例:ECサイトのrobots.txt設定

仮に、https://www.ecommerce.com というドメインのECサイトがあるとします。このサイトでは以下のことを希望しています:

  • 主要なコンテンツをすべてのクローラーにクロールさせる。
  • ショッピングカート、ユーザーアカウント、および管理者用バックエンドへのアクセスを禁止する。
  • サーバー負荷を軽減するためにクロールの遅延を設定する。
  • サイトマップのアドレスを提供する。

以下に例として robots.txt ファイルを示します:

1
# すべてのクローラーに適用
2
User-agent: *
3
4
# ショッピングカート、ユーザーアカウント、管理者用バックエンドへのクローラーアクセスを禁止
5
Disallow: /cart/
6
Disallow: /user/
7
Disallow: /admin/
8
9
# 商品ページとカテゴリページのクロールを許可
10
Allow: /products/
11
Allow: /categories/
12
13
# サーバー負荷を軽減するために5秒のクロール遅延を設定
14
Crawl-delay: 5
15
16
# サイトマップのアドレスを提供
17
Sitemap: https://www.ecommerce.com/sitemap.xml

設定の説明

  1. User-agent: *:すべての検索エンジンクローラーに適用。
  2. Disallow
    • /cart/:ショッピングカートページのクロールを禁止します。これらのページはSEOに役立ちません。
    • /user/:ユーザーアカウントページのクロールを禁止し、ユーザーのプライバシーを保護します。
    • /admin/:管理者用バックエンドのクロールを禁止し、セキュリティを確保します。
  3. Allow
    • /products/:商品ページのクロールを許可します。これらのページには価値のあるコンテンツが含まれています。
    • /categories/:カテゴリページのクロールを許可し、商品を整理し表示するのに役立ちます。
  4. Crawl-delay: 5:クローラーが5秒ごとにページをクロールするように設定し、過度なアクセスによるサーバーの過負荷を防ぎます。
  5. Sitemap:クローラーにサイトマップの位置を指示し、より効率的にウェブサイトのコンテンツをインデックスさせます。

結論

適切に robots.txt ファイルを設定することで、ウェブサイトはクローラーの行動を効果的に制御し、クロールリソースを最適化し、重要なコンテンツを検索エンジンにインデックスさせることができます。これにより、SEO効果が向上し、検索ランキングが向上するだけでなく、機密データの保護やサーバー負荷の軽減にも寄与します。