Kazuの挑戦日記TOP | Xoopsの移行 »

Googleにページがインデックスされた

ようやくブログの各ページがGoogleのインデックスに登録されました。音符
長かった!!
普通だったら何もしなくても登録されるのですが、うちの場合は気付かぬところにかなりの困難と難関が潜んでいたため、待てど暮らせど一向に登録されん。これを解決しなければ永遠に登録されないところでした。

■問題点その1
先日GoogleSitemapへ自分のサイトのサイトマップを定められた形式のXML(MTで自動生成)を登録しましたが、『サイトの確認ステータス』はOKになるのですが、『サイトマップのステータス』の欄が何度試しても「タイムアウト」となってしまうのです。この『サイトマップのステータス』がまさに用意したXMLファイルをGoogle側が取得するプロセスのことのようなので、これが完了しないと意味がない。嫌な感じ
これが原因でサイトのページは一向にGoogleに登録されず。
なぜなのか分からずに1週間以上が経った。

■問題点その2
GoogleAdsenseを利用して、コンテンツの内容に合った日本語テキスト広告の表示を試みたのですが、いつまで経っても英語の、しかもコンテンツの内容とは関係のない広告が表示されているのみでした。
=>つまり、Googleの巡回ロボットがコンテンツを収集できていないことに起因

■問題点その3
完全に別件だと思ってましたが、友人のブログはSo-netで、これには「読んでいるブログ」という機能があって、自分のブログ上で、複数のブログの更新状況をお知らせしてくれる機能なのですが、ここになぜか「KAZUの挑戦日記のブログが登録できない」、と指摘されました。
これはSo-netのブログの管理ページから更新状況を自動表示するブログを登録できるのですが、UNIX(LINUX)のwgetを利用してRSSを取得するらしいです。
その友人のブログは日に数百件のアクセスがあるようなサイトなので、是非そのページから「読んでいるブログ」としてリンクしてもらいたいぞ!と思ってなぜ登録できないのか必死で調べてたのです。eek

■解決へ向けて
上記問題点その3を調べてる中で、始めはMovableTypeが生成しているRSSの形式がSo-netのパーシングできる形式とは異なるのだろう、と思っていましたが、So-netに会員のふりをして(オイ・・・)問い合わせていると、「詳しいことは分かりませんが、タイムアウトしているようだ。ちなみにSo-netからはwgetのようなものでRSSを取得している。」とのことでした。へぇ~、そうなんですかぁ~(その時はちんぷんかんぷん)汗2

wgetとはUNIX上で使えるダウンロード支援ツールであり、ホームページ自動巡回ツールでもある。

「通常ブラウザでPCからWEBにアクセスする分には全く遅さは感じないのに、なぜwgetで「タイムアウト」という現象が起きているのだろう、思い、別のサーバ(LINUX)からインターネット経由で
=> wget http://kazuizm.com/index.xml
というのを試してみました。

すると、、、、へ??????
今までブラウザから表示させていた分には一瞬で上記のXMLのソースが見れていたのに、wgetでは1分・・・2分経ってもページが取得できないではないか。


sh-2.05$ wget http://kazuizm.com/index.xml
--15:56:21-- http://kazuizm.com/index.xml
=> `index.xml'
Resolving kazuizm.com... done.
Connecting to kazuizm.com[58.0.144.232]:80... connected.
HTTP request sent, awaiting response... 200 OK ←OKにはなっているが↓遅い
Length: 50,330 [text/xml]

100%[========================================>] 50,330 805.74B/s ETA 00:00

15:58:21 (805.74 B/s) - `index.xml' saved [50330/50330]

え?805.74B/s? KB/sの間違いじゃなくて?
そりゃあ遅いわ。。。

GoogleSitemapに登録するsitemap.xmlもwgetでは同様の結果となった。
これではタイムアウトして当然です。
でもなぜそんなことになっているの?

Googleにも散々問い合わせてみました。


ご連絡ありがとうございます。

確認いたしましたところ、コンテンツクローラーが該当のアドレスにアクセスできない状況となっております。
ウェブサーバーやネットワーク機器などの各種設定を再確認くださいますようお願いいたします。

なお、Google AdSense では、クローラがコンテンツを収集する際に、"Mediapartners-Google" で始まるユーザー エージェントを使用し、次の範囲の IP アドレスからリクエストを実行します。

66.249.64.1 - 66.249.79.254

Google AdSense チーム

そこで納得いかないながらも再度自宅(実家)サーバのネットワークの構成を見直してみました。
インターネット->GateLock(ルータ)->NetGear(無線LANルータ)->サーバや実家のWidowsPC
となっていました。

もしかして間に二つもルータをかましているのが問題ですか!?
実家は微妙に遠いので、親に電話し、第一声:「言われたとおりにしてほしい」というと、
親:「あんた、振り込め詐欺かなにかかい!?」

いや、まあ久々に電話して第一声がそれではまずかったな、と反省汗

さて、サーバを直接「GateLock」というルータからLANケーブルでつなげてもらい、サーバ自身のIPアドレスも合わせて変更。GateLockのポートフォワーディングを今まではNetGearに飛ばし、NetGearがサーバの各ポートに転送していたのだが、これをGateLockから直接サーバの各ポートに飛ばすよう、遠隔操作(VNC)で設定。
そうなのです。実家のLAN(サーバ・ルータ・WindowsPC)は物理的な構成以外は全て遠隔で操作できるようにしてあるのです。

これで再度、インターネット経由で別のLINUXサーバからwgetを実行!
できました!一瞬で取得。


sh-2.05$ wget http://kazuizm.com/index.xml
--16:27:27-- http://kazuizm.com/index.xml
=> `index.xml.1'
Resolving kazuizm.com... done.
Connecting to kazuizm.com[58.0.144.232]:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 57,677 [text/xml]

100%[=================================>] 57,677 761.15K/s ETA 00:00

16:27:27 (761.15 KB/s) - `index.xml.1' saved [57677/57677]

早速So-netの仮アカウント(オイ・・・)で実験。。。いけました! <=問題点その3 クリア!!
次にGoogleSitemapのXML登録をば。
「XMLの再送信」→1時間後に確認すると・・・『サイトマップのステータス』⇒『OK』!!
しばらくすると、今までトップページくらいしかGoogleに登録されていなかったのが、
42ページ分もインデックスに載りました。=>http://www.google.com/search?q=site:kazuizm.com/&hl=ja
問題点その1もクリア!!

まさかルータ二重構造が原因だったとは。。
NetGearがよほどボトルネックになっていたのでしょうか。
しかもネットで検索してみると、NetGearというのはあまり評判が良くない。
特にこのNetGearの無線LANルータ(WRG614)というのは日本のプロバイダーの一部に対応していなかったりするようです。

さて、これで今の実家サーバのLAN構成は、サーバがDMZに置かれたような構成となりました。

しかし、現時点ではまだ問題点その2でコンテンツの内容の沿った日本語広告が表示されません。まだ他に何か原因があるのでしょうか。。単にGoogleAdsense側で時間がかかるのでしょうか。これについてももう少し調査するか、、いい加減疲れたけど。


それにしても今回、So-netの技術サポートやGoogleのサポートにしつこいほど質問をさせて頂きましたが、いずれの内容にもきちんと回答してくれて、感動しました!
やはりサポートのしっかりしている企業は一流企業ですよね。

コピペ用リンク

このエントリーのトラックバックURL:


このエントリーへのリンクURLを含むHTML:

同じカテゴリの記事

トラックバック

コメントを投稿



RSS

Add to goo
Add to google

はてなRSS
feedpath
Subscribe in Bloglines
Subscribe with livedoor Reader




Tag cloud

お勧め!