中国発の新検索エンジン・百度(baidu.jp)はどうなの?
2008年01月25日12:22
何やら新しい検索エンジンが出現しているではありませんか。
名前は百度(baidu.jp)、読み方は「バイドゥ」らしい。
中国発の検索エンジンで、中国ではGoogle、Yahoo!をとっくに押しのけて、約7割のシェアを持つとか(マジですかw)。
2001年に始まってから7年で世界3位の検索にのぼりつめたとか(なんじゃその普及スピードは)。
そんなすごい検索エンジンが日本にやってきたとの事で、色々調べたり、使ってみたりしてみたいと思います。

とりあえず、早速使ってみました。



■トップページを見る

http://baidu.jp/

行ってみると、シンプルで洒落たトップページです。
検索ワードランキング、画像ランキング、動画ランキング、ブログ検索ランキングが並んでいます。
しかし、コレがすげえ。

更新ボタンを押すたびに、ほぼリアルタイム(?)で検索順位が入れ替わる!
何、この速さwww



■キーワード「アフィリエイト」で検索

百度 検索した結果、関連ウェブは約7,270,000件、0.001秒
Google アフィリエイト の検索結果 約 55,900,000 件中 1 - 10 件目 (0.05 秒)
Yahoo! アフィリエイト で検索した結果 1〜10件目 / 約303,000,000件 - 0.02秒

わかりにくいので、書き方を変えてみる。
百度は700万件検索するのに0.001秒。
Googleは700万件の7.85倍の5500万件を検索して、0.02秒。
Yahoo!は700万件の43.3倍の3億300万件を検索して、0.05秒。

うーん、どれがすごいのかよくわからない。
ただ、百度は速いのは速そうだ。
しかし、その反面、検索結果をざっくり削ってあるような。これからインデックス数は増えるかもしれないので、なんとも言えないですが。

念のため30分ほど後に、もう一回検索。
百度 検索した結果、関連ウェブは約7,290,000件、0.001秒検索結果
Google アフィリエイト の検索結果 約 57,700,000 件中 1 - 10 件目 (0.27 秒)
Yahoo! アフィリエイト で検索した結果 1〜10件目 / 約303,000,000件 - 0.01秒

Google検索結果が増えてえらく秒数が増えていますが、結果が出るまでの体感速度は変わらない。

ついでに、表示件数を100件にして検索。
百度 検索した結果、関連ウェブは約7,290,000件、0.050秒
Google アフィリエイト の検索結果 約 57,700,000 件中 1 - 100 件目 (0.10 秒)
Yahoo! アフィリエイト で検索した結果 1〜100件目 / 約303,000,000件 - 0.09秒


結論としては、秒数は検索結果表示までの時間にほとんど関係なさそう。自己申告だしwww

ですが、確かに百度の検索結果の表示は体感的には速いような気がします。



■当サイトを検索してみる

site:afiliate.livedoor.biz で検索した結果、関連ウェブは約1,640件、0.340秒
かなりの件数、インデックスされている。
しかし、「アフィリエイト」検索では500位圏外。
「ブログ」+「アフィリエイト」の複合検索でも160位。

これは、私にとっては今のところおすすめの検索エンジンとは言えないですね(笑)。

「ブログ」「アフィリエイト」検索



■日本語ドメイン、日本語URLには対応していない?

ちなみに「WordPress学習中(http://学習中.jp)」を調べてみた。
punyコードは、http:xn--fiq253ahp2a.jp/wordpress/

Google、Yahoo!では、「site:学習中.jp」で検索すると、検索結果が表示され、検索結果に表示されるURLは「学習中.jp」と表示されている。

「site:学習中.jp」検索

だが、百度で「site:学習中.jp」を検索しても、出て来ないです。

「site:学習中.jp」検索@百度

インデックスされていないだけかと思って、「http:xn--fiq253ahp2a.jp/wordpress/」で検索すると、ちゃんとWordPress学習中が出る。しかし、表示される結果のURLはpunyコード。

punycodeで検索@百度

他の日本語ドメイン、日本語URLも幾つか調べてみましたが、どうもアドレス内の日本語は認識されないようです



■エロに強いみたい

日本語ドメインが出てこないので、困りました。
試しに、punyコードで必ず出てくる「xn--」で検索してみました。
すると、エロサイトがずらっと出てくる。これはひどいwww。

エロに強いらしいと噂は聞きましたが、普通の検索結果にここまでエロの結果が出てくるようでは、青少年には薦められません。

エロをすばやく探したい人にはうってつけの検索エンジンかもしれませんが・・・



■他、百度関連のエントリを集めてみたよ。


百度、本気で日本の検索エンジン市場に参入する けど − 渡辺隆広のサーチエンジン情報館(CNET Japan)

とりあえず、「足あとがパンダだった」ことを知りました。百度が日本市場で本気に取り組むんだ、その意気込みは伝わりました。

おお、ロゴマークはパンダの足跡ですか。


中国の黒船「百度」を早速使ってみた。 − お笑いトークラジオ「REM更衣室」

似たような著作権侵害に繋がる機能を実装して日本撤退を余儀なくされたサイトに、
NAVER(ネイバー/韓国)

日本版(撤退):http://www.naver.co.jp/
韓国版(健在):http://www.naver.com/

があります。

NAVERも当初、鳴り物入りで上陸しましたが、やはり著作権侵害機能の一つ「スクラップ機能」「メディアリンク機能」(他サイトの動画をURLで勝手に引っ張ってこれる機能)を実装していたことで、問題となりました。

著作権がらみで撤退したサイトもあるんだ。これは注目。


中国当局、「百度日本」への中国からのアクセスを遮断か − INTERNET Watch

 百度日本では、画像検索でアダルトキーワードを入力すると、モザイクなしのそのものずばりの画像が出てしまう。中国では、そうしたアダルト画像などのWeb公開は政府によって禁止されており、中国内のサイトでは見ることができない。このため、中国内の利用者間で、百度日本で画像検索すればアダルト画像が見られることが広まり、百度日本にアクセスが殺到したという事情がある。

 実際、4月17日現在、Alexaでbaidu.jpのアクセスを調べてみると、アクセス元は日本(32.4%)よりも中国(61.6%)のほうが圧倒的に多いことがわかる。また、百度日本内のアクセス先も画像検索へのアクセスが76%を占め、メインであるはずのWeb検索(24%)をはるかに上回る利用実態が浮き彫りとなっている。

まさか中国の人々の人口が多いから、世界第3位のシェアということではないですよね。


「百度」日本語版が本格スタート 「わいせつ検索」威力は健在 − J-CASTニュース

07年3月の「百度」β版スタート時には、「画像検索」に、不適切な検索結果を制限するフィルタリング機能がついていなかったため、「わいせつ画像」などの画像がたやすく検索できる状態だった。そのため、日本のネットユーザーのあいだでは「エロユーザ狙いか」「すごい」といった声が上がり、「わいせつ画像」検索の「威力」について大きな話題になった。

その後、同社は07年10月にフィルタリング機能を追加したが、「ヤフー」、「グーグル」がデフォルト(初期設定)の状態でフィルタリングが設定されているのに対し、現在の「百度」の「画像検索」「動画検索」でも、デフォルトの状態でフィルタリングが設定されていないまま。同サービスの検索エンジンの技術の高さとあいまって、高速で「わいせつ画像」がヒットしてしまう有様だ。

同社の広報担当者は、J-CASTニュースに対し、「フィルタリング機能を付けているので、オンにするかオフにするかはユーザーの判断」と説明している。

青少年保護の観点から、フィルタオンを迫られそうですね。


中国最大手の検索サイト「百度」が日本で本格展開、その強みと弱点 − @IT

百度の総裁兼CEOのロビン・リー氏 百度の中国外の進出は日本が初めて。日本法人の百度株式会社が運営する。同社は2007年3月に日本向けのWeb検索サービスを開始。今回のリニューアルではWeb検索だけでなく、画像検索、動画検索、ブログ検索(ベータ版)を用意した。Googleなど多くの検索サイトが、サイトが外部からどれだけリンクされているかなどを基準に検索結果の順位を決めているのに対して、Baidu.jpは検索結果内のどのリンクをクリックしたかなど「ユーザー行動主体の評価」をベースにすると百度日本法人の取締役 舛田淳氏は説明した。「ダブルバイトの文字が持つ多義性を分析し、コンピュータに理解させることに成功した」と述べ、検索精度の高さと平均0.05秒という高速検索を強調。中国では、違法ファイルを含むMP3ファイルの検索機能が百度の成長を助けてきたといわれているが、舛田氏はこの考えを否定。「百度の成功は音楽検索だけでなく、高い検索精度があるからだ」と話した。

MP3ファイルの検索機能とエロが躍進の鍵であったかどうかという問題は置いておいても、検索精度は大事だと思う。
Yahoo!はトップページダウンペナルティがあるから、検索エンジンの役目を果たせていない。
現在では、とても使おうとは思えないアルゴリズムになっている感じがします。

百度は、高い精度を謳い文句にするなら、とりあえず「わいせつ画像」のフィルタリングはオンにしてから来て欲しいですね。
日本語ドメイン、日本語URLへの対応もやった方がいいんじゃないかと思います。
(してたら、ごめん)


「競合2社よりも精度の高い検索サイト」百度のロビン・リーCEO − INTERNET Watch

 舛田氏は、従来の検索エンジンについて、「以前はキーワードマッチングに力を入れていたが、スパムワードなどが増え、検索結果の順位が正常に機能しない例も出てきた。次に、サイトへのリンクを分析するハイパーリンク主体の評価アルゴリズムが主体になってきた。ただし、これもSEO対策などでやたらとリンクを増やす会社などがあり、意味がなくなっている」と説明する。

 これに対し、Baidu.jpでは、「ユーザーとともに成長する検索エンジンを目指す」という。「漢字などの2バイト文字は多義性がある。我々は2バイト文字での検索技術開発に注力しており、単にキーワード(字面)の一致を理解するだけでなく、キーワードの持つ意味を理解できる技術がある。また、Webページのプログラム構造を視覚的に分析して、サイトを評価している。さらに、ユーザーの行動プロセス(入力ワードやクリック)も分析する」と説明した。

「ユーザーとともに成長する検索エンジンを目指す」、この辺は評価したい部分です。


BaiduがGoogleを抜く方法 − 池田信夫 blog

ただし「キラー・アプリ」のMP3検索は、日本語版にはない。質問も当然そこに集中したが、「日本では日本の著作権法に従う」とのこと。「日本では検索エンジンそのものが違法なんですけど。 Yahoo!Japanもgooもサーバをアメリカに置いてるけど、著作権法は属地主義だから、事業所が日本にあると違法ですよ」と私がまぜかえすと、答に困っていた。「日本でうまく行く知恵はないか」というので、私が提案した思いつきは2つ:

* 日本語版でMP3検索サービスを始める:プロバイダ責任制限法で、著作権法違反を指摘されたら削除しなければならないが、ファイルを検索可能にすること自体は合法である(*)。MP3.comも、初期にはDMCAで合法だった。こういうサービスを始めれば、世界中のメディアが注目し、Napsterのように何も広告を出さなくても3000万ユーザーぐらい行くだろう。

* サーバだけでなく、日本向けサービス部門も中国に置いて日本語でMP3検索サービスを始める:これは、今のところ中国では合法だ。最高人民法院まで行ってどうなるかは、中国共産党の意向しだいだが、彼らがこれを合法化すれば、Baiduは愚かな著作権法のもとで営業せざるをえない欧米の検索エンジンに比べて、圧倒的な優位をもつ。権利者は許諾権を放棄する代わり、収益をシェアすればいいのだ(Baiduは現に中国でやっている)。

MP3などの著作権法に関する問題では、中国にサービス部門をおけば、圧倒的なアドバンテージを持つ事になるらしい。話が難しすぎてよくわからないが。


日本で検索エンジンが合法になる日 − [Z]ZAPAブロ〜グ2.0

検索エンジンによるサイトの表示が「編集」にあたるのか「引用」にあたるのかは、裁判でもしてみないとわからないような状況と言えそうです。

「検索エンジン自体が違法」というのは、微妙な問題みたいですね。


百度目の正直 − 404 Blog Not Found

baidu.jpのサーバーって、日本にあるんです。どうやって調べたか?これは読者の宿題にしときます。中国の鯖までわざわざアクセスしているのではないのは確か。

サーバーは日本にあるらしい。
WHOISではContact Informationくらいしかわかりませんでした。宿題難しすぎですw。
サーバーが日本にあるということは、著作権のアドバンテージを現在は放棄しているということらしい。


とりあえず、注目すべき新検索エンジン、百度(baidu.jp)

みなさまも、エロとMP3検索以外で、一度は触れてみられてはいかが?



<追記>

百度経由での当サイトの初めてのアクセスは、キーワード「パンダの足跡」検索でした。


百度からはじめてのアクセス