懲りない百度(Baidu)がまた日本語入力関連でやらかした件で

山本一郎です。自分でちゃんとケツの拭ける大人であり続けたいと思いました。

最近、身の回りでケツを拭かないのでクソまみれになっている企業家が増えたようにも思いますので。

ところで、中国最大手の検索サイトにして数々の不祥事でもその名を馳せる百度(Baidu)ですが、また何か良からぬことをやらかしたようであります。同社は昨年末も日本語入力ソフト(IME)を使って日本の企業等から不正にデータ収集していた疑惑が指摘されたばかりでして、その辺りの経緯は拙ブログの過去記事を読んでいただければと思います。

また百度(baidu)が日本語入力ソフトの件でやってくれたようです

で、本当に懲りないというか、全く反省という言葉を知らないのでしょうか。今回は顔文字検索アプリ「みんなの顔文字辞典」等のサービスを提供する開発者のサーバーに対して、百度のIPアドレスから事実上のDoS攻撃と見なせるような不審なアクセスが行われ、開発者の方がそのあまりの酷さからTwitterを通じて公開質問状のような形で百度側に問い合わせたことから事態が明らかになりました。

.@Simeji_jp 昨日19時頃バイドゥのIPアドレスから短時間のうちに30万回を超える不審なアクセスが弊社のサービスにありました。繋がりづらくなり利用者の方に大きな迷惑がかかりました。DoS攻撃として被害届を出すことも検討してます。アクセスの意図など早急に説明をお願いします

出典:Mitsuaki Ishimoto

この問い合わせに端を発した開発者側と百度側のTwitter上でのやりとりは、Togetterまとめで参照することができます。

いろいろアレな感じのbaidu JAPAN
いろいろアレな感じのbaidu JAPAN

バイドゥのIPアドレスから短時間のうちに30万回を超える不審なアクセス(Togetterまとめ)

残念ながら、開発者側で納得できるような回答は百度側からは提示されずに現時点に至っていることが分かります。興味深いのは、このやりとりから百度がどういう形で不審なアクセスをしていたのかが開示されているところです。

.@Simeji_jp つまり御社のクローラーは公式サイトに記載はない、UAはPython-urllib/2.7。robots.txtは無視し、アプリの内部や通信経路からURLを取り出し、1秒間に10~100回アクセス。毎回IPを変え、不審な動作をするという公式回答でいいんですか

出典:Mitsuaki Ishimoto

Web系エンジニアにとってみればかなり初歩的な知識になりますが、ここで出てくる「robots.txt」というのは、Google等に代表されるロボット型検索エンジンに対して、このサイトは検索してデータベースに登録しないでくださいと命じるための宣言文です。通常、この明示があればサイト内をクロールしないのがネットでのエチケットですが、当然ながら悪意のある輩であればそれを無視して検索することもあり得るわけでして、今回問題となっている百度のクローラー(検索ロボット)はそこを無視したということになります。robots.txtについては、百度のサイトになぜか詳しい解説があるので非常に参考になります(棒)。

Robots.txtとは(百度)

検索エンジンは、robots(またはspider)と呼ばれるプログラムが自動的にインター ネットのサイトにアクセスし、ページの情報をクローリングするものです。サイトに robots.txtというテキストファイルを作成し、このファイルに検索エンジンにクロー リングされたくないサイトの部分を明記すると、検索エンジンは該当部分の内容を クローリングしないようにします。また、robots.txtのCrawl-delayフィールドにより、 Baiduspiderのクローリングの頻度を制限する事が可能です。

出典:百度

また、クローラーが毎回IPを変えていたのは、単純なアクセスブロックをかわす目的があったのではないかと疑われます。

で、今回の件がさらに悪質だと感じるのは、件のサーバーへ百度が不正アクセスを行う際に使った検索キーが、百度の日本語入力アプリを利用しているユーザーの入力ログをそのまま生で使っている可能性が見られる点です。

バイドゥ社が顔文字辞典サーバーに不正なアクセスを行い情報を不正に取得しようした際、バイドゥ社が使った検索キー

上記リストはあくまでも今回使われた検索キーの一部ということですが、百度の日本語入力アプリで変換したテキスト全文がこうした情報収集などの用途にそのまま利用されている疑いがありますし、個人情報など入力すればそれらもダダ漏れとなっている最悪の事態も想定する必要があるかもしれません。

開発者の方のその後のツイートではFacebookを通じても百度側から連絡があったようですが、いずれにしても不正行為があったことを釈明する形にはなっていません。

@chun_ryo DMでは「Simejiの開発チームの語彙収集部門で運用しているクローラ」、中の人からFBで「顔文字調査目的でChromeのDevtoolから取得した」と返答があったので組織的決定も否定できないのかなと…何より回答に食い違いがあって不信感が募りますが

出典:Mitsuaki Ishimoto

しばらくは成り行きを静観したいところですが、百度側の対応がすっきりしない現状をもってするとやはりクロという印象が拭えません。百度に買収されてしまったAndroid用日本語変換アプリの「Simeji」はAndroid黎明期において多くのユーザーから愛された名アプリでした。それだけに今回のような事態は非常に残念ですが、やはりセキュリティやプライバシーの面を鑑みれば、利用を差し控えるのが懸命であると判断せざるを得ません。

なお、百度の不自然な日本語検索結果についても興味深く情勢を見守っております。やはり、百度は然るべきケツの拭き方についてしっかりと考えるべきではないでしょうか。ここは日本ですんで。