2ヶ月半ほど前にこんな記事(google suggest API(検索候補予測)について調べてみた)を書きました。以来ずっとgoogle suggestのAPIを叩きまくってDBに貯めていたんですが、せっかくなのでその結果を少しだけ見てみます。あと面白かった検索ワード群について。(いい話は一番下の方にあるのでそこだけ見たい人は下の方へどうぞ)
やったことのおさらい
「あ」から「ん」の一文字、「ああ」「あい」「あう」…「んん」までの日本語二文字までの範囲の全ての組合せで検索候補予測を1位から10位まで取っておきました。あとは「ガンダム」「三国志」「夫」「妻」などなど(後述)。それを2012/2/18から今までなので、約2ヶ月半。以下のようなデータになります。
id | query | registed_date | rank | data |
---|---|---|---|---|
1 | aa | 2012/2/18 23:11 | 0 | aaa |
2 | aa | 2012/2/18 23:11 | 1 | aa |
3 | aa | 2012/2/18 23:11 | 2 | aac |
4 | aa | 2012/2/18 23:11 | 3 | aa 一行 |
5 | aa | 2012/2/18 23:11 | 4 | aaa ブログ |
6 | aa | 2012/2/18 23:11 | 5 | aaa 歌詞 |
7 | aa | 2012/2/18 23:11 | 6 | ああ |
8 | aa | 2012/2/18 23:11 | 7 | ああっ女神さまっ |
9 | aa | 2012/2/18 23:11 | 8 | あああ |
10 | aa | 2012/2/18 23:11 | 9 | ああああ |
11 | ai | 2012/2/18 23:11 | 0 | 相棒 |
12 | ai | 2012/2/18 23:11 | 1 | aiko |
13 | ai | 2012/2/18 23:11 | 2 | ai |
… | … | … | … | … |
447801 | sato | 2012/3/10 0:06 | 0 | 佐藤かよ |
447802 | sato | 2012/3/10 0:06 | 1 | 佐藤亜美菜 |
447803 | sato | 2012/3/10 0:06 | 2 | 佐藤健 |
447804 | sato | 2012/3/10 0:06 | 3 | 佐藤ありさ |
447805 | sato | 2012/3/10 0:06 | 4 | 佐藤仁美 |
447806 | sato | 2012/3/10 0:06 | 5 | 佐藤利奈 |
447807 | sato | 2012/3/10 0:06 | 6 | 佐藤聡美 |
447808 | sato | 2012/3/10 0:06 | 7 | 佐藤すみれ |
447809 | sato | 2012/3/10 0:06 | 8 | 佐藤勝利 |
447810 | sato | 2012/3/10 0:06 | 9 | さと |
… | … | … | … | … |
828148 | yowo | 2012/3/27 0:09 | 7 | ヨヲコ |
828149 | yowo | 2012/3/27 0:09 | 8 | ヨヲコヲヨ |
828150 | yowo | 2012/3/27 0:09 | 9 | ヨヲコ ヲチ |
828151 | yon | 2012/3/27 0:09 | 0 | ヨンア |
828152 | yon | 2012/3/27 0:09 | 1 | ヨンパラ |
828153 | yon | 2012/3/27 0:09 | 2 | 米沢瑠美 |
828154 | yon | 2012/3/27 0:09 | 3 | ヨネックス |
828155 | yon | 2012/3/27 0:09 | 4 | 四文字熟語 |
828156 | yon | 2012/3/27 0:09 | 5 | 夜泣き |
828157 | yon | 2012/3/27 0:09 | 6 | 米澤円 |
828158 | yon | 2012/3/27 0:09 | 7 | 代永翼 |
828159 | yon | 2012/3/27 0:09 | 8 | youtube |
828160 | yon | 2012/3/27 0:09 | 9 | 世にも奇妙な物語 |
… | … | … | … | … |
意外とExcelでぐりぐり処理できる
ちなみにデータの並べ替えとかはノートPCのExcel2008で行数最大(1048576行=約105万行)使ったんですが、数秒で並び替えてくれます。意外と速い。。Excelすごいね。
検索候補予測の更新頻度
まず候補の更新頻度について。データをざっと見たところ、順位は以下のタイミングで書き換わっています。期間は2012/2/18から4/6までの間です。
- 2012/2/24
- 2012/2/28
- 2012/3/14
- 2012/3/16
- 2012/3/27
恐らく全ての検索候補が同じタイミングで全て書き換わっている(書き換わり得る)のだと思います。「a」で検索した際の「amazon」等は不動の一位ですが、2位や3位以降の検索結果では割と揺れ動いています。統計的に見てそうなると思いますが、順位が下のワードほど動きやすいです。
大体月に4回、週に1回のペースで更新されている?日付や曜日が読めないですが、基本は隔週で更新して、更新後の修正か何かを2, 3日後に入れてるって感じでしょうか。
季節を反映している(気がする)
知りたかったのは、時期によってどれだけ候補予測が変わるのかなーと言うことなんですが、季節を少しだけ反映している気がします。例えば以下は「hika」まで入力した場合の検索結果の中で「ヒカリエ」(渋谷に4/26にオープンした施設です)の順位の推移です。
id | query | registed_date | rank | data |
---|---|---|---|---|
12868 | hika | 2012/2/18 23:14 | 7 | ヒカリエ |
34138 | hika | 2012/2/19 0:07 | 7 | ヒカリエ |
55408 | hika | 2012/2/20 0:07 | 7 | ヒカリエ |
76688 | hika | 2012/2/21 0:08 | 7 | ヒカリエ |
97968 | hika | 2012/2/22 0:08 | 7 | ヒカリエ |
119248 | hika | 2012/2/23 0:07 | 7 | ヒカリエ |
541817 | hika | 2012/3/14 0:08 | 6 | ヒカリエ |
563397 | hika | 2012/3/15 0:08 | 6 | ヒカリエ |
584976 | hika | 2012/3/16 0:07 | 5 | ヒカリエ |
606556 | hika | 2012/3/17 0:08 | 5 | ヒカリエ |
628136 | hika | 2012/3/18 0:08 | 5 | ヒカリエ |
649716 | hika | 2012/3/19 0:08 | 5 | ヒカリエ |
671296 | hika | 2012/3/20 0:07 | 5 | ヒカリエ |
692876 | hika | 2012/3/21 0:08 | 5 | ヒカリエ |
714466 | hika | 2012/3/22 0:08 | 5 | ヒカリエ |
736056 | hika | 2012/3/23 0:07 | 5 | ヒカリエ |
757646 | hika | 2012/3/24 0:08 | 5 | ヒカリエ |
779236 | hika | 2012/3/25 0:07 | 5 | ヒカリエ |
800826 | hika | 2012/3/26 0:08 | 5 | ヒカリエ |
822415 | hika | 2012/3/27 0:08 | 4 | ヒカリエ |
844005 | hika | 2012/3/28 0:08 | 4 | ヒカリエ |
865595 | hika | 2012/3/29 0:08 | 4 | ヒカリエ |
887185 | hika | 2012/3/30 0:08 | 4 | ヒカリエ |
908775 | hika | 2012/3/31 0:08 | 4 | ヒカリエ |
930365 | hika | 2012/4/1 0:08 | 4 | ヒカリエ |
951955 | hika | 2012/4/2 0:08 | 4 | ヒカリエ |
973545 | hika | 2012/4/3 0:08 | 4 | ヒカリエ |
995135 | hika | 2012/4/4 0:08 | 4 | ヒカリエ |
1016725 | hika | 2012/4/5 0:07 | 4 | ヒカリエ |
1038315 | hika | 2012/4/6 0:08 | 4 | ヒカリエ |
オープンに向けて確実に順位が上がっていってます。ちなみに最新の5/2のデータでも4位でした。2/24〜3/13は順位外だったようです。
ちょっといい話
よく検索候補予測怖いよねって話で出て来るのが「妻」「夫」の検索結果。
id | query | registed_date | rank | data |
---|---|---|---|---|
127951 | 妻+ | 2012-02-23 00:09:55 | 0 | 妻 クリスマスプレゼント |
127952 | 妻+ | 2012-02-23 00:09:55 | 1 | 妻 プレゼント |
127953 | 妻+ | 2012-02-23 00:09:55 | 2 | 妻 呼び方 |
127954 | 妻+ | 2012-02-23 00:09:55 | 3 | 妻 離婚 |
127955 | 妻+ | 2012-02-23 00:09:55 | 4 | 妻 誕生日 |
id | query | registed_date | rank | data |
---|---|---|---|---|
127931 | 夫+ | 2012-02-23 00:09:54 | 0 | 夫 嫌い |
127932 | 夫+ | 2012-02-23 00:09:54 | 1 | 夫 彼 男友達 |
127933 | 夫+ | 2012-02-23 00:09:54 | 2 | 夫 呼び方 |
127934 | 夫+ | 2012-02-23 00:09:54 | 3 | 夫 英語 |
127935 | 夫+ | 2012-02-23 00:09:54 | 4 | 夫 小遣い |
旦那さんがプレゼント探してる間に、奥さんは「嫌い」とか言ってますよ!!なんと悲しい…。まぁ、この辺は有名な話なのですが。何がいい話かって言うと3/14頃のアップデートから以下のように予測が変わっていたのですよね。
id | query | registed_date | rank | data |
---|---|---|---|---|
550501 | 夫+ | 2012-03-14 00:10:40 | 0 | 夫 大好き |
550502 | 夫+ | 2012-03-14 00:10:40 | 1 | 夫 小遣い |
550503 | 夫+ | 2012-03-14 00:10:40 | 2 | 夫 英語 |
550504 | 夫+ | 2012-03-14 00:10:40 | 3 | 夫 呼び方 |
550505 | 夫+ | 2012-03-14 00:10:40 | 4 | 夫 うつ |
「嫌い」から一転「大好き」に!なんと言う奇跡…ホワイトデーのお返しなのかgoogleの粋な計らいなのか分かりませんが、とにかく世の家庭が円満になりそうないい話です。よかったよかった。
でも…
そう思ったのもつかの間。5/1現在はこんな感じ。
id | query | registed_date | rank | data |
---|---|---|---|---|
1586751 | 夫+ | 2012-05-01 00:11:14 | 0 | 夫 小遣い |
1586752 | 夫+ | 2012-05-01 00:11:14 | 1 | 夫 呼び方 |
1586753 | 夫+ | 2012-05-01 00:11:14 | 2 | 夫 英語 |
1586754 | 夫+ | 2012-05-01 00:11:14 | 3 | 夫 うつ |
1586755 | 夫+ | 2012-05-01 00:11:14 | 4 | 夫 死ね |
1586756 | 夫+ | 2012-05-01 00:11:14 | 5 | 夫 誕生日 サプライズ |
1586757 | 夫+ | 2012-05-01 00:11:14 | 6 | 夫 小遣い 相場 |
1586758 | 夫+ | 2012-05-01 00:11:14 | 7 | 夫 死んで |
今度は「死ね」とか「死んで」とか言われてます…
そして先ほどgoogleに「夫(半角スペース)」と入力したところ「夫 死ね」がまさかの一位に来ていました…。結婚するのが怖いです。そして結局全然いい話じゃないって言う…
まとめ
きょうのまとめ。
上記のような例はあるものの、ぱっと見た感じは思ったより変化がなかったのが残念です。基本的には1位〜5位なんかはほぼ固定していてあまり変わりませんでした。
恐らく入力1文字、2文字しか見ていないからでしょうね。もっと深い検索、例えば「NARUTO 5」まで入力して検索したりすると、時期によって「58巻」「59巻」「569」「571」(アニメの話数の通し番号です)等が新たに出て来たり消えたりして出て来ます。そのレベルで変化を見るとまた楽しいかも。
とりあえず今回貯めたデータの一部をアップしておきますので興味のある方はご覧くださいまし。変な検索ワードが入ってたり、一部重複してますのでお気を付けて。。検索クエリの「+」と言うのは半角スペースを付けて検索かける場合に付けています。
ダウンロードはこちら。10MBくらいあります。(2012/02/18〜04/06までのデータ。Excel2008で開ける上限行数。)
gs_result_sjis_20120218-20120406.zip
全部欲しい人はDBの中身ごと差し上げますのでコメントか何かでご連絡ください!