まちの専門家をさがせるWebガイド マイベストプロ神奈川
水野麻子

多言語に対応する特許翻訳者

水野麻子(みずのあさこ)

有限会社サグラーシェ

お電話での
お問い合わせ
0422-38-5035

コラム

Google「実」ヒット数の見分け方

訳語調べ&情報収集

2014年8月28日 / 2015年3月22日更新

Googleでの検索結果を利用して「言葉の使用頻度」などを確かめている人は、わりと多いと思います。
でも、検索して最初に表示される結果は「正味の数」ではないため、使用頻度を確かめるような用途では、正しい数を知る必要がありますよね。

たとえば、「急性リンパ芽球性白血病」という用語。
ダブルコーテーションで括ってフレーズ検索すると、現時点で約202,000件という結果がでます。
ところが・・・・

Googleは「似たページ」も検索結果に含むため、それらのコンテンツが重複カウントされてしまうのです。
この例だと、重複を抜いたヒット数は、実はわずか201件でした。

Google検索結果の実数は?

こうして重複を除くと、最後の検索結果のすぐ下に、「In order to show you the most relevant results, we have omitted some entries very similar to the 201 already displayed. If you like, you can repeat the search with the omitted results included. (最も的確な結果を表示するために、上の○件と似たページは除外されています。検索結果をすべて表示するには、ここから再検索してください)」と記載されています。

実際、単に「急性リンパ芽球性白血病」と検索しただけの場合には、手元の環境での検索結果の先頭は、同じサイトの類似ページでした。

検索結果

語句や表現の使用頻度を調べたいとき、こういうものが「ノイズ」として入ってしまうため、重複は削るほうが良いと思います。

具体的には、
1.検索結果の下にあるGooooooooogleというところで、2ページ目に進みます。
2.ブラウザに表示されたURLの末尾を見てください。最後に、
 &start=10
と書かれていると思います。
3.この10を990に直して、Enterキーを押します。
これで、重複を除くことができます。

start=10というのは、11件目から20件目までを表示していることを意味します。
Googleの仕様で最大1000件までしか検索結果を表示しないようになっているため、start=990は、991件から1000件目を表示せよという指示です。

1000件以上あれば、991~1000件目のページが表示されます。
一方、実数が1000件に満たないときは、上の例のように最終ページが表示されるのです。
結果として、重複を除くとどのくらいの数になるのか判断できるというわけです。

頻度調べに使っている方は、よろしければお試しを。

関連記事

Google翻訳で知る複合語
Googleの修正候補、正しいとは限らない

この記事を書いたプロ

水野麻子

水野麻子(みずのあさこ)

水野麻子プロのその他のコンテンツ

Share

水野麻子プロへの
お問い合わせ

マイベストプロを見た
と言うとスムーズです

お電話での
お問い合わせ
0422-38-5035

勧誘を目的とした営業行為の上記電話番号によるお問合せはお断りしております。

水野麻子

有限会社サグラーシェ

担当水野麻子(みずのあさこ)

地図・アクセス

水野麻子のソーシャルメディア

twitter
Twitter
2018-09-20
facebook
Facebook

水野麻子のソーシャルメディア

twitter
Twitter
2018-09-20
facebook
Facebook

水野麻子プロのその他のコンテンツ