たけちゅさん宅

たけちゅが思ったこと、したこと、つれづれなるままに

続 暇な大学院生がツイート情報を確認してみた。

(これまでの話)
ツイッターにて「日本人の名前には99%、サ行か濁点が入っている」という情報を見た私。
さっそく身近なサンプリングとして、Lab.メンバーを調べてみたが、結果は99%に届かず。



では、実際にどの程度の確率でサ行か濁点が入るのか気になった。

そもそも日本語の文字のうち、サ行と濁点が占める割合はどの程度なのか。

サ行 さ、し、す、せ、そ
濁点 が、ぎ、ぐ、げ、ご、ざ、じ、ず、ぜ、ぞ、だ、ぢ、づ、で、ど、ば、び、ぶ、べ、ぼ

合計で25個だ。
ちなみに、あ~ん、まで(濁点・半濁点込みかつヤ行ワ行のイ・エ音を除く)で、71個ある。
つまり、サ行と濁点の割合は35.2%だった。


さて、試しに氏名6音の人の名前に1音でもサ行か濁点が入っている確率を、超単純な確率モデルで計算してみた。つまり、サ行or濁点である確率が0.352、そうでない確率が0.648であると考えて、反復試行的に計算してみた。

1-(サ行or濁点が6音にいっさい入らない確率)
=1-(0.648)^6
=0.926

つまり、93%の確率でサ行or濁点が入ることになる。

こんな感じで計算すると・・・。

2音 0.580
3音 0.728
4音 0.824
5音 0.886
6音 0.926
7音 0.952
8音 0.969
9音 0.980
10音 0.987
11音 0.992
12音 0.995


私のLab.(サンプリング数106)だと、0.726となった。
これは上のモデルでいけば、3音の人が1音でもサ行か濁点が入っている確率と同程度だった。


ここから、ある予測を立ててみた。

10^n人となる日本人サンプルに対して名前を調べると、(n+1)音の人が1音でもサ行か濁点が入っている確率と同程度になるのではないだろうか。ちなみに日本人の人口を1億(10^9)とすれば、10音の人が1音でもサ行か濁点が入っている確率0.987となり、ツイッター情報の99%に非常に近くなる。

ということは、モデル的には案外、ツイッター情報はデマではないかもしれない、と。