全国の風俗店の店名を形態素解析したら人妻が最頻出単語だった
突然ですが全国の約15000店の風俗店を対象にして、店名を形態素解析してたら結構面白かったので記しておきます。
以下が「店名によく使われている単語TOP 50」の結果です。
回数|単語 874|人妻 367|女 292|妻 244|奥様 233|デリヘル 204|安 160|学園 159|娘 157|エステ 157|素人 144|専門 128|愛 117|回春 114|性感 113|ラブ 105|会 95|マッサージ 92|コレクション 89|風俗 87|美 85|熟 84|乳 84|痴 80|本店 78|美人 76|秘密 74|マダム 74|円 68|LOVE 68|特急 66|姫 64|花 63|彼女 62|Love 62|OL 62|in 62|アロマ 58|艶 57|ガール 56|ちゃん 56|女子 56|恋 56|最 56|淫乱 55|パラダイス 55|三 55|屋 54|ヘルス 54|ママ 53|たち
まずこの結果からわかるのは、
「人妻」が圧倒的によく使われているという点です。
2位の女という単語が367箇所なのに対して人妻は874箇所です。
全国約15000店のうち約5%の店舗に人妻が含まれていることは驚きです。
加えて、TOP5のうち1位3位4位が妻関連のワードであることも特筆すべきです。
風俗では既婚者キャラが人気なんですね。みんな不倫モノ大好きやん...。
2017年のPornohubの調査によると、日本人の人気検索ワードはteen・素人・人妻と続くとのことですが、風俗店名ではやや人妻が多すぎるのではという気もします。
そのほかにも熟・マダム・ママ・艷などなどベテラン感のあるワードが多いことからも風俗店名の傾向としては若さよりも経験が重視されているのかなという気がします。
風俗店風の店名生成
最後に風俗店名を形態素解析して様々な単語が手に入ったので、雑なランダム生成ですが風俗店風の店名生成をするコマンドラインツールを作りました。
店舗からのスクレイピング、スクレイピング結果の形態素解析、店名生成をまとめてコマンドラインツールにしています。
一例として、生成される店名を列挙すると、
Premium専科火遊び とにかくgrace魔女物語 ハイヒール保健ママ チュッパリップスSlam物語新橋 デリシャスマーマーレードヘルスセレクション本部 おいらん内緒READY教習所ALLAMANDA チアガールMART支店さいたま本舗 全裸エスBARシンドロームめちゃくちゃファイル母乳 アローナキングプリいく新大久保ちゃんこ SEXYGIRLSelectionブリリアントワイヴズおいしいポッキリパラダイス
こんな感じで少し順番も考慮したランダムなのでだいぶめちゃくちゃですが、たまに面白い店名が生成されます。
店名の生成はマルコフ連鎖使ったり、単語のクレンジングをもっとしっかりやることで精度があがると思いますが、途中で俺は何をやってるのだろう感が湧いてきてモチベーションが停滞したのでやってないです。
技術的にはgoroutineをふんだんに使ってテキスト処理する力がついた気がします。
15000行の店名が書かれたファイルの形態素解析・stop wordなどの除去・DBに保存の処理を、CPUをフルに使ってファイルの読み込み&テキスト処理のgoroutine化+DB保存をbulk insert化したことで2秒を切るくらいまで速くできました。
簡単に並列処理化できるGoの手軽さを実感できてよかったです。
最後に、こういう意見もありました。
客に人気があるからじゃなくて、それなりに年を取った風俗嬢がけっこう多いからという感じがしないこともない(´・_・`)
— ぷくろう (@Puku_Pukuro) March 16, 2018
風俗に行ったことがないので、そのへんの実際の嬢の年齢層とか肌感がよくわからないから詳しい分析はフィールドワーク経験のある人たちにまかせたいですね。
以上です。