Twitterのとあるレスから、なろうの民度について議論されていたため、私なりの見解を述べます。
結論はタイトルに書かれている通り、なろうとハーメルンの民度は同じ、ただハーメルンのほうが感想が付く可能性が高い、ということでした。以下なぜそういう結論に至ったかさくっと解説します。
概要
民度をはかるために
- ①投稿された小説をランダムに選び、一番最新の感想1つを「肯定的な感想(よい)」「どちらともいえない」「否定的な感想(わるい)」に分ける
- ①を1000回繰り返して集計し、統計的手法から分析する
ということを行いました。以下がそのグラフです。
各項目1000件、合計4000件調べた結果、上記の通りになりました(最近とは、直近5年以内に新しく投稿された小説のみを抽出したものです)
グラフを見た感じ、さほど変わりがないのが分かるでしょうか?実際、なろうとハーメルンでそれぞれ比較するために検定を行いましたが「たいして変わりがない」という結果になりました。
以上より「民度は変わりない」という結果となります。
民度は変わらなかったけど……
さて、上記の結果は「書かれている感想には大差がなかった」ことは分かったんですが調べているうちに、不随して他のことも分かりました。
それは「感想なし」の数の違いです。「感想なし」というデータを含めたグラフが以下です。
ハーメルンに比べて、小説家になろうの「感想なし」の多さが目立ちます。
作者にとって「感想なし」は「否定的な意見」よりもつらいのではないでしょうか。よって「感想なし」を「否定的な意見(わるい)」よりも悪い評価値として再計算しました。
グラフからも分かりますが、統計的にも「ハーメルンと小説家になろうのグラフに差がある」つまり「なろうよりハーメルンのほうが感想がつきやすい・よい」という結論を得ました。
結論から考察する
統計では常に「鶏が先か、卵が先か」を考えなければなりません。これは因果関係について疑ったほうがよいということです。
今回「なろうの読者はハーメルンの読者よりも感想をつけない」ということは事実ですが、だからといってなろう読者よりハーメルン読者のほうが優れていると言えるでしょうか?
私はそうは思いません。なぜかというと「ハーメルンは二次創作を含んでいるため、なろうよりも作品を受け入れてもらえる確率が高い」ということが有り得ます。原作が好きな人は、その二次創作も楽しみ、感想も書いてくれそうじゃないですか?
なろうはオリジナルのみですから、まず興味・関心を持ってもらうハードルが高いです。興味・関心を持ってくれさえすれば、母数が多いため爆発的に感想を投げてくれますが、そもそも投げてくれるまでのハードルが高いです。
つまり「作品」が読者の好みにマッチしやすいのがハーメルンなだけであって、決して読者が優れているというわけではないと考えられます。
ある意味私は、至極当然のことを再調査していた・補強していた、とも言えます。
(8月13日追記)コメントにてあすぱら様がハーメルンのオリジナル小説についてスクレイピングしてくださいました。
その結果を受けて、上記同様に検定を行い「ハーメルンのほうが確実に感想が付きやすい」ということが真に証明されました。あすぱら様、ありがとうございました。
蛇足・補足
以下、蛇足や補足など、読まなくてもよいものが多いです。また、技術的に難しい部分があるため、興味の無い方は見ないほうが良いと思います。
バイアスについて
バイアスとは「偏り」「先入観」のことでして、今回の場合は「感想の抽出方法による偏り」のことです。
今回行った調査は、多くのバイアスがかかっていますので、蛇足ですが解説します。
自己選択バイアス
「なろうユーザー全体」は2つに分類されます。「感想を書く人」と「感想を書かない人」です。
今回、感想を抽出してきましたが、これは「なろうユーザーのうち、感想を書いてくれる人」の感想にすぎません。つまり「なろうユーザー全体」の感想ではありません。
もし「なろうユーザー全体の民度」を調査したいのであれば、ユーザー全体からランダムに選択して、その人にランダムに選んだ小説を見せ「この小説の感想を教えてください」と調査しなければなりません。
感想を書くようなユーザーは熱心なユーザーだけであり、このように抽出が特定の個人・集団に偏ってしまうことを「自己選択バイアス」と呼びます。
本来であればこのようなバイアスが目立つ調査はよくないんですが、私は今回に関しては問題ないと思っています。
なぜなら「なろうという場の民度」が知りたいのであって「なろうユーザー全体の民度」が知りたいわけではないからです。「なろうという場の民度」は、なろうで活動している人の間で生じるものであり、活動していない人を調査しても何も出てきません。
またもし仮にユーザー全体を評価したいというのであれば「無言」を調査項目に入れてもいいですよね。それなら「感想なし」を評価に入れた上記の調査で十分です。
よって自己選択バイアスに関しては問題ないと言えるでしょう。
生存者バイアス
私はなろう運営でもハーメルン運営でもないため、今回の調査で「削除された小説の感想」まで見ることができません。
本来であれば「削除された小説の感想」も民度に深くかかわってくるはずです(削除された小説のほうが罵詈雑言が多いと想像できるため)
こうした「生き残った者・事柄」しか評価していないことを「生存者バイアス」と呼びます。
しかも両サイトとも半分は小説を削除済みとのことで、相当なバイアスがかかっていると言えます。
コンビニエンス・サンプリング
最初に抽出方法として『投稿された小説をランダムに選び、一番最新の感想1つを抽出する』と書きましたが、これは厳密には不正確な抽出方法です。
本来であれば「感想全体」から抽出するのが望ましい方法です。私が取った方法は、ある小説に感想が500件も載っているのに、それらを1件の感想として圧縮しているような方法です。これは抽出方法としてあまり望ましくありません。
ただ感想500件を真面目に評価していると、選んだ小説によって逆にバイアスが生じてしまうと考えられました。
つまり炎上している小説をたまたま選んでしまい500件悪い感想がついている可能性や、逆に素晴らしい小説ですべて良い感想がついている可能性がありました。
1万件、10万件評価すればこの可能性は無視していいんですが、今回1000件の調査で相当大変だったので、これ以上抽出数を増やしたくありません。
ただ私が調査を楽にするために、このような抽出方法にしました。調査者が楽をするために歪めてしまうことを「コンビニエンス・サンプリング」と呼びます。今回このバイアスもかかってます。
バイアスを回避することは不可能
そもそもバイアスはある程度起こります。大小だけが問題です。
私のできる範囲内で最大限、バイアスを回避したつもりなので許してください。
無作為抽出の方法
「どうやってランダムに小説を選び出したの?」「1000件もどうやって調べたの?」と疑問に思われる方や、追調査したい方、統計的手法で分析したい方のために補足します。
小説家になろう
作品URLの末尾に「Nコード」という小説ごとに割り振られる一意のコードと数値があります。
最近の日付のNコードを取得します。私がこの分析をはじめだした二日前くらいの数値が2169862でしたため、1から2169862までの乱数を発生させればランダム抽出できます。
ハーメルン
なろうより単純で、作品URLの末尾に数値があります。2日前の最大の値が322895でしたため、1から322895までの乱数を発生させればランダム抽出できます。
ランダムに得られたURLから感想を抽出する
小説家になろう
なろうには「なろうAPI」という小説家になろうを解析するためのAPIが公開されています。
URL記載の作品が実在するかどうか判定し、感想数を取得できる「impression_cnt」という変数が用意されているため、この値を見て「感想があるか・ないか」を判断します。
感想があれば、感想欄を見に行きます。スクレイピングではよく出てくるBeautifulSoupを使ってdivタグの”waku”というクラスに感想が書かれているため、この”waku”クラスだけを保存します。
ハーメルン
ハーメルンはAPIを特に公開していないため、通常のスクレイピング作業となります。
禁止事項として「サイトに過度の負荷をかける行為(F5キー連打 活動報告を利用したチャット ツール使用など)」があるため、実行速度には気を付けてください(そもそもスクレイピングするなら絶対に気にしないとダメ)
URLにアクセスした際「投稿者が削除、もしくは間違ったアドレスを指定しています」「この作品は完全非公開設定です」「作者がお気に入り登録しているユーザのみ閲覧可能です」の3つの場合、その小説は閲覧できません。パスしましょう(運営対応済みのものもあるはずだが文面表記が分からなかった)
もし作品が実在するなら感想欄に飛びます。divタグのクラス”section3″に感想が記述されているため、取得して保存します。
あとは人力で評価する
得られた感想文を読んでいき「肯定的」「どちらともいえない」「否定的」な意見かどうか入力していきます。
統計的手法について
データが得られたため、統計的手法を取ることができます。
今回は「なろうとハーメルンの民度に差がある」を言いたかったので「民度に差がない」を仮定して矛盾を導き出します。
「肯定的意見を3」「どちらともいえないを2」「否定的意見を1」と数値を勝手に割り振ったのは私であるため、この数値はただ順序を表しているだけと言えます。そのため順序尺度として検定します。
今回、なろうとハーメルンで分散が違うことが想定されたため、ウィルコクソンの順位和検定ではなくBrunner-Munzel検定を使いました。結果、特に有意差は認められませんでした。
また私も知りませんでしたが、選択式の問題で正規性を仮定して検定する場合もあるようです。そのためt検定も行っています。これも特に有意差は認められませんでした。
終わりに
以上、ここまでお読みいただきありがとうございました。私自身も勉強になり、面白かったです。
インスピレーションを掻き立ててくれたtwitterの皆様、特になろうファンDB管理人様とかなえ様には深く感謝を申し上げます。
参考文献
データ収集するにあたって以下のホームページを参考にしました。ありがとうございました。
なろうのNコード生成のアルゴリズムについて
検定を行うにあたって以下のホームページを参考にしました。ありがとうございました。
択一式選択肢の問題を順序尺度にすべきかどうか
今回のような順序尺度の際、どういった検定量が必要かどうか
pythonでの計算の仕方
コメント
私も民度については大して変わらないという印象ですが、感想欄を見た際の印象はかなり異なりますね
ハーメルンの感想はgoodとbadで読者同士の評価がある、badが多くなると隠されるというのもあってか支持層を獲得すれば良くも悪くも自治が始まるので居心地は良くなりやすい(ただし荒れると読者同士の殴り合いになる)
あとなろうの場合はコメント欄が良い点と気になる点(と一言)という強調があるので読者は気軽に書き込みにくい、作者さんによっては結構きついと感じるコメントが飛びがちな印象も……
コメントありがとうございます。
今回検証するにあたり極力主観を省きたかったので明示しませんでしたが、仰る通り、感想文の傾向は違っていたと感じました。
ハーメルンは作品に対する言及が多く、どういった展開になるか、どう物語が進むのかを楽しみにされている方が多い印象を受けました。逆に言うと、展開が気に入らなければ批判的なコメントになっていることもありました。
一方なろうは、コメント欄に元から良い点や気になる点があるため、肯定的なことと批判的なこと、両方書いているコメントがハーメルンに比べ多かったです。
感覚的にはハーメルンのほうが優しいのでは……?と思っていたんですが、データには現れなかったです。私自身ハーメルンひいきであるため、私の主観だったのかもしれません。
貴重なご意見、ありがとうございました。
統計のことはまったくわからないのですが気になった点を述べます。
1
『投稿された小説をランダムに選び、一番最新の感想1つを抽出する』という抽出方法ですが、これでは感想を書いた読者が「スコッパー」である確率が、ユーザー全体の割合よりかなり大きくなりユーザ全体の代表者にはなっていないのではなかと思いました。
民度という概念を「ユーザ全体の辛口コメ常連読者率」みたいに定義すれば、この抽出方法では求められないのでは。
民度という概念を「一般作者が辛口コメ常連読者に出くわす確率」みたいに定義すれば、この抽出方法でも問題なさそう。
そして、
「一般読者/ランカー読者層」にとっては体感民度が前者の定義、
「スコッパー/一般作者層」にとって体感民度は後者の定義、に近くなるんじゃないか。
というわけで、「どの層から見える民度なのか」という点に触れるべきじゃないかなと考えます。
2
「ハメは二次創作が多いから感想つきやすい」仮説がありますが、ハーメルンのオリジナルだけ抽出して比較すれば結論を出せるはずなので、やるかは横に置くとして「今後の課題」的な節があっても良いんじゃないかと思いました。
また、自分はこの仮説には否定的な予想、少なくとも決定的な要因ではないのではという予想を立てていて
自分の仮説は、
・ハーメルンは日間ランキングの計算式が特殊で流動性がなろうより高いため、より多くの作品が読者の目に止まる。
・Good評価が嬉しくて面白い感想を書こうとする人が増える。面白い感想を見て自分も面白い感想を書きたいという人が増える(ちなみにハーメルンの感想欄はランキングよりPVが多いというデータがあります)。
・純粋に投稿数が少ないからスコッパーが活躍しやすい(全数チェックも不可能ではない)。
この辺の複合じゃないかなというものです。
最後に、めっちゃ大変だったと思います。お疲れ様でした。
ハーメルンのオリジナル作品に感想が付きやすいかは、スクレイピングだけで解決するので大した手間じゃないなと気づいたので、自分もざっくり集計してみました。
ハーメルンから新規投稿が早い順で10,000作品ほどのデータをスクレイピングして、
同期間(2019年7月から現在)に投稿されたなろう作品の中からランダムで、同じく10,000作品をAPIからデータ取りました。(エッセイジャンルはハーメルンでは規約違反なので除外)
話数や文字数が感想数に影響するのは明らかなので、全体のほかカクヨムの文字数基準で4分類に分けて集計もしてみました。
結果
なろう:全体:28.2%, 短編:23.1% (7573), 中編:32.2% (1424), 長編:61.2% (1003), 大長編:79.5% (127)
ハーメルン:全体:40.0%, 短編:27.7% (6799), 中編:60.3% (2073), 長編:76.5% (1128), 大長編:93.6% (141)
(カッコ内はサンプルサイズ)
あまり自分が理解してない数学は使いたくないので検定はやってませんが
まあ、だいたい「二次創作だから感想付きやすいという効果はありそうだけど、オリジナルだけでもハーメルンは感想付きやすい。特に中編は大きく差がつく」くらいの結論はざっくり出せるんじゃないでしょうか。
感想を数字で評価するという試みはあまり見たことが無く、興味深く読ませていただきました。ありがとうございます。
「肯定的な感想」である場合は民度が高く、「否定的な感想」である場合は民度が低いという評価基準をとられていると思います。
ここで言う「肯定的な感想」というのは、作品内容に対して好意的な感想(良い評価)をしているという意味でしょうか(記事を見ていても、「肯定的な感想」の具体例が見つからなかったので…見落としていたら、申し訳ありません。)。
もしそうだとすると、すなわち、「作品内容に対して好意的な感想をしない=民度が低い」という前提を取られているとすると、「民度」という表現が正しいのかなと思いました。
極端な例になりますが、人種差別表現が含まれる作品について、その点を否定する(好意的でない)感想があることをもって「民度が低い」と評価することは、適当ではないように思われます。また、逆に、例えば、対象の作品には好意的であるものの、他の作品や作者を誹謗中傷するような感想は、「民度が高い」とは言えないように思われます。
文中で「罵詈雑言」という表現を用いられていますが、「民度」を測るとすれば、例えば、罵詈雑言や誹謗中傷に相当する感想の有無・量で測ることの方が相当ではないかと考えました。
あすぱら様へ
追調査、ありがとうございます!実は私はスクレイピングのほうが自信がなく、今回の記事も危うげにやっていたんですが、非常に気になる点をやってくださり、本当に嬉しいです!
改めて検定のほうもやってみた結果(やらなくてもわかるくらいの差異ですが)有意差がはっきりと出ていました!
同時にかるぱす様が調査してくださった感想数も追記として載せさせていただきました!本当にありがとうございます!
また、文字数で変化があるのは興味深いところですね……短編ではそこまで変わらないのに、中編からぐっと割合が高くなっているのは何でしょうか。中編くらい書けばハーメルンでは評価してくれるという意味なんでしょうか。
匿名様へ
大変興味深いご指摘、ありがとうございます。
本調査で具体的に「肯定的な感想」「否定的な感想」の区別は記述しませんでした。原則として
「肯定的な感想」は「作品内容・作者に対して肯定的な感想・もしくは作品をよく語り熱中してるかのような感想」
「どちらともいえない感想」は「作品のミス、欠点を理性的に指摘・良い感想と悪い感想両方書かれてある・解読不能」
「否定的な感想」は「侮蔑的・作品のミス、欠点を攻撃的に指摘・不快」
に分けています。そのため作品内容に好意的な感想をしない場合は「どちらともいえない感想」か「否定的な感想」のどちらかに分けました。
またどうしてもどれに区分されるか判断に困るものもあり、判断基準は完全に私に依存しております。
上記を前提に
①人種差別的な表現が使われている小説に対する感想は否定的であるべきであり、プラス評価にすべき
②対称の作品では肯定的であるものの、他作品では攻撃的な場合そのユーザの民度は低く見積もるべき
③罵詈雑言や誹謗中傷に相当する感想の有無・量で測るべき
というご指摘(違ったニュアンスならごめんなさい)かと思われますので各自こたえたいと思います。
①について
人種差別的な表現が使われている小説が称賛されるべきではない、というのはご指摘通りだと思います。ただその小説を感想で叩くというのも違うと思われます。黙って通報・理性的に諭す、が倫理的に正しいのではないでしょうか。この「理性的に諭す」場合を「肯定的な感想」に入れるべきだと思われますが、今回そうはしていません(感想に紐づいている小説は一切見ていません)ので「どちらともいえない」に入っているかと思われます。そういう意味では少し手抜かりがあります。
②について
感想をランダムに抽出しておりますので、それらユーザのことも結果的に評価している形になっています。
例えば褒めた感想と貶した感想を1つずつ投稿したとします。感想をランダムに選んでおりますので、それらが選ばれる確率は等確率です(どちらも採用する可能性もあるし、どちらも非採用の可能性もある)一般化すると、誉めた感想数と貶した感想数の比で測っていることになります。
③について
今回「1:否定的な感想」を付けた感想は、罵詈雑言・誹謗中傷等・作者が傷つくと確信できる感想です。そのため1の数が罵詈雑言・誹謗中傷に相当する感想になっています。
その情報に加え「肯定的な感想」「どちらともいえない感想」を混ぜた評価の仕方になっています。
今回できるだけフェアにデータを取ったつもりですが、取り切れていない部分があるのはご指摘通りで、記事内でも書かれている通り、間違いないです。
ただ誤差がもしあったとしてもそこまで大きくなく、グラフの形はなろうとハーメルンで相当違うため、結論は変わりないかと思われます。
あすぱら様へ(追記)
一方のコメントをwordpressがスパム扱いしており、消されておりました。申し訳ございませんでした。復活させましたのでお許しください。ご指摘①②について返答致します。
①『投稿された小説をランダムに選び、一番最新の感想1つを抽出する』という抽出法が、偏った抽出法であるということは記事内で説明した通り、炎上小説をたまたまピックアップした際、少ないサンプル数だと偏ってしまうということをきらってこのように抽出致しました。また、サンプル数を減らし感想を3段階で評価するのを楽にするためそう致しました。
結果「感想を書いた読者が「スコッパー・著者兼読者」である確率」がこの抽出法で上がってしまうというのは、事実だと思います。確かに、感想数1の小説についた感想一つと、感想数1000の小説についた感想一つ、では前者がスコッパー・著者兼読者だという可能性を上げていると思われます。「ユーザ全体の感想」を無作為抽出しきっていないので、厳密にはあすぱら様がいう後者の定義に近いということは間違いありません。
一方、どこまでスコッパー・著者兼読者率が上がっているのかは未知ゆえ何とも言い難いです。本当にスコッパー・著者兼読者の視点なのか、読者視点なのか、はたまた結果的にうまくいっているのか。どの層から見える民度かどうかも言い難い気がします。
この件で誤謬があるとするならば3段階評価の方法についてであって、もしかすると影響するかもしれません。
ただ結論に変わりはないと考えます。最初に行った調査、感想なしを省いた調査、ノンパラメトリック検定にてp-valueの値が0.29と出てるんです。これはかなり高めの数値でして、この値が0.05未満になれば「統計的に有意」と言えます。少々データが変わったところで、0.05には届かないと思われますので「統計的に有意ではない」つまり今回の結果と同じとなります(t検定は足掻きでやったもので、こちらはp-valueの値が0.24と0.05だけ低いんですが、私はこの適当に割り振った数字に正規性が見られるとは思っていないので除外)
②ハーメルンのオリジナルのみを抽出すれば検証できる、ということを記事執筆当時思いつきませんでした。書かれた感想の傾向に大した差がなく、やや落胆していたこともあったかもしれません。twitter内で指摘された方がいらっしゃってようやく思いつきました。ひとえに私の落ち度であります。申し訳ありません。
本文に追記されるとは思ってなかったので、どうでもいいことですが自分が雑に書いちゃったところを補足しておくと
短編、中編、長編、大長編はカクヨムさんの2万文字以内、2万文字から10万文字、10万文字以上、50万文字以上に準拠したので全く排反ではありません。とくに大長編は長編の部分集合になってます。そんなわけで取得した作品数はなろうもハーメルンも10,000作品です。
ハーメルンは2019年7月頃から現在までの全数、なろうは2019年7月頃からのランダム抽出で10,000件。
(あと、失礼とかそんな話じゃないのでまったく気にしなくて大丈夫ですが、「かるぱす」は誤字でしょうか)
> 私はスクレイピングのほうが自信がなく、今回の記事も危うげにやっていた
私も似たようなもんです。
あすぱら様へ
補足ありがとうございます。また、名前を間違えてしまい申し訳ありません。
やってくださったことが嬉しく派手に記事を書きすぎました。少し抑えめに直しました。