仮想と現実の真ん中あたり

主に舞台探訪とか聖地巡礼と呼ばれる記録をつづるブログ

『咲-Saki-』アカウントのフォロワー群分析

 『咲-Saki-クラスター』というモヤモヤとした集団に属している自分なわけですが、「モヤモヤしているのも何なので分析してみよう」と思い立ちました。
 大まかに考えてみれば、『咲-Saki-クラスター』は『咲-Saki-』ファンですから、原作者や作品のアカウントをフォローしているはず。ということで、手始めにTwitterの『咲-Saki-』関係のアカウントのフォロワー群の関係を調べてみることにしました。
 まぁ、Pythonのネットワーク分析ライブラリの"NetworkX"を使ってみたかったので、その練習がてらでもあります。

1.フォロワー数に見る『咲-Saki-』実写映画の効果

 『咲-Saki-』関連アカウント全体を調べる前に、以前から興味があったアニメ版と実写版の比較をしてみることにします。
 『咲-Saki-Twitterには公式アカが2つあり、アニメ版の『sakianime』(@SakiAnime)と実写映画の『【公式】『咲-Saki-阿知賀編』BD&DVD発売中!』(@saki_project)です。(いずれも2020年8月14日現在)
 コミックス版の公式アカウントは無いため、(作者でなく)作品としての公式アカウントは、現在この2つになります。
 プロフィール欄を見ると、アカウントの開始日はそれぞれ、
  @SakiAnime:2011年9月
  @saki_project:2016年8月
 となり、実写版の方が約5年ほど開設が後です。
 さて、アニメ版と実写版のフォロワー数はどうなっているのでしょうか? それを示したのが下図です。

f:id:USO9000:20200815112638p:plain
アニメ版と実写版のフォロワー数

 実写化は一般的にはあまり評判が良くないことが多いのですが、実写版『咲-Saki-』ではアニメ版の約半数に当たるフォロワー数を獲得していて、この点だけ見ても善戦している様子が分かります。
 さらに意外だったのは、両アカウントを共にフォローしているアカウントが、全フォロワー数のたった6.5%しかないこと。一方で、実写版のみのフォロワーが29.2%と約3割を占めています。この理由は主に、

  • 役者さんの元々のファンがフォローした
  • アニメ版放送終了約2年経っているため、その間に増えたファンがフォローした

の2つが考えられますが、いずれにしろTwitterのフォロワー数の分析結果から、実写版はアニメ版に対して約3割の新規ファンを増やしたことが分かりました。アニメ版『咲-Saki- 全国編』終了から約2年のブランクを埋めるように公開された実写版は、チャレンジングな試みにもかかわらず、成功だったと言えるのではないでしょうか?

2.『咲-Saki-』アカウントのフォロワー群分析

 では、『咲-Saki-』関連アカウントのフォロワー群を調べてみることにしましょう。
 『咲-Saki-』とそのスピンアウト作品,メディアミックス展開のアカウントは下記の通り。

関係者 Twitterアカウント 説明
小林立 先生 @ritzve 原作者
五十嵐あぐり 先生 @igarashi_aguri 『阿知賀編』,『シノハユ』作画
木吉紗 先生 @gyuniku 咲日和
めきめき 先生 @mekimekix 『怜-Toki-』,『まこメシ』
極楽院櫻子 先生 @gs_lockshow 咲-Saki- re:KING'S TILE DRAW』
大和田秀樹 先生 @hideki6809 『立 Ritz』
アニメ版『咲-Saki-』公式 @SakiAnime
小野学 @gaku3900 アニメ版監督
実写版『咲-Saki-』公式 @saki_project
小沼雄一 @OnumaYuichi 実写版監督

 これらのアカウントのフォロワーのIDをPythonでエイヤッと拾い上げ、フォロワーの集合を取得します。
 …ここまでは機械的に出来るのですが、これを処理するにあたって若干ややこしい話が出てくるのですが、とりあえず、各フォロワー集合の構成メンバーの重複度を計算してNetworkXに放り込んでみたのが次のグラフです。

f:id:USO9000:20200814190828p:plain
咲-Saki-』アカウントのフォロワー重複度(Dice係数)
 ここで各フォロワー集合間の距離は、構成メンバーの重複度合いをDice係数を用いた集合の類似度として示しています。
 Dice係数の説明は一旦置いておいて、このグラフを分析してみると…、
f:id:USO9000:20200815112237p:plain
咲-Saki-』アカウントのフォロワーの重複度(2)(Dice係数)

 小林立先生,五十嵐あぐり先生,木吉紗先生,めきめき先生をフォローするグループが比較的重複度が高いことが分かり、このクラスタは「コミック派」クラスターと呼んで良さそうです。
 一方でコミック作者のフォロワーの中でも、極楽院櫻子先生と大和田秀樹先生のフォロワーの重複度が低いのは、それぞれ『咲-Saki-』以外の元々の作品のファンが多いから、と考えるとうなづける結果です。
 中央のコミック派の周囲に、それぞれアニメ版公式と小野監督,実写版公式と小沼監督が位置しており、これも違和感ない結果となりました。

 …と、まぁ、納得感のある結果が得られたのでこれで終わっても良いのですが、以下、蛇足の補足です。
 「Dice係数」という用語が出ましたが、これはどういうものかというと、例えばアニメ公式と小林立先生のフォローワー集団の類似度を測る場合に、次のような手法で求めます。

f:id:USO9000:20200815175348p:plain
アニメ公式と立先生のフォロワーのDice係数計算方法

 ちなみに、先に「コミック派」クラスターと呼んだフォロワー集団群のDice係数の値を見てみるとこんな具合です。

  ritzve igarashi_aguri gyuniku mekimekix
ritzve 9.2% 17.6% 6.0%
igarashi_aguri 20.5% 19.9%
gyuniku 13.8%

 一番重複度が高い五十嵐あぐり先生-木吉紗先生の間でも20.5%となり、「意外とフォロワーがかぶってないんだな」という印象です。先のグラフは「微妙な差を拡大して見せている」と捉えてもらって良いでしょう。

 さて、集団の類似度を測る手法にはDice係数の外にもSimpson係数という手法があります。Simpson係数の計算方法はこんな感じです。

f:id:USO9000:20200815201121p:plain
アニメ公式と立先生のフォロワーのSimpson係数計算方法
   2つの手法で求めた結果を比較してみると、こんな差になります。

手法 アニメ公式と立先生のフォロワーの重複度
Dice係数 3.1%
Simpson係数 50.7%

 「同じ集団の重複度を測ったのに、片方は3.1%でもう片方が50.7%ってどういうことだ!?」と思われたかもしれませんが、これがデータ集約の怖いところ。大きなデータを小さな指標に集約するため、手法によって強調される情報に違いが出て来ます。
 今回の例で言えば、

  • Dice係数…アニメ公式のフォロワーで立先生をフォローしている人は少数派だから重複度は低い
  • Simpson係数…立先生のフォロワーの半分以上がアニメ公式をフォローしているのだから重複度は高い

という考え方の違いです。個人的には、大ざっぱに捉えて、

  • Dice係数…咲-Saki-ファンの中から見れば違う
  • Simpson係数…はたから見れば似てる

という考え方の違いかな?、と理解しました。
 このSimpson係数で『咲-Saki-』アカウントのフォロワーの重複度を測ると、こんな感じになります。

f:id:USO9000:20200815203708p:plain
咲-Saki-』アカウントのフォロワーの重複度(Simpson係数)

 Simpson係数の性質上、多数が所属する大きい集団ほど類似度が高くなりやすいため、アニメ公式と実写公式のフォロワー集団がDice係数よりも中心に近づいて来ます。これだと Dice係数よりも集団間の位置づけが読み取りにくいですね。

 最近はデータの視覚化が流行りですが、手法によって何の情報を見せようとするかが変わるため、分析者が何に着目して抽出しているのかを知ることが大切、というのが今回の結果から学べました。

3.参考資料

この記事を書くにあたり、下記のサイトを参考にさせていただきました。ありがとうございました。
* 【技術解説】集合の類似度(Jaccard係数,Dice係数,Simpson係数)
* [Python]NetworkXでQiitaのタグ関係図を描く
* その他、Pythonに関する有用な記事をWebに上げていただいている皆様