ヤフー株式会社

人はいつ「楽しい」や「つらい」と感じるのか?
~つぶやき分析で見えた感情の推移~

こんにちは、「Yahoo! JAPANビッグデータレポート」チームです。

Yahoo!検索(リアルタイム)」というサービスを知っていますか?
TwitterやFacebookに投稿された記事を検索することができ、リアルタイムの名の通り数秒前に投稿された記事の検索も可能。電車の運行情報はもちろん、テレビを見ながら視聴者の今の反応を調べられるなど、さまざまなシーンで活躍するおススメのサービスです。

さて、今回の「Yahoo! JAPANビッグデータレポート」では「Yahoo!検索(リアルタイム)」の元データとなっているTwitterに投稿されたツイート文(つぶやき)を24時間の軸で解析し、各時間帯によくつぶやかれる言葉から感情の推移を調べてみました。

ツイート文を解析する

最初に、ある1ヵ月間のツイート数の24時間推移を見てみましょう。(図1)

(図1)時間帯別総ツイート数

(2014年2月:各日の時間帯別総ツイート数を1カ月分プロット)

資料:
「Yahoo!検索(リアルタイム)」データ

ツイート数は早朝5時台ぐらいがもっとも少なく、時間の経過とともに数を増やしながらお昼の12時台に一旦のピークを迎えます。 その後、夜に向けて再び上昇し、22時台を頂点とする推移がもっとも一般的なサイクルとなるようです。

では、特定ワードのツイート量を見ることで日本人の感情や感覚の推移は可視化できるのでしょうか?
まず、日本人がもっとも疲れている時間を抽出すべく、単純に「疲れた」を含むツイート数の24時間推移を抽出してみました。(図2)

(図2)「疲れた」の時間帯別ツイート数

(2014年2月:各日の「疲れた」の時間帯別ツイート数を1ヶ月分プロット)

資料:
「Yahoo!検索(リアルタイム)」データ

すると、「疲れた」というワードを含んだツイート数自体は22時台がもっとも数が多くなりました。
しかし、図1の通りこれは全体のツイート量に影響された値であり、「疲れた」という言葉は22時台に代表される言葉かというと、そうとは言い切れません。
従って、24時間の各時間帯の総ツイート数に対して、「疲れた」を含むツイートの割合を求め、その推移をグラフにしてみたのが図3です。図としては大きく異なるパターンが見えてきます。

(図3)「疲れた」の時間帯別ツイート割合

(2014年2月:各日の「疲れた」の時間帯別ツイート割合を1ヶ月分プロット)

資料:
「Yahoo!検索(リアルタイム)」データ

こちらの推移でみると、「疲れた」のピークは17時台という結果となり、いかにも体の疲労がたまっているであろう時間帯を見出すことができました。また、早朝にも特徴的なピークが見られます。

そこで、同じ手法を用いてツイートに含まれる言葉を抽出・解析し、Twitterを利用する日本人の24時間の特徴をあぶりだす試みを実施しました。

ツイートの文章解析は以下の手法によって行いました。

  1. ツイート文から形態素解析(※)により抽出したワード(名詞および形容詞)と、ウェブ検索の検索数上位ワードから作成した辞書を組み合わせてワードリストを生成。

    そのリストを元に2014年2月の総ツイート文からワードを再抽出。
  2. そこで得られたワードそれぞれの各時間帯出現数を集計(その中でツイート数が少ないワードは削除)。
  3. 各時間帯の総ツイート数に占める各ワードを含んだツイート文の割合を計算し、各時間帯を代表するワードを選定。

(※)文章から意味のある単語などを自動抽出する技術

以上の工程を経て得られたデータを、この後分析していきます。

24時間の代表的なツイート

まずは、この手法によって抽出された、1日の各時間において、特にツイート割合が高い傾向にある言葉を上位からご紹介します。(表)

(表)時間帯別の気分ワード TOP5

(早朝~昼前)

(正午~夕方)

(夜~夜中)

(深夜~未明)

資料:
「Yahoo!検索(リアルタイム)」データ

予想通りの言葉や、ちょっと考えさせられるもの、まったく意味がわからないものなどさまざまな言葉が抽出されました。
これらの言葉は、1カ月のうちほぼすべての日で対象時間帯での比率が最も高くなる傾向にあり、まさにその時間帯を表す言葉だと言えます。

さまざまななワードの発生推移

次に、いくつかの「感覚」や「気分」に関するワードをピックアップして、1日の推移を見てみます。(図4~8)

(図4)苦痛系ワードの発生推移

資料:
「Yahoo!検索(リアルタイム)」データ

「もうだめ」や「ダメだ」などのネガティブ系ワードは2~4時台にピークとなることが多い傾向にあることがわかりました。(図4)

(図5)苦痛系ワードの発生推移

資料:
「Yahoo!検索(リアルタイム)」データ

「痛い」というワードに関しては意外と朝につぶやかれる傾向にありますが、「腰が痛い」や「足が痛い」など各部位を含むつぶやきまで広げると、1日の中でまったく推移が異なることがわかります。

(図6)ストレス系ワードの発生推移

資料:
「Yahoo!検索(リアルタイム)」データ

9時台に「緊張」が多いことも面白いデータですが、就寝時間帯はリラックスしているようにも見受けられます。
「臭い」はさまざまな時間帯によって対象が変わるようですが、1日でもっとも比率が高い8時台は主に通勤電車に関する内容でした。

(図7)開放系ワードの発生推移

資料:
「Yahoo!検索(リアルタイム)」データ

朝は「楽しく」のほか「頑張ろう」など、1日をポジティブに過ごそうという内容のツイートが増える傾向にあるようです。
「暇だ」に関しては10~11時台と13~14時台の二つの山が発生しており、一般的にもっとも暇といえる時間はこの辺りではないか、と推測できる興味深いグラフです。

(図8)プライベート系ワードの発生推移

資料:
「Yahoo!検索(リアルタイム)」データ

2~4時台はネガティブな言葉が多いという解説をしましたが、逆に23時台や0時台は「(笑)」のように楽しい感情を表すワードや、「ありがとう」「だいすき」といった感謝を表すワードも多く現れます。
「エロい」が2時台にピークというのは、納得感の高い結果だといえます。

ツイート分析で見えたこと

今回のツイート分析では上記のようなさまざまな発見がありました。ツイート文には検索キーワードやほかのデータからは表れにくい「気持ち」や「感情」、「情動」というような、ほかからは抽出が難しい貴重なデータがたくさん存在しています。
それをこのような形で分析することで、Twitterを利用している人の、1日の主な感情、感覚の動きを視覚化することができました。
また、ツイート文には行動に関する内容もあるため、そのデータを活用することによって、例えば19時にお風呂を沸かし、20時にお風呂に入るなど生活時間に関する抽出も可能となります。

今後、さらに分析を進めていき、新たな発見があれば報告していきたいと考えています。
引き続き「Yahoo! JAPANビッグデータレポート」をよろしくお願いいたします。