BERTによる感情分析 & シーン認識

近況

期末試験&面接という怒涛の１週間が終わりました_:(´ཀ`」 ∠):

「現在の環境にあわせたBGMを再生して、日常を彩る(ゲームやアニメの世界)」という昔からの夢の一つを叶えるアプリをカメラによるシーン認識と最適な音楽の選定で実現できるかも？

BERTによる感情分析

音楽を「どんなシーン・精神状態・環境で聴きたいか」を決めるには、さまざまな方法が考えられりゅ。

再生したタイミングに近い音楽のテンポ・歌詞・ジャンルから似たものを採択
ユーザのフィジカルデータの推移を評価指標に(緊張状態を緩和する音楽の特徴の学習など？)
カメラ映像に映り込む物体を言語化し、関連した名称を含む音楽を検索

他にもセミナーのハッカソン表彰やイベントで多くの事例もあり、最適な方法が確立されているわけではない。そもそも確率的な指標があるわけではなく、「顧客の購買意欲が向上し売上が伸びた」とか「アンケートで高評価が増加」みたいな指標でしかシステムの評価ができない。

シーン認識

現在の環境(勉強・運動・睡眠・食事・etc...)に合わせた音楽を再生するには、映像から判断するのが最もシンプルで直接的だと思う。センサは補助的な役割でなら使える、毎日の行動ログから次の動作を予測することも考えられるが、そもそもデータの取りようがないし何よりお金が高そう。。。高性能なモデルが発表されてその人の行動データでファインチューニングできるなら話は別かな。

これから

現時点で、音楽の詳しい知識はなく、小学生で習った音楽の三要素とテンポしかわからない。フィジカルデータもFitbitを買うまで使えない。そうなると、音楽の客観的な評価から「どんなシーンで聞きたいか」「どういった音楽なのか」などを元に音楽にラベル付けし、カメラからの映像から取得したシーンとAPIなどから天候・時間をもとに音楽を選定するなら、それらしい音楽を選定すれば実現できそう。

BERTには、ひとつの文にある"極性対象"(感情のかかる単語)と"観点"(感情を表す要素)の二つを入力としてセンチメント分析を行う手法がある。*1

これなら動画によせられたシーンや環境に対するコメントがポジティブかネガティブもしくはニュートラルかによって客観的に動画の特徴を抽出できそう。自分なりにノートに構想を書いたので機会があれば載せようと思う。

*1 :はじめての自然言語処理 BERT を用いた自然言語処理における転移学習 | オブジェクトの広場