CTC3名のデータサイエンティストによるAIを用いたテキスト解析事例の第二弾をご紹介します。
日本では、グローバル化が叫ばれるようになって久しく、実践的な英語力が必要とされる社会になってきました。2020年には小学校での英語教育が必修になるなど、グローバル化に対応した英語教育の改革も行われています。
今回の解析は、CTCのデータサイエンティスト1名の素朴な疑問から始まりました。
「英語をきちんと勉強し始めたのは中学1年生から。もっと遡ると小学校3年生の頃に、親に連れられ町の英会話教室に入ったものの、簡単な挨拶を覚えたり、歌をうたったりした程度で、英会話ができるレベルには到達しなかった。仕事でも英語を使っているので、30年以上英語に触れているが、未だに実践的な英語をモノにした実感がないのはなぜだろう。」
概して日本人にとって単語・文法・発音が全く異なる英語の習得は、困難であると考えられています(引用:https://english-club.jp/blog/japanese-english-ability/)。
にもかかわらず、日本語を母国語としながら、英語をマスターしている方も大勢います。
そのため、複数の言語をマスターする「語学の達人」と、長年掛けても1つの言語ですらマスターするのに苦労する人とでは、学習方法に違いがあるのでないかと考えました。
そこで英語習得の課題を克服しているであろう、最新の英語学習法が知りたくなり「日本における英語学習法のトレンド」について、分析することになりました。この分析により、トレンドの把握により、英語を上達する学習方法の発見にも期待していました。それだけでなく、グローバル化に加えデジタル化の加速も相まって、英語学習が現在どのように進歩しているかも興味がありました。そこで、CTCの3名のデータサイエンティストが、NetBase Quid社のAIを活用したテキスト解析エンジン「Quid」により、日本国内における最新の英語学習法トレンドを分析してみました。
今回の解析事例では、業種・業界を問わず必要とされる身近な話題である「英語」をテーマに取り上げているため、より多くの方にお読みいただき、AIがトレンドを迅速にキャッチアップする能力を体験していただければ幸いです。
学習用データセットは不要!分析用データセットの準備から開始
- 分析に用いたデータソース
Quidは、AI(機械学習と自然言語処理(NLP))技術を利用することによる、テキスト中の文脈理解に基づく定性的な解析を強みとし、英語や日本語始め多数の言語に対応しています。そのため、日本語のテキストを日本語の意味で解釈して分類することが可能です。
今回は、日本国内における英語学習法のトレンドを探るため、分析用の日本語データセットを集めることから始めました。
データセットといっても、Quidは一般的な機械学習のように、教師データを用意する必要がありません。Quidには、日本語で書かれた文章の解読について学習済みアルゴリズムが標準搭載されています。またニュース&ブログ、企業、特許データの分析データもまたQuidに標準搭載されているため、すぐに分析を開始することができます。
トレンドを探りたいため分析対象はSNSデータとし、期間は過去1年間に絞りました。期間に加え、日本語で記述された「英語学習」というキーワードを含む条件で、データセットとなる情報をNetBaseから検索しました。
検索の結果、Twitterの投稿から最も多くのデータがヒットしました。
- 年間を通じて常に一定の関心を寄せられている
下図は、過去1年間(2020年2月~2021年1月)の、英語学習に関する記事数やSNS投稿数の経時的変化を示しています。Quidは、テキストデータの読み込みと同時に、感情も分類します。含まれる単語により、ポジティブ=肯定的(緑色)、あるいはネガティブ=否定的(赤色)な内容かを自動的に判断するのです。そして両方合わせた合計値は、青い線で示されます。下図では緑色のエリアが多いことから、大多数のテキスト情報では、英語学習に対し、ポジティブな感情が働いていることが分かります。しかし、一部ではあるものの、ネガティブな感情も存在しています。
図1:過去1年間の英語学習に関する記事数・SNS投稿数の経時的変化
下図に示すのは、「【自社解析事例】2020年ボランティア活動のトレンド分析からモチベーションを探る」の分析用データセットです。これの場合は、平成30年台風第21号が発生した2018年9月や、令和元年東日本台風が発生した2019年10月の台風による水害など、災害が発生した時期に、ボランティア活動に関する記事数やSNS投稿数のピークが重なっていました。
図2:過去27か月間のボランティア活動に関する記事数・SNS投稿数の経時的変化
図1と図2の青線の形状を比較すると、英語学習の方には目立ったピークは見られず、常に一定のデータ量が存在しています。このことから、季節や世界情勢など外的要因に影響を受けにくいテーマであることが分かります。
- 感情分析
次に、英語学習に関する感情分析(センチメント分析やポジネガ分析ともいう)の結果を詳しく見ていきます。日々の英語学習に対する感情は、学習を継続できるかどうかに影響を及ぼす要因です。下図は、英語学習に関するニュースやSNS投稿の情報に含まれる単語から、ポジティブ(緑字)かネガティブ(赤字)かの感情分析により分類した結果を示しています。
上図の右では、「初心者必見」が目に飛び込んできます。この単語を含む情報の主な発信源は、英語学習教材メーカーでした。「初心者必見」は、宣伝に良く用いられるキーワードであることが分かります。
次に「必要」「頑張る」「大切」といった必要に迫られて前向きに学習に取り組む姿勢を表す単語を含むテキスト情報が、肯定的(ポジティブ)な感情として分析されていました。英語学習に関する投稿が多く見られたTwitterは、日々のつぶやきのメッセージを、140文字以内で投稿するシステムです。自分自身で、学習の士気を高めるため「頑張る」という意思表明のため投稿しているケースが多いと考えられます。40代半ばであるデータサイエンティストの学生時代には、勉強にSNSを利用するという発想はあり得ませんでした(そもそも、その頃にSNSが出現していたかどうか定かではありません)。
そこで、勉強にSNSを利用するのがトレンドではないかと目を付け、インターネット検索により「勉強垢」という目新しい言葉を見つけました。解説するサイトによると、「勉強垢」とは、自分の勉強の様子やおススメの勉強法、お気に入りの勉強グッズなどを投稿するSNSのアカウント(アカ=垢)を指すそうです。現代では、中高生の約3割が「勉強の様子をSNSに投稿したことがある」と回答するなど、ティーン世代を中心に既にSNS利用が定番になっているようです。(引用:日本最大級の資格・検定受験者プラットフォーム「日本の資格・検定」モチベーションを上げる勉強×SNSのススメ 〜その勉強時間、映えさせてみませんか?〜)
「なぜ勉強にSNSが必要なのか?」-その理由は、ネガティブな感情分析の結果から推測してみました。ネガティブな投稿には、「しんどい」「退屈」「飽きる」に代表される単語が含まれています。
「頑張る」のと「しんどい」は、実は表裏一体のもので、「しんどい」からこそ、SNSで「頑張る」と発信し、モチベーション維持に役立てているのではないかと考察しました。
また自身のためだけでなく、他者にとって役立つ「英検に出る単語」などを投稿するアカウントも存在していました。昨今はSNSが教材として活用されるなど、SNSの持つ役割がより重要になってきていると言えるでしょう。
インターネット検索によるトレンド分析の落とし穴
ここまでの説明を読んで、「Quidが標準装備しているニュースやブログ、SNSなどのデータセットを用いなくとも、GoogleやYahooなど一般的な検索エンジンからでも、トレンドを把握できるのではないか。」と考えた方もいるのではないでしょうか。
これを検証するために、Googleに、同様の検索条件(日本語・キーワード「英語学習」・1年以内)を詳細設定し、検索してみました。(下図)
検索結果を見ると、上位は英語学習方法についてまとめた個人のブログ記事がヒットしました。読んでみると、それらの内容はとても充実していました。Googleは、読者視点で役立つ情報が上位にヒットするよう、頻繁にアルゴリズムをアップデートしています。このようにインターネット検索でも、もちろん有益な情報を得ることができます。
図:2021年3月5日現在の検索結果
しかし3位以降の情報を確認したところ、英会話教室や英語教材会社の、宣伝を目的としたサイトがヒットしていました。Googleによる検索で上位表示されるようSEO対策した商用目的のサイトの場合、必ずしもユーザーが求めている情報ではない可能性があります。
また、この検索で得られた結果は150件でした。これらを全て人海戦術により読み解くのは、かなり労力を要する作業です。またインターネット検索では、一覧表示されるタイトルから興味ある記事を何件かピックアップしてから、各記事を読み込むというプロセスが一般的ではないでしょうか。この場合、タイトルを見ただけで興味ないと判断した記事に、実は興味深い内容が潜んでいる可能性もあります。そもそも興味の基準もまた、人に依存して変動するものです。
実際に、今回のテーマを分析したデータサイエンティスト3名は、英語学習方法に対して興味あるポイントが「速く上達する方法」、「楽しんで学習する方法」、「TOEICで高得点を獲得できる方法」と三者三様でした。
そのためトレンド分析のように、全体像の把握し、幅広い切り口が必要な分析には、AIを搭載したQuidが活躍します。
Quidに搭載されたAIがテキスト情報を分類し、最近の英語学習を俯瞰して視る
前述の、過去1年間(2020年2月~2021年1月)の英語学習に関する日本語記事やSNS投稿情報の約15000件を分析用データセットとして、Quidで分類しました。
Quidは、英語学習に関するニュースやSNS投稿情報など読み込んだテキスト情報を、類似した内容を一つのクラスターとしてグルーピングし、異なる色で表した下図のような、ネットワークマップで可視化します。ネットワークマップの「英会話、アプリ」などクラスターの名称を見るだけで、どのような英語学習が記事に取り上げられていて、SNSで投稿されていたかが分かります。さらに、クラスターの大きさ(情報量の多さ)から、どれがマジョリティで、どれがマイノリティ(ニッチ)なのか、視覚的にトレンドを把握することができます。
Quidのネットワークマップの作成フローを、下図に示しました。Quidに搭載した自然言語処理と機械学習が文章を分析し、関連性の高い文章同士をつなぎ、最終的にはネットワークマップを形成します。
ネットワークマップの構造を分解すると、点と線の集合体です。ノード(記事やSNS投稿情報)同士をコネクション(線)でつなぎ、関連のあるノード同士を自動的に分類したのがクラスターです。ノード同士に関連性があるとコネクションでつながるため、ノード同士の近さ、コネクションの数で関連性を判断できます。
ネットワークマップの見方が分かったところで、英語学習のネットワークマップの分析してみます。クラスター名を一望すると、先ず「朝、積み上げ、通勤電車」と「朝、積み上げ、毎日」という、近接したクラスターに気づきました。これらの内容はキーワードが重複しているため、内容が類似していることは明白です。しかも大きなクラスターを形成しているため、英語学習者の多くが朝の時間を活用していることが分かります。
また「朝、積み上げ、通勤電車」というクラスター名から、社会人の英語学習者のトレンドであることが分かります。分析するまでは、英会話レッスンなど仕事が終わってから勉強する方が多いのではと考えていたため、予想を覆す結果でした。
そこで、これらの2つのクラスターに着目し分析を進めてみました(下図赤枠)
「朝、積み上げ、通勤電車」のクラスターを拡大表示し、ハイライトさせました。さらに「コロナ」に関するキーワードを含む情報にフィルタリングして表示させたのが下図です。
コロナ禍にあっても通勤電車を英語学習に利用しているケースは多いようです。このクラスターに属する殆どの情報が、Twitterへの投稿内容でした。
いくつかピックアップしてみます。朝6時に起きて始業までの3時間を活用するという「朝活」を毎日続けている社会人の投稿を筆頭に、英語の学習者は、毎日継続できる方法を重視していることが分かります。毎日継続できる理由は、通勤電車の中で聞いているからでしょう。通勤時間は往復1時間など、基本的に変わらないものです。そのため一日3時間などと、学習時間を決めて取り組みやすいのだと考えられます。また、英語の音声や動画を視聴できるサイトが人気で、通勤時間のほか調理中の時間を活用するなど工夫が見られます。またTOEIC600点以上、英検2級など資格試験のキーワードは頻繁に出現していました。受験対策やキャリアアップのための資格取得を目標として、英語学習を継続している方が多いのでしょう。
次に類似クラスター「朝、積み上げ、毎日」の情報を詳しく見てみました。
すると「朝、積み上げ、通勤電車」の類似クラスターとあって、毎日継続している教材や、積み上げる時間に関するSNS投稿内容が多く見られました。
ツィート例:
家族や職場の上司や同僚に対し行う朝の挨拶は、毎日欠かすことはありません。テレワークが増えている昨今では、朝に始業の連絡をメールやグループチャットで行われているケースが増えています。それと同じ感覚で、朝の挨拶をSNSに投稿するケースし、そこに個人の習慣が記載されることが多いと考えられます。英語学習を朝活の一つとして組み込んでいるケースが目立つのは、働き方改革やコロナ禍によるテレワークなど生活スタイルの変容がもたらした結果ではないかと考察できました。
分析の結果「朝の時間を活用して、毎日英語学習を積み上げる大切さ」を知ったのは、耳の痛い話と思われた方もいるでしょう。そこで次回は、楽しんで継続できそうな英語学習法を探ってみます。
<パート2>に続く