YouTubeデータをCData Syncでサクッと簡単に取得してみた

JTUGデータレバレッジチームです。

私たちJTUGは 「Tableau をもっと身近に」という想いのもと、コミュニティ活動やオンラインイベントを展開しています。今回は YouTube チャンネルの視聴データを分析するプロジェクトに挑戦しました。本記事では、その取り組みをご紹介します。

YouTubeデータ分析の壁

JTUG の YouTube チャンネルでは、「VizつくりまSnow!」や「たぶラジ」など多くのイベント動画を配信しています。よりコンテンツを盛り上げるために、YouTubeの視聴データを分析したいと考えました。

しかし分析以前のYouTubeのデータ取得でつまずきました。JTUGらしくTableauで分析したかったのですが、データ抽出にはAPIを呼び出す必要があります。普段からプログラミングを行うメンバーがおらず、仕様を読み解くのも大変です。データを活用したいのに、それ以前の壁にぶつかってしまったのです。

ちなみにBigQueryに蓄積しているYouTube関連データもありますが、タイトル情報を取得できないので扱いにくいという課題があります。またYouTube Analyticsという分析環境もありますが、過去のデータが取得できないという課題がありました。

CData Syncとの出会い

そんな中でJTUG ゴールドスポンサーのCData様から「CData Sync」をご紹介いただきました。

CData Software Japan合同会社は、データソースへのデータ連携を容易にするソリューションを提供する企業で、さまざまなデータソースを統合・活用できるツールを開発しています。

その中でもCDataSyncは、ノーコードでETL/ELTパイプラインを構築できるデータ統合ツールです。400種類以上のデータソースに対応し、BigQueryやSnowflakeなどのデータウェアハウスへ簡単にデータを連携できるのが特徴です。

これならYouTubeのデータ分析に必要な情報を簡単に取得できそうです。今回トライアルライセンスをご厚意でお貸し出しいただけたので、試してみることにしました。

CData Syncでデータ連携してみた

結論から言えばエンジニアではないメンバーでも、データを簡単に取得できました。

イメージとしてはTableau Prepを使うかのような感覚で、設定のワークフローを組むだけで簡単にデータが抽出できます。APIを使ったことがある人だとこの簡単さに感動するらしいのですが、逆にこれが初めてだったので良くも悪くも「壁」を感じませんでした。おおまかな手順は以下の4ステップです。

今回実際にやった手順も参考までに書き残しておきます。今回は各自のローカル PCでCData Syncを動かし、JTUGのYouTubeデータをBigQueryに転送してみました。

■手順
CData公式サイトから情報登録し、CData Sync の体験版をダウンロード

② ダウンロードしたインストーラの指示に従い、パスワードなどを設定してインストール

③ インストール完了後、ブラウザで CData Sync が起動するのでサインイン

④ YouTube Analytics の「接続」を登録 
 ・サイドバーの「接続」→「接続を追加」
 ・YouTube Analyticsを検索・選択し、「接続名」を入力
 ・「YouTube Analyticsへの接続」のボタンを押して、アクセス許諾して接続情報を登録

⑤ BigQueryへの「接続」の「接続」を登録
 ・サイドバーの「接続」→「接続を追加」
 ・BigQuery を検索・選択し、「接続名」を入力
 ・BigQueryの接続情報(プロジェクト/データセット名、他はデフォルト値)を登録

⑥ 「ジョブ」に接続情報④・⑤を設定
 ・サイドバーの「ジョブ」→「ジョブを追加」し、ジョブ名を入力
 ・データソースに④のYouTube Analytics情報、同期先に⑤BigQuery情報を選択し「ジョブを追加」

⑦ ⑥のジョブの「タスク」画面から連携したいYouTube Analyticsのテーブルを選択し、タスク「実行」ボタンを押す 
→BigQuery に該当するデータが生成されていれば成功です!

操作イメージは公式からの動画も参考にどうぞ(54秒~)。

ちなみに今回は単発のデータ抽出でしたが、スケジュールを組んで日次抽出も可能です。

使ってみた感想

CData Syncを実際に使ってみて、まず驚いたのは複雑なデータ準備をツールで簡単にできることでした。YouTube APIの細かい設定やエラー処理を気にすることなく、欲しいデータをすぐにBigQueryに取り込めるため、分析作業にすぐ移れるのは本当に大きいです。

また設定をSQLのように書けるのが面白い点です。例えばプレイリストの動画一覧を取得するには、取得対象のプレイリストのIDが必要ですが、ここをSQLで表現できます。

以下が実例です。サブクエリでプレイリストのID一覧を取得し、その一覧から動画一覧を取得できます。使い慣れているSQLが使えるのはうれしいですね。

データを取得する設定は簡単でしたが、環境設定は少し大変でした。Windows環境の方は簡単にインストールできましたが、Macの場合はエラーメッセージが出て大変でした。

Macで利用するにはJDKが必要で、私(Apple Silicon M1 Mac)の場合はTemurinの公式サイトからARM版JDK17をダウンロードして解決しました。Macへのインストールでつまずいた場合はお試しください。

またデータが簡単に取得できても、そこからの読み解きや分析は取り組む必要があります。とはいえ技術的に難しい壁を越えられたのはすごくありがたいですね。

まずは触ってみよう(30日トライアルのご案内)

実際に Tableau で可視化したところ、視聴数ランキングを簡単に作ることができました。普段から使い慣れているTableauで分析できるのはうれしいです。

CData Sync には 30 日間の無償トライアル があります。

気になった方は以下のリンクからダウンロードし、YouTube データの世界を広げてみてください。

https://www.cdata.com/jp/sync/trial/

(2024年度スポンサー特典)

Language »