株式会社truestar 代表取締役社長
藤 俊久仁
皆さま、はじめまして。
株式会社truestarの藤です。
この記事でお伝えする内容
データプレップって面倒ですよね?
このブログの読者の方々は、TableauのようなBIツールをゴリゴリ使いこなしている腕利きの方も多いと思いますが、皆さまはデータの抽出・加工処理であるデータプレパレーション(以後データプレップ)ってどうしていますか?ご自身ですか?それとも誰かにお願いしていますか?
誰が担当するにせよ、特に定期的に行うデータ分析やレポーティングでは、ある程度自動化や効率化を図ったとしても意外と手作業が残ってしまい、毎回時間を取られてしまう、というケースが多いのではないでしょうか?
分析者の仕事の8割はデータプレップ
『分析データの整備に8割の時間が費やされている』 Andrew Beers, Tableau 現CTO
https://japan.zdnet.com/article/35118383/
これは2018年と少し古い記事ですが、Tableauユーザーの間ではよく知られているのではないかと思います。
そのほかにも
The New York Times
『データサイエンティストは50~80%の時間をデータ収集や準備に費やしている』
Gartner
『データの品質が悪いため、毎年1,350万ドルのコストがかかっている』(平均的な大企業で)
などと、データプレップはグローバルの課題として、数年前から問題視されています。
Truestarは長きにわたり、データ分析やデータ可視化の業務支援を行っており、当然データプレップにも携わっています。複雑なデータプレップが原因で炎上した案件、工数が想定以上に肥大化して不採算化した案件は数知れず、非常に時間がかかる領域であることも、その難しさも痛いほど理解しているつもりです。
その上、データプレップは非常に地味な作業領域であり、アウトプットも見えづらく、その先のデータ分析や可視化のように評価されることも少ないため、なかなか誰も担当したがらないです・・・。仮に担当したとしても『早く別のことがやりたい』という不満が募りやすい傾向にあるなど、分析において非常に重要なフェーズであるにも関わらず、『ブルシットワーク』的な扱いを受けがちです。
このような背景もあり、データ分析業務における『データプレップ』は、データ分析が進まないボトルネックの一つとなっていると考えています。
データは民主化されたのか?
データ分析を民主化すべく、Tableauを筆頭に様々な使いやすい分析ツールが出てきており10年前には考えられないほどデータ分析の敷居は下がりました。ノーコードでも簡単に先進の機械学習もできてしまいます。
一方、データはどうでしょうか?
10年前、データ分析を行う前に、紙の資料からデータをエクセルにパンチング(=数値を手入力)するようなことも少なからずありましたが、今はほとんどのデータがデジタルで共有されています。APIでのデータ提供も増えました。
しかし、例えば提供されるエクセルは分析用ではなく、印刷用で余計なヘッダーやデータが混ざっていたり、セル結合や多重の表頭表側を持っていたりと、そこから加工・整形しないと使い物にならないことは少なからずあります。
下はビジネスでもよく利用される政府統計e-Statのデータですが、ポチポチダウンロードをしたり、ダウンロードしたデータをクレンジングしないと使い物になりません。
また、APIでのデータ提供も増え、データ取得の自動化やシステム連携が各段に実装しやすくなりました。ただ、そのAPIは誰にでも取り扱えるようなものでしょうか?人間にはぱっと見では解読しづらいJSON形式での提供、わかりにくい仕様書、複雑な加工、一回当たりのデータの取得制限など、普段から高頻度でそのAPIを使っていない限り、データ取得のたびに仕様書確認を強いられることもしばしばあります。
私自身も先日、総務省統計局のe-stat APIからのデータ取得に挑みましたが、落とし穴満載で事前想定の5倍くらいの時間がかかってしまいました・・・。
詳しい内容は弊社ブログの『Alteryxでe-stat APIからデータを取得する』にて公開していますので、宜しければそちらも併せてご確認下さい。骨の折れる仕事でした・・・。
確かにビジネス活用のためのデータ共有は10年前とは比較にならないレベルで進みました。しかし、実態はただ公開・提供されただけであり、エンドユーザーが誰でもすぐに使いやすい形で提供されているケースはごく稀です。大半は一部の限られたサイエンティストやエンジニアだけしか使いこなすのは難しいデータとなっており、『データの民主化』はまだまだ道半ばではないでしょうか。
結局、ここでも『データプレップ』スキルが求められ、そもそもやるべきデータ分析までたどり着かずに断念されるケースは少なくないと感じています。
データを民主化する新サービス『Prepper』
上で述べたように、データ利活用やデータ分析のボトルネックとして『データプレップ』が存在しています。truestarではそのボトルネックを解消し、データの民主化を進めるべく、『Prepper(プレッパー)』というサービスを今春より展開しています。
https://truestar.co.jp/prepper/
2021年7月30日には、データ分析者が即座に分析に取り組めるように加工したオープンデータをデータ代無料で共有するサービス『Prepper Open Data Bank』を新たに開始致しました。
Prepper Open Data Bankでは、国勢調査などの商用・二次利用可能なオープンデータをtruestarが抽出・加工し、加工済みのデータをSnowflake データマーケットプレイスで無料共有しています。
現在は、都道府県、市区町村、町丁目それぞれの粒度で、オープンデータとして公開されている最新のポリゴンや社会・人口統計を紐づけたデータセットが共有されています。
データ代無料ということもあり、予想を超える反響をいただいております。
ご興味のある方は、以下のブログをご参照ください。
Prepper Open Data Bank 第2弾データリリース
ブログの中にも記載がありますが、データプレップが不要になることで、わずか5分で町丁目Vizが作れるようになります。
5分で完成! 町丁目のTableau VizをPrepper Open Data Bankで!(Youtube)
8月19日には、『年齢階級別男女別人口』、『世帯の家族類型別世帯構成』を追加しました。
ポイントデータやメッシュデータなども今後追加していく予定です。
乞うご期待下さい!
Hawkeye Viewerも宜しくお願い致します!
こちらはチェーン店舗のヘルスチェックアプリですが、TWBXファイルでの納品、御社Tableau環境内での自動更新の実装、御社のデータと掛け合わせたレポートのカスタマイズも柔軟に可能です。
以下バナーから是非お問い合わせください。
また、TableauとAlteryxに関する無料コンサルも引き続き実施中です。
以下バナーをクリックして、是非お問い合わせください。