2021-2022年度版 完全リモートで実施! Google Cloudを活用したデータグループの新卒社員向けデータエンジニアリングトレーニング
2022/06/07
2022/06/07
テクノロジーコンサルティング本部 シニア・マネジャーの青柳雅之です。
私は次のロールとしての活動も行っています。
前年度に引き続き、内容をさらにパワーアップしてGCPを活用したデータグループの新卒社員向けデータエンジニアリングトレーニングを3日間実施しました。今回のブログでは概要を押さえつつ、特に前年度との違いにフォーカスしてトレーニング内容を解説します。データグループには、Googleの Partner Top EngineerやJagu'e'r Awardを受賞したメンバーを輩出したCloud Capability Group (Cloud CG)と呼ばれる部門横断のコミュニティの主要メンバーが所属しており、クラウドの人材育成やコンテンツ開発を行っています。そのため、クラウドの技術力を生かしたトレーニングを部内で展開しています。今回のトレーニングの企画と運営を担当した、データグループのケイパビリティビルディングチームのメンバーである菅野裕也、横山祐樹、佐藤祥多、戸村幸次郎、飯塚希翔、田代克也、任虎と連名で記載します。
BigQueryの強みの1つは、ペタバイトクラスのデータに対して高速でスキャンを行い、分析が可能なことです。そして、BigQuery Machine Learning (BQML)というSQLライクな構文で、機械学習により予測値を求めたりクラスタリングを行うことが可能です。このトレーニングでは、AGBGで用意している顧客データアーキテクチャ(Customer Data Architecture)というソリューションのデモ環境を活用してハンズオンを実施しました。ハンズオンではGA360や疑似的なCRMに存在する顧客のIDを名寄せしてBigQuery上に統合し、BQMLで顧客生涯価値(LTV)予測やクラスタリングを行います。
<<< Start >>>
<<< End >>>
BQMLの文法を学んでから自分で処理文を記述してもらう形のトレーニングだと必ず躓く社員が現れます。そこであらかじめ、ハンズオンで使うBigQueryに保存済みのクエリ、つまり、「答え」を用意しておき、社員にはひたすら実行をしてもらいます。まずはBQMLによって何が分析されるかを体感します。下の例はk-means法でユーザーを顧客としてのランク付けという意味合いでクラスタリングしています。
<<< Start >>>
<<< End >>>
BQMLによるクラスタリングのためのモデル作成
<<< Start >>>
<<< End >>>
BQMLにより各ユーザー(テストデータ)の顧客生涯価値と所属クラスタを予測
このほか、データ変換処理をPrepツールで行い、得られたデータをTableauで可視化する作業もハンズオンとして行います。去年に引き続き、Tableau社の黒井慶様に、Tableauの貸与に関してご協力をいただきました。この場を借りて御礼を申し上げます。
多くのセッションを実施するので、講師はそれぞれの専門家に依頼していました。セッションの順番も意識する必要がありますが、講師の予定を調整するのが非常に煩雑でした。今年度は複数回のトレーニングを実施する必要があり、効率化が課題でした。そこで、今回、データエンジニアリングの基礎に該当する技術セッションに関しては、録画をあらかじめ撮影し、トレーニングの時間割に沿って流すことで効率化を図りました。録画によるセッション終了後、Q&Aの時間を取ります。トレーニングを開始した去年とは異なり、現在はケイパビリティビルディングチームのメンバーはセッション内容も理解しているのでQ&Aの対応が可能です。また、この一連の録画は、Data 101というオンライントレーニングにしており、全社でデータエンジニアリングを学びたい社員向けに公開されています。このトレーニングは新卒社員向けですが、中途社員もオンライントレーニングを参照することでデータエンジニアリングの基礎を学ぶことが出来ます。
<<< Start >>>
<<< End >>>
技術セッションの教材
<<< Start >>>
<<< End >>>
Data 101 オンライントレーニング
データグループはデータエンジニアリングの各領域に対応したケイパビリティグループを持っています。データグループの紹介は、データグループの組織紹介ブログを参照ください。新卒社員にプロジェクトに配属後のイメージを抱いてもらうために、各ケイパビリティグループの代表的なプロジェクトの紹介をプロジェクトの担当者に実施してもらいました。
<<< Start >>>
<<< End >>>
データグループで扱う主要なテクノロジーとナレッジ(トレーニング資料から抜粋)
今年度は複数回のトレーニングを実施しましたが、あらかじめ撮影した技術セッションの動画を採用することでトレーニングの効率化を実現できました。そして、動画にしたことでそのコンテンツをオンデマンドで視聴できる学習教材として全社に展開しました。コンテンツを作って自部門だけで使うよりは広い範囲の社員の学習に使ってもらうことで費用対効果を高めることが可能です。次年度は各技術領域に最新のトレンドを入れ、ハンズオン内容も変えていく予定です。