「AIで使える」にはデータレイクがあればいい?
谷川:本当に「AIで使える=AIレディ」にするにはどうするかに話を移していきます。企業のデータをAIレディにするには、改めてデータウェアハウスを整備した方がいいんじゃないかと思うんですが。
平井:データウエアハウスでは分析モデルが先に決まります。データの前処理まではデータウェアハウスもAIもほぼ一緒です。しかしインプリするタイミングが違います。AIだとデータサイエンティストやそれに近い人が試行錯誤しながらデータを作ります。この違いは大きく、データウェアハウスではないです。使えるデータがあっても、それだけではAIレディには十分ではないです。
谷川:ビジネス指標に対して何らかのAIを使うなら?
平井:経営的、経営判断的なものになれば、そうですね。
谷川:データレイクと呼ばれていたものがAIや機械学習のデータのソースになるでしょうか?
平井:私の印象だとデータレイクとは、もともとデータウェアハウスとの対比で出てきたものです。「データは倉庫よりも、湖に貯めておけ」と。とりあえず貯めておく貯水池です。またデータレイクは当初NoSQLのキーバリュー型データをためるものでしたが、最近ではファイルシステムのようにとらえられてきているという気がします。
谷川:データレイクを作っていてもAIレディにはならない?
平井:たぶん。今のデータレイクだと何の前処理もしていません。貯めてるだけです。
谷川:IBMの主張だとデータレイクはどうですか?
野間:一般的なデータレイクは「いろんな本を何でも置いておけるような大きな倉庫、レスポンスの良い倉庫を用意しました」で止まっています。IBMの考えは「自分に必要なデータをすぐに使えるように、図書館みたいに整理整頓されたものを作っていきましょう」です。これがIBMが考えるデータレイクのあるべき姿です。
谷川:それがエンタープライズデータカタログとなりますか?
野間:はい、そうなります。
谷川:具体的には何をするものでしょうか。
野間:例えば複数のデータソースがあったとして、元のソースは何か把握できるようにします。リレーショナルデータベースなのか、その表はどのような定義なのか、物理的な部分をカタログ化していくことができます。加えて、データを社内の業務で使う共通言語で紐付けすることができます。例えば工場Aで使う「プロダクトID」と、工場Bで使う「プロダクトID」は同じ用語でも意味合いが違うことがあります。そうした用語の定義や紐付けを行います。もう1つ、データの来歴管理もできます。例えば「この分析に使っているデータはどのデータソースから来て、このようなバッチ集計を経ていた」といった履歴が分かります。こうしてデータを利用するユーザーにわかりやすいデータリソースとして定義します。
谷川:先ほどの三澤さんの講演では自動的にメタタグをつけるとかおっしゃっていたような。手でやるならすごい手間だけど、楽になるのでしょうか。
野間:データを検索していく部分では自動化できます。しかし企業内の用語統一となると、そこは人が頑張らないといけません。ただし一度カタログを作っておけば、次に他の部門とコラボレーションする時に共通言語で進められるので、いろんな人が同じデータを参照して分析できるようになります。
この記事は参考になりましたか?
- DB Online Day 2018 Powered by IBM連載記事一覧
-
- 「AI活用の壁」をどう乗り越えるか?――成功から失敗までを知りつくす3人が語る!
- 社長に「明日からAIを入れろ」と言われたが「使えるデータがない」問題をどうするか
- 「AI Ready」な企業データはどのようにして作るか?
- この記事の著者
-
加山 恵美(カヤマ エミ)
EnterpriseZine/Security Online キュレーターフリーランスライター。茨城大学理学部卒。金融機関のシステム子会社でシステムエンジニアを経験した後にIT系のライターとして独立。エンジニア視点で記事を提供していきたい。EnterpriseZine/DB Online の取材・記事も担当しています。Webサイト:https://emiekayama.net
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
【AD】本記事の内容は記事掲載開始時点のものです 企画・制作 株式会社翔泳社
この記事は参考になりましたか?
この記事をシェア