整合性・一貫性に拘る(データ・クレンジングの基礎)

(読了時間=約 2 分)

世の中というのは個別事情がいろいろあるのでなかなか一様にいかないけれども、エクセルで分析したりシミュレーションしたりしようとする場合には、可能な限り規則的なデータセットを作ることが望ましい。

規則的というのはつまり、一貫性があり、整合性があるデータのこと!

例えば、ある会社の損益分析やシミュレーションを行う場合、基本的にはデータは事業部×決算期×科目の3つの軸で構成される。この時に、3軸のどの方向でも数字を集計・分解することができて、また、ある数値について経年変化や横比較が容易にできると、検討効率がぐんと上がる。

ところが、元データが最初からそうなっていることはほとんどない。このため多くの場合、元データの固有性をひきずったままとりあえずエクセルシートを作成し、そこから分析しましょうという話になりがちだ。でも、これだと検討が効果的に進まないことが多い。

初期段階で重要なのは、その後の検討のためのしっかりとした基盤を作ることだ。そのためには必要な作業の手間を惜しむべきではない。

1. データの統合

1-1. 欠如データの保管

例えば、ある事業部では2006年からデータがあるのに、別の事業部では2007年からしかデータがない。
データが完全に揃う期間のみで分析を行うことでも問題なければそうすればいいが、どうしても2006年からのデータで分析する必要があるのであれば、何らかの前提を置いて足りない数値を算出しておく。

いくつかの明細だけがわかっているというのもよくあるケースだが、その場合には必ず「その他」を算出しておく。部分集合の総和が全体集合になるような形を徹底して維持するのがポイントだ。

1-2. データ区分の統一

例えば、年度ごとに科目が異なるとか、組織変更があって事業部が統合されたり、など。
最大公約数的な区分や科目で問題ないならば、その単位で集計してデータセットを作成する。もし、細かいデータがどうしても必要なのであれば、足りないところを概算したり、ある前提を置いて数値算出する。

1-3. データ間の矛盾の解決

複数のデータソースを使う場合には、データの重複や不整合がよく起こるのでその解決を行う。
重複したデータは一方を削除する。区分が計上基準にズレがある場合には、何らかの基準に統一し、それに合っていないものは換算する。また、複数のデータの間で矛盾が生じている場合には、別途調査をしてどちらが正しいか(あるいは本検討の中でどちらを信じるか)を判断する。

精度と一貫性のバランスが大事

いろいろ前提を置いて数値を換算したりすれば検討の精度は落ちるが、一方でデータの一貫性・整合性が担保されるメリットもある。

この両者のバランスをどこで取るかということが、初期段階の作業における悩みどころだ。

しっかり考えて、精度と一貫性を高度にバランスさせることを目指したい。

2. 表形式の統一

2-1. 表示形式・単位の統一

表示単位が百万円単位だったり億円単位だったりしないように、一つの単位で統一する。
通貨単位も一定の為替レートで換算し、一つの通貨単位で一気通貫に見えるようにした方が良い。

2-2. 表の見た目の統一

事業部ごとにシートを作り、それぞれのシートで横軸に決算期、縦軸に科目をとって表を作る場合には、同じ決算期は常に同じ列に。同じ科目は常に同じ行になるように揃えてゆく。

こうすることで、後の集計・分析におけるシートの参照ミスを防ぐことができる。

この作業は少し几帳面すぎるくらいきっちりやろう

「そこまでやらなくてもわかるから」というのはよく聞く反論だが、それはあくまでも今現在の話に過ぎない。検討が進んで複雑かつ多様な分析が必要になり、時間制約はさらに厳しくなり、睡眠不測で集中力が保てないといった状況になった時に、ノーストレスでデータを扱えますかという話が重要なのだ。

基礎がしっかりしたデータセットであれば、このようなタフな状況でもびくともしない。ミスなく迅速に表を組み上げて、温存した思考体力で”その先”を考えてゆくことができる。

これが実戦で一番頼りになるスタイルだ。


文章で書いただけで重要性が伝わるか今ひとつ自信がないが、複雑な検討をする際にはだまされたと思って是非試してみて欲しいと思う。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です