データの名寄せを成功させる5つのポイント

  • LINEで送る

GY146_350A

ビッグデータ時代が到来しましたね。

wikipediaによると、
ビッグデータとは、市販されているデータベース管理ツールや従来のデータ処理アプリケーションで処理することが困難なほど巨大で複雑なデータ集合の集積物を表す用語である。その技術的な課題には収集、取捨選択、保管、検索、共有、転送、解析、可視化が含まれる。大規模データ集合の傾向をつかむことは、関連データの1集合の分析から得られる付加的情報を、別の同じデータ量を持つ小規模データ集合と比較することにより行われ、「ビジネスの傾向の発見、研究の品質決定、疾病予防、法的引用のリンク 、犯罪防止、リアルタイムの道路交通状況判断」との相関の発見が可能になる。

このような時代背景から国や自治体がデータを配布するようになりました(オープンデータ)。

wikipediaによると、
オープンデータ(Open Data)とは、特定のデータが、一切の著作権、特許などの制御メカニズムの制限なしで、全ての人が望むように利用・再掲載できるような形で入手できるべきであるというアイデアである。

オープンデータの分析や自社データとの掛け合わせによる分析によって一歩進んだマーケティングが可能となりました。

わくわくしますね!

 

fb99ed8da30c92a9546d9f740d7ab7e0_s

ところで自社データですが整備されていますか?

これまでいろいろなクライアントの顧客データを預かってきました。そのなかでしっかり整備されていたデータは僅かでした。
うちのデータ汚いよ、って渡してくれるクライアントのデータは確かに汚いです。。笑
うちのデータはきれいですよ、って渡してくれるクライアントのデータを僕は信用しません。経験則上そうではないからです。

お店の顧客カルテにお客さんの特徴をメモしたりする習慣ってありますよね。だいたいはお客さんが見たら怒るような内容です。

身体的特徴だと、メガネとかデブとかハゲとか。
接客に関する部分だと、こまかいとか、気難しいとか、話が長いとか。
そして要注意客には、NGとか、ブラックとか。
ひどい店員だと、キモいとか、ムカつくとか書いたりします。
論外ですね。

まあこのような習慣の延長だと思いますが、なんと顧客データにメモを入力したりしちゃってることあるんです。コールセンターで電話を受けて、オペレーターが顧客データを呼び出して画面を眺めているときに入力したんだろうと思います。
ただ、入力した内容がまずくて。。
その方が亡くなったという電話を受けて、データの氏名フィールドに「死亡」と名前の前に入力してるんですね。その他にも、代金を支払ってくれないお客さんに「ブラック」だとか、しつこいクレームのお客さんに「クレーム」だとか。そんな顧客データを元にDMを出したら、ブラック○○○○様と印字されて配達されちゃうかもしれません。

考えただけで恐ろしいですね。。

これは一例ですが、住所が抜け落ちていたり、重複して登録されていたり、入力ミスで同じ顧客番号が複数出現したりと様々な要因があります。このようにデータの整備が出来ていないとデータの名寄せもままならないですね。

ここでデータの整備とデータの名寄せのポイントを紹介します。

 

98e6bcadbaee811206d5c750b673a40a_s

データの名寄せを成功させる5つのポイント

1. 半角・全角の統一

いまでは使う人が少なくなってきましたが、昔は半角カタカナを使う人が割といたんです。そして数字はテンキー入力する方がほとんどですので、数字やハイフン・スラッシュ・ピリオドなどは半角で入りますよね。アルファベットは半角で入ることが多いものの、昔のひとは全角で入れたりします。

このように入力する人の時代背景だったり好みであったりで、データ上に全角と半角が統一性なく出現したりします。使用するソフトウェアにより半角全角が名寄せ作業に影響がなかったりしますが、統一されていたほうがいいですね。

データの項目ごと、もしくはデータ全体で、アルファベット・数字・記号などの半角・全角の使用ルールを定めましょう。

2. 機種依存文字の使用制限

名寄せをする際に困るのが機種依存文字が入っているデータです。

よく使われる代表的な機種依存文字

・「(株)」や「(有)」などの法人格略称
・「①」や「②」などの丸囲い数字
・「Ⅰ」や「Ⅱ」などのローマ数字

法人格略称は好んで使う人がわりといますね。

名寄せ作業は、通常「氏名」や「会社名」などの項目と、「住所」や「電話番号」などの項目をキーとして行います。法人格略称は「会社名」に入っていたり、丸囲い数字やローマ数字は「住所」に入っていたりします。

これでは名寄せできなくなりますね~。

機種依存文字は使用しないというルールを定めましょう。

3. 類似記号の統一

ここでいう類字記号とは、似て非なるハイフン記号のことです。

haihun

このように似て非なるハイフン記号がたくさんあります。ハイフンを使用する場面は主に住所を入れるときですが、これらも入力する人の癖で異なるものが多く使われます。

これでは名寄せできなくなりますね~。

ハイフン記号はハイフンに統一するというルールを定めましょう。

4. 異体字をなくす

ここでいう異体字とは、氏名などで使われる旧字体などを指します。

わかりやすい例で「斉藤」「斎藤」「齊藤」「齋藤」などの斉藤さんだぞ。もとい斉藤さんですね。

名字や名前などで固有の漢字が使われるケースが少なくありません。しかし、そのときどきで通用字体が使われたり旧字体が使われたりまちまちだったりします。

これでは名寄せできなくなりますね~。

異体字は通用字体に統一する、もしくは「氏名」の項目とは別に「名寄せ用氏名」の項目を設けるなどのルールを定めましょう。

5. 建物の部屋番号の項目を設ける

集合住宅にお住いのみなさんは、ご自宅の住所を書くときにどのように書きますか?

例えばマンションの701号室にお住いのAさん。
マンション名がシーサイドテラスA棟だったとします。
すると気分によって
・シーサイドテラスA棟701号室
・シーサイドテラスA-701
・A-701
・(住所に続けて)-A701
などさまざまな書き方をしたりします。

これでは名寄せできなくなりますね~。

「建物名」を無視して「住所」と「部屋番号」をキーにすると名寄せができるようになります。「住所」の項目を設ける際、「建物名」のほかに「部屋番号」の項目を設けるなどのルールを定めましょう。

a43c687fa366307245ea35b52846fd6b_s

おさらいです。

データの名寄せを成功させる5つのポイント
1. 半角・全角の統一
2. 機種依存文字の使用制限
3. 類似記号の統一
4. 異体字をなくす
5. 建物の部屋番号の項目を設ける

以上が5つのポイントです。

すでに膨大なデータが出来上がっていて自社では対応しきれない場合は、データのクレンジングをアウトソースするのもよいでしょう。上記5つのポイント以外にも、入力ミスしやすい地名などデータクレンジング会社に蓄積されたノウハウがあります。

東京都墨田区横網という地名があります。
大相撲が行われる両国国技館が所在します。
ところでよーく見てください。

横網(よこあみ)ですから。
横綱(よこづな)じゃないですよ!!

経験則上だいたい5%くらいの人が素で入力ミスをしますね。先入観って恐ろしい。。。

 


 

この記事を書いた人

ヨシムラ スイメイ

DMマーケティングプロフェッショナル15-0017
株式会社ヴィアックス/ダイレクトマーケティング事業本部/事業推進室長

  • LINEで送る

お問い合わせ

マーケティングやダイレクトメールに関することで、
お困りのことがございましたらお気軽にお問い合わせください。

☎ 03-3299-6011


お問い合わせフォームはこちら