Group Description
データの下準備に関する技術を研究するコミュティです。
日々、神エクセルと戦う戦士たちの集いです。
汚いデータには理由があります。何もやれることがない場合もありますが、それ以外は間違いなくあなたの責任です。いかなるときも、不完全なデータを投げ出したい誘惑に耐える必要があります。 日々の生活と複雑なエコシステムという現実には、高いエントロピー、すなわち「汚さ」があります。こうした現実にまつわるデータも同じです。それは問題解決から逃れる言い訳にはなりません。代わりに、データサイエンティストとして新しいテクニックを追い求め、それを自分たちの生活にとって重要な問題に適用し続けるモチベーションにすべきなのです。バッドデータハンドブック
Data Preparationとは?
データ分析やデータビジュアライゼーションを行う前段階として、データを収集し、機械判読可能な形に整形するなどの作業が必要になります。そのほか、データそのものの信頼性の確認や、欠損値などの補完なども含めた準備段階の作業のことをデータプレパレーション( Data Preparation)と呼びます。
Preparation
- 用意、準備、支度
- 料理の下準備
- 心構え、覚悟
小児看護において、子供の不安や緊張を和らげ恐怖心を最小限に抑えるケアのことをプレパレーションと呼びます。
なにを研究するのか
欲しいデータを手に入れるために必要となる技術や知識全般を対象とします。
- フォーマット
- スクレイピング
- クレンジング
- 名寄せ
- XLSやPDFのパース
など、技術的な内容はもとより、自治体等からデータを取り寄せる際の手続きに関する知見などもシェアできるといいですね。
このコミュニティには、講師もメンターもいません。
全ての人が、バットデータの沼の中で藁をも掴まんともがき苦しむ同士として共に学んでいけたらと思います。
Event
イベントはありません