データ ラングリングは、生のデータまたは受信したデータを分析して洞察を得ることができる形式に変換するプロセスです。これには、データの品質に関する決定が含まれます。これは、利用可能なデータのほとんどが高品質ではないためです。このプロセスはプログラミングやデータ操作以上のものです。最終的なデータセットに影響を与える決定と選択を行う必要があります。
データ異議申し立てプロセスの重要な手順は次のとおりです:
情報の検索または保存
情報を確認したら
クリーニング データの標準化、修正、更新
データ分析
データ表示
データ品質とは、データの信頼性と正確性を指します。これは有意義な洞察を得るために重要です。すべてのデータが同じ品質であるわけではありません。また、データの品質が低いと、誤った結論が導き出されます。データ品質の監視は、データ紛争の重要な部分です。
コンピューターは強力ですが、彼は人間の命令に従っただけです。また、提供された情報に基づいたパターンの一致のみに限定されます。データの収集、分析、品質保証においては人間が重要な役割を果たします。これは、コンピューターが創造的な決定を下したり、コンテキストを理解したりできないためです。
データ品質評価には 2 つの主要なポイントがあります:
データの整合性 – データの正確性と信頼性はどの程度ですか?
目的に適合している - 情報が特定の質問または解決されている問題に適切であるかどうか。
データの整合性とは、データセット内のデータ値と記述子の品質と信頼性を指します。完全性を評価する際には、定期的に測定を実施するかどうかを考慮してください。個々の測定値または平均を表します。また、データをどのように保存または解釈するかを説明するデータベースはありますか (関連する単位など)?
データの「適合性」とは、データセットが特定の目的またはクエリにどの程度適合するかを指します。データセットは非常に完成度が高いですが、分析のニーズを満たしていない場合は役に立たない可能性があります。たとえば、リアルタイムの Citi Bike データは品質が良い場合があります。しかし、自転車ステーションが日々どのように変化するかについての質問に答えるには適していません。 Citi Bike の旅行履歴情報の方が適切です...
データの適合性を判断するには、多くの場合、その完全性の評価が必要です。このプロセスへのショートカットは分析の品質に影響を与え、誤った結論につながる可能性があります。教育に関する質問に答えるために収入データを使用するなど、適切なデータに関する問題。調査結果が歪められ、危険な結果につながる可能性があります。特に緊急の状況では代理手段の使用が必要になる場合もありますが、大規模に行うとエラーが拡大する可能性があります。そして、データが説明しようとしている現実世界の現象を歪めます…
これらのエラーを防ぐために、データの完全性と適切性が慎重に評価されます。
整合性の高いデータは完全でアトミックであり、十分に注釈が付けられています。これにより、より詳細な分析が可能になります。ただし、多くのデータセットにはこれらの機能がありません。そして、これらの制限を理解し、改善できるかどうかはアナリスト次第です。彼らは多くの場合、追加情報を検索したり、データセットや研究分野に精通した専門家に相談したりします。
この URL をチェックして、pdf および ipynb ファイル github を使用してください
免責事項: 提供されるすべてのリソースの一部はインターネットからのものです。お客様の著作権またはその他の権利および利益の侵害がある場合は、詳細な理由を説明し、著作権または権利および利益の証拠を提出して、電子メール [email protected] に送信してください。 できるだけ早く対応させていただきます。
Copyright© 2022 湘ICP备2022001581号-3