flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
第一章 导论
flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
注记
flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
注记
观察现象 (Observation): 通过各种方式(如传感器、问卷调查、人工记录等)收集关于对象的信息。
flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
注记
flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
注记
flowchart LR A[对象] -->|观察现象| B(数据); B -->|归纳总结| C[规律];
注记
举例:
一家电商公司(对象)通过用户浏览记录、购买记录等(观察现象)收集了大量的用户行为数据(数据)。通过对这些数据进行分析(归纳总结),发现用户在晚上8点到10点之间购买量最大(规律)。
提示
在已定假设、先验约束上,对数据进行整理、筛选和加工,并得到信息的过程。
提示
信息: 从数据得出的一些初步结论和结果。例如:平均值、方差、相关性等。
举例: 假设我们已经知道,用户年龄和购买金额可能存在正相关。那么,我们就可以选择年龄和购买金额这两个feature,计算它们的相关系数。如果相关系数为正,说明两者确实存在正相关,验证了我们的假设。
提示
在数据分析得到信息的基础上进一步获得认知,转为有效的预测和决策。
提示
有效的预测和决策: 基于认知,可以对未来进行预测,或做出更明智的决策。
举例: 在统计分析得出用户年龄和购买金额存在正相关的结论后,我们可以使用线性回归等算法,建立一个预测模型。输入用户的年龄,预测其购买金额。这样就将信息转化为了认知和预测能力。
重要
利用经验来改善计算机系统自身的性能。
案例:垃圾邮件过滤
重要
识别出巨量数据中有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,即从海量数据中找到有用的知识。
提示
数据预处理是数据分析中非常重要的环节,数据质量的好坏直接影响到后续分析结果的准确性和可靠性。通常会占到整个数据分析流程60%以上的时间。
常用数据分析库包括:
常用数据分析库包括:
提示
Python 的胶水语言特性使其能够方便地调用其他语言编写的程序,从而充分利用各种资源,提高开发效率。
邱飞 💌 [email protected]