数据分析常用词汇包括结构化、半结构化、非结构化数据,以及元数据、数据分析、数据挖掘等核心概念,涵盖数据存储(如数据湖、数据仓库、湖仓一体)、安全计算(如隐私保护计算、联邦学习)及数据分析技术(如主成分分析、回归系数),需理解其定义与应用场景以提升数据处理能力。
- 数据类型:结构化数据符合关系型数据库模型,半结构化数据含标记但无固定格式,非结构化数据无预定义模型(如文本、图像),元数据用于描述数据结构与关系。
- 数据处理与存储:数据分析通过整理与统计提取信息,数据挖掘依赖机器学习等技术挖掘价值,数据可视化用图表直观呈现规律;数据存储架构包括数据仓库(结构化存储)、数据湖(灵活存储多源数据)和湖仓一体(融合二者优势)。
- 隐私保护与安全计算:隐私保护计算通过安全多方计算、联邦学习等技术实现数据“可用不可见”,保障流转全流程安全,满足合规需求。
- 常用术语:统计学中,平均数反映集中趋势,中位数和众数辅助描述数据分布;同比与环比用于时间对比,百分比与基数反映绝对与相对变化;数据降维与清洗技术(如缺失值处理)提升分析效率。
- 高级技术:主成分分析(PCA)降维提取关键特征,回归系数衡量变量关系,偏相关剔除干扰因素;分位数-分位数图(Q-Q图)验证模型假设;基尼系数、恩格尔系数等指标用于经济分析。
掌握这些术语有助于精准解读数据结果,优化分析流程。无论是决策制定、产品优化,还是科学研究,均需结合场景选择适合的工具与方法,以实现数据价值的最大化挖掘与呈现。