3 个仓库
Methods for discovering patterns and modeling data using statistical approaches.
Distinguishing note: Focuses on the analytical processing stage of data.
Explore 3 awesome GitHub repositories matching data & databases · Data Processing Techniques. Refine with filters or upvote what's useful.
This project is a comprehensive educational curriculum designed to teach the fundamental concepts, workflows, and tools of data science. It provides a structured learning path that covers the end-to-end data science lifecycle, including data acquisition, maintenance, processing, and pattern discovery, while grounding theoretical knowledge in practical, real-world applications. The curriculum distinguishes itself through a data-driven pedagogical design that utilizes interactive, notebook-based lessons. By combining narrative text with live code blocks, the platform allows learners to experime
Explains statistical methods and modeling techniques used to discover patterns in data.
本项目是一个全面的 pandas 数据分析教程和指南,旨在帮助学习数据处理与分析。它涵盖了表格数据处理、时间序列分析,并提供了清洗、合并及转换数据集的结构化方法。 该仓库还充当数据特征工程课程,提供关于构建和选择数据集特征以提升机器学习模型性能的教程。此外,它还包含用于执行逐元素数学计算和矩阵操作的向量化数据处理指南。 内容涵盖了广泛的功能,包括数据清洗工作流、数据集成任务和表格数据分析。它还提供了处理文本信息、处理分类数据以及优化大规模数据集执行速度的指导。 项目以一系列 Jupyter Notebook 的形式呈现,包含实践练习和针对性的练习题。
Guides the processing of diverse data types including missing values, text strings, and categorical labels.
该仓库作为软件开发者的教育资源,提供了一个专注于基础计算概念和系统操作的结构化教程集合。它涵盖了核心领域,包括算法数据处理、文档导向数据库管理和 Linux 系统管理。 该项目通过弥合理论计算机科学与实际基础设施管理之间的差距脱颖而出。它提供关于实现函数式编程模式和基础搜索算法的指导,同时提供关于导航 Unix Shell 环境和管理远程数据库实例的说明。 材料涵盖了广泛的技术实践,包括数据转换、过滤和聚合技术。它还详细介绍了架构概念,如基于哈希的索引、冲突解决策略和分层数据建模,以支持高效的信息检索和存储。
Provides fundamental search, transformation, and aggregation techniques for processing data sequences and optimizing retrieval efficiency.