3 dépôts
Methods for discovering patterns and modeling data using statistical approaches.
Distinguishing note: Focuses on the analytical processing stage of data.
Explore 3 awesome GitHub repositories matching data & databases · Data Processing Techniques. Refine with filters or upvote what's useful.
This project is a comprehensive educational curriculum designed to teach the fundamental concepts, workflows, and tools of data science. It provides a structured learning path that covers the end-to-end data science lifecycle, including data acquisition, maintenance, processing, and pattern discovery, while grounding theoretical knowledge in practical, real-world applications. The curriculum distinguishes itself through a data-driven pedagogical design that utilizes interactive, notebook-based lessons. By combining narrative text with live code blocks, the platform allows learners to experime
Explains statistical methods and modeling techniques used to discover patterns in data.
Ce projet est un tutoriel complet d'analyse de données pandas et un guide pédagogique conçu pour apprendre la manipulation et l'analyse de données. Il sert de guide de traitement de données tabulaires et de manuel pour l'analyse de séries temporelles, fournissant une approche structurée pour nettoyer, fusionner et transformer les jeux de données. Le dépôt fonctionne comme un cours d'ingénierie de caractéristiques de données, fournissant des tutoriels sur la construction et la sélection de caractéristiques de jeu de données pour améliorer les performances des modèles d'apprentissage automatique. Il inclut également un guide d'opérations de données vectorisées pour effectuer des calculs mathématiques élément par élément et des manipulations de matrices. Le matériel couvre un large éventail de capacités, notamment les flux de travail de nettoyage de données, les tâches d'intégration de données et l'analyse de données tabulaires. Il fournit des conseils sur le traitement des informations textuelles, la gestion des données catégorielles et l'optimisation de la vitesse d'exécution pour les grands jeux de données. Le projet est livré sous forme d'une série de Jupyter Notebooks contenant des exercices pratiques et des problèmes d'entraînement ciblés.
Guides the processing of diverse data types including missing values, text strings, and categorical labels.
Ce dépôt sert de ressource pédagogique pour les développeurs de logiciels, fournissant une collection structurée de tutoriels axés sur les concepts computationnels fondamentaux et les opérations système. Il couvre des domaines centraux, notamment le traitement de données algorithmique, la gestion de bases de données orientées documents et l'administration système Linux. Le projet se distingue en comblant le fossé entre l'informatique théorique et la gestion pratique de l'infrastructure. Il offre des conseils sur l'implémentation de modèles de programmation fonctionnelle et d'algorithmes de recherche fondamentaux, tout en fournissant simultanément des instructions sur la navigation dans les environnements shell Unix et la gestion d'instances de bases de données distantes. Le matériel englobe un large éventail de pratiques techniques, y compris les techniques de transformation, de filtrage et d'agrégation de données. Il détaille également des concepts architecturaux tels que l'indexation basée sur le hachage, les stratégies de résolution de collisions et la modélisation de données hiérarchiques pour soutenir une récupération et un stockage efficaces des informations.
Provides fundamental search, transformation, and aggregation techniques for processing data sequences and optimizing retrieval efficiency.