Why is pola-rs/polars a recommended Categorical Data Optimization GitHub Repositories repository?

Creates categorical columns that infer categories from data to reduce memory usage and increase speed.

Why is dmlc/xgboost a recommended Categorical Data Optimization GitHub Repositories repository?

Processes categorical features natively via partition-based splitting to improve efficiency and accuracy.

Why is lightgbm-org/lightgbm a recommended Categorical Data Optimization GitHub Repositories repository?

Optimizes partitions for categorical variables using native splitting instead of one-hot encoding.

Why is nlp-love/ml-nlp a recommended Categorical Data Optimization GitHub Repositories repository?

Implements native categorical splitting in decision trees to avoid one-hot encoding.

Why is dask/dask a recommended Categorical Data Optimization GitHub Repositories repository?

Converts columns to categorical types and tracks category sets to optimize performance across distributed partitions.

Why is iamseancheney/python_for_data_analysis_2nd_chinese_version a recommended Categorical Data Optimization GitHub Repositories repository?

Implements memory-efficient representations for categorical data to optimize performance during grouping operations.

Why is apache/pinot a recommended Categorical Data Optimization GitHub Repositories repository?

Classifies columns as dimensions, metrics, or time fields to enable internal optimizations like automated rollups.

7 repositorios

Awesome GitHub RepositoriesCategorical Data Optimization

Memory-efficient representations for categorical data in tabular formats.

Distinguishing note: Focuses on dynamic inference of categories for performance.

Explore 7 awesome GitHub repositories matching data & databases · Categorical Data Optimization. Refine with filters or upvote what's useful.

Encuentra los mejores repositorios con IA.Buscaremos los repositorios que mejor coincidan usando IA.

pola-rs/polars
pola-rs/polars
38,855Ver en GitHub
Polars is a high-performance columnar data processing library designed for efficient analytical workflows. It functions as a structured data library that organizes information into typed columns, utilizing the Apache Arrow memory format to enable zero-copy data sharing and cache-friendly, vectorized operations. The engine is built to handle large-scale tabular datasets, providing both local and distributed analytical runtimes that scale from single-machine environments to multi-node clusters. The project distinguishes itself through a sophisticated lazy query engine that constructs abstract e
Creates categorical columns that infer categories from data to reduce memory usage and increase speed.
Rustarrowdataframedataframe-library
Ver en GitHub38,855
dmlc/xgboost
dmlc/xgboost
28,471Ver en GitHub
XGBoost is a distributed machine learning library for implementing scalable gradient boosting decision trees used for regression, classification, and ranking. It functions as a predictive model framework and a cross-language toolkit, providing a core implementation with native bindings for Python, R, Java, Scala, and C++. The system is designed as a GPU-accelerated library that utilizes CUDA and NCCL to speed up the training of decision tree ensembles. It operates as a distributed framework capable of scaling training and prediction across multi-node clusters and GPU environments to process m
Processes categorical features natively via partition-based splitting to improve efficiency and accuracy.
C++distributed-systemsgbdtgbm
Ver en GitHub28,471
lightgbm-org/lightgbm
lightgbm-org/LightGBM
18,460Ver en GitHub
LightGBM is a gradient boosting framework used to train decision tree ensembles for classification, regression, and ranking tasks. It functions as a distributed machine learning library and a decision tree ensemble implementation that utilizes leaf-wise growth and histogram-based feature binning. The framework is distinguished by its ability to offload heavy computations to CUDA or OpenCL devices for GPU acceleration and its capacity to parallelize training across multiple nodes using sockets, MPI, or Dask. It includes a specialized categorical feature processor that optimizes partitions for
Optimizes partitions for categorical variables using native splitting instead of one-hot encoding.
C++
Ver en GitHub18,460
nlp-love/ml-nlp
NLP-LOVE/ML-NLP
17,725Ver en GitHub
This project is a machine learning algorithm reference and implementation guide that provides theoretical foundations and code for supervised learning, deep learning, and natural language processing. It serves as a comprehensive toolkit for implementing predictive models and a technical reference for algorithm engineering. The project focuses on ensemble learning frameworks, including the construction of decision trees, random forests, and gradient boosting models. It also functions as a probabilistic graphical model library and an NLP algorithm reference, with specific implementations for se
Implements native categorical splitting in decision trees to avoid one-hot encoding.
Jupyter Notebookdeep-learningmachine-learningnlp
Ver en GitHub17,725
dask/dask
dask/dask
13,746Ver en GitHub
Dask es un framework de computación paralela y un programador de tareas distribuido diseñado para escalar flujos de trabajo de ciencia de datos en Python desde máquinas individuales hasta grandes clústeres. Funciona como un gestor de recursos de clúster que orquesta la lógica computacional representando las tareas y sus dependencias como grafos acíclicos dirigidos. Esta arquitectura permite al sistema automatizar la distribución de cargas de trabajo a través del hardware disponible mientras gestiona requisitos de ejecución complejos. El proyecto se distingue por un motor de evaluación perezosa que difiere las operaciones de datos hasta que se solicitan explícitamente, permitiendo la optimización global del grafo y una asignación eficiente de recursos. Incorpora el volcado de datos consciente de la memoria para evitar fallos del sistema al procesar conjuntos de datos que exceden la memoria disponible, y utiliza la fusión de grafos de tareas para combinar secuencias de operaciones en pasos de ejecución únicos, minimizando la sobrecarga de programación y la comunicación entre nodos. La plataforma proporciona una superficie de capacidades integral para el análisis de datos a gran escala, incluyendo soporte para aprendizaje automático distribuido, integración de computación de alto rendimiento y procesamiento de datos en paralelo. Ofrece herramientas extensas para la gestión del ciclo de vida del clúster, perfilado de rendimiento y monitoreo en tiempo real de la ejecución de tareas. Los usuarios pueden desplegar estos entornos en diversas infraestructuras, incluyendo hardware local, proveedores de nube, sistemas en contenedores y clústeres de computación de alto rendimiento.
Converts columns to categorical types and tracks category sets to optimize performance across distributed partitions.
Pythondasknumpypandas
Ver en GitHub13,746
iamseancheney/python_for_data_analysis_2nd_chinese_version
iamseancheney/python_for_data_analysis_2nd_chinese_version
8,937Ver en GitHub
This project is an educational resource and a collection of instructional materials for performing data manipulation and statistical analysis using Python. It provides a comprehensive set of guides and code examples for using the Pandas, NumPy, and Matplotlib libraries to analyze structured data. The resource includes a dedicated guide for reshaping, cleaning, and aggregating tabular data and time series via Pandas, alongside a reference for high-performance vectorized operations and linear algebra using NumPy. It also features tutorials for creating publication-quality charts, distribution p
Implements memory-efficient representations for categorical data to optimize performance during grouping operations.
matplotlibnumpypandas
Ver en GitHub8,937
apache/pinot
apache/pinot
6,098Ver en GitHub
Pinot is a distributed, columnar analytical database designed for high-concurrency, low-latency query processing. It functions as a real-time OLAP datastore, enabling interactive, user-facing analytics by ingesting and querying massive datasets from both streaming and batch sources. The system architecture relies on a centralized controller for cluster coordination and a distributed segment-based storage model to ensure horizontal scalability. The platform distinguishes itself through a hybrid ingestion pipeline that unifies real-time event streams and historical batch data into a single quer
Classifies columns as dimensions, metrics, or time fields to enable internal optimizations like automated rollups.
Java
Ver en GitHub6,098

Awesome Categorical Data Optimization GitHub Repositories

pola-rs/polars

dmlc/xgboost

lightgbm-org/LightGBM

NLP-LOVE/ML-NLP

dask/dask

iamseancheney/python_for_data_analysis_2nd_chinese_version

apache/pinot

Explorar subetiquetas