2 个仓库
Vertical and horizontal concatenation of tables to merge information.
Distinct from Table Joining Operations: Focuses on structural stacking (union all/bind columns) rather than relational merging based on keys.
Explore 2 awesome GitHub repositories matching data & databases · Table Stacking. Refine with filters or upvote what's useful.
dplyr 是一个 R 语言数据处理库,为转换表格数据框提供了语法。它充当内存数据框处理器和关系数据代数工具,使用一组一致的动词来过滤、选择和汇总数据。 该项目包含一个 SQL 翻译引擎,可将高级数据处理表达式转换为优化后的查询。这允许用户直接在远程关系数据库和云存储上执行转换,而无需将数据拉取到本地。 该库涵盖了广泛的表格操作,包括列变异、行子集化和关系数据连接。它还提供了分组数据分析功能,允许对数据集进行分区以进行独立的聚合和汇总。
Stacks tables vertically by rows or horizontally by columns to combine datasets.
该项目是一个针对 R 的高性能表格数据处理框架,旨在以内存效率和速度处理海量数据集。它提供了一种增强的数据结构,利用引用语义和就地修改来执行复杂的转换,而无需不必要的对象复制开销。 该库凭借其底层架构优化脱颖而出,包括多线程并行处理、基数排序和内存映射文件解析。通过将关键的数据操作和聚合例程卸载到编译后的 C 代码,它实现了对原本计算昂贵的任务的快速执行。其核心引擎支持高级关系操作,如非等值连接、滚动连接和重叠区间连接,以及用于加速重复数据访问的自动二级索引。 除了主要的处理功能外,该项目还提供了一套全面的数据生命周期管理工具。这包括具有自动类型检测的高速摄取和序列化工具,以及对时间序列分析和多维聚合的专门支持。该框架旨在实现可扩展性,允许用户在包含数十亿行的数据集上执行复杂的分组、过滤和重塑操作,同时保持系统稳定性和性能。
Merges multiple tables vertically into a single large dataset for high-speed processing.