8 repository-uri
Capabilities for querying and narrowing down document sets based on criteria.
Distinguishing note: Focuses on the filtering logic applied to database queries.
Explore 8 awesome GitHub repositories matching data & databases · Document Filtering. Refine with filters or upvote what's useful.
Payload is a headless content management system and application framework that uses a code-first approach to define data schemas and administrative interfaces. By utilizing a centralized, type-safe configuration object, it automatically generates database schemas, API endpoints, and a fully customizable admin panel. The system is built on a database-agnostic architecture, allowing it to interface with various storage engines while providing a unified, type-safe API for server-side operations, REST, and GraphQL. What distinguishes Payload is its deep extensibility and developer-centric design.
Filters returned document fields to optimize database performance and reduce payload size.
NeDB is a JavaScript embedded NoSQL document store designed for Node.js and the browser. It functions as an in-memory data store with the option to persist documents to a local file system, ensuring data survives application restarts. The project utilizes a MongoDB-compatible API to perform data operations, allowing it to serve as a lightweight document indexing system and a persistent file database without requiring a separate database server. Capabilities include querying, inserting, updating, and deleting documents, as well as the ability to create indexes on specific fields to accelerate
Retrieves documents using equality, comparison, and logical operators to filter records.
TinaCMS is a headless content management framework that bridges local Git-based file storage with a visual, in-context editing interface. By treating your repository as the single source of truth, it enables developers to manage content as structured data files while providing editors with a browser-based dashboard to modify website content directly within a live preview. The framework distinguishes itself by transforming local files into a unified GraphQL API, which powers both the administrative interface and the application's data retrieval layer. This architecture allows for compile-time
Restricts selectable documents in reference fields based on property values to improve navigation in large datasets.
elasticsearch-dump is a command line tool for importing, exporting, and transferring data between Elasticsearch and OpenSearch instances. It functions as an index dump utility that saves documents, mappings, and analyzers to local files or standard output. The tool enables the movement of data between clusters using local files as an intermediary and can flatten nested JSON documents into CSV files for external analysis. It allows for the modification or anonymization of documents during the transfer process through the use of custom JavaScript functions. The utility covers data extraction a
Allows the use of search queries to filter and select specific subsets of documents for export.
AIOS is an LLM agent operating system and orchestration kernel designed to manage memory, resource scheduling, and tool execution for multiple autonomous AI agents. It serves as a comprehensive framework for developing and deploying agents, featuring a dedicated resource manager that coordinates model backends, GPU memory, and isolated kernel instances. The system distinguishes itself through a semantic memory engine that uses vector search and autonomous clustering for long-term knowledge management, and a semantic file system that allows users to control computer files and system operations
Searches file collections using text queries and keyword filters to retrieve relevant documents.
ExecuTorch is a lightweight C++ runtime for deploying PyTorch models on mobile, embedded, and edge hardware. It provides an ahead-of-time compilation pipeline that exports, quantizes, and lowers model graphs into compact serialized programs, then executes them through a minimal runtime with hardware acceleration and on-device large language model inference capabilities. The project distinguishes itself through a hardware accelerator delegate system that partitions model subgraphs and offloads computation to specialized backends including NPUs, GPUs, and DSPs from Apple, Arm, Intel, MediaTek,
Provides a utility to decode classification logits into top-1 labels for vision model outputs.
AdalFlow este un framework de agenți AI autonomi și o bibliotecă de aplicații LLM concepută pentru construirea de fluxuri de lucru modulare. Servește ca interfață agnostic-model și orchestrator de pipeline-uri RAG, permițând utilizatorilor să dezvolte agenți ReAct care utilizează raționamentul iterativ și execuția de instrumente externe pentru a rezolva sarcini complexe. Proiectul se distinge printr-un sistem de optimizare a prompt-urilor care utilizează gradient descent textual pentru a rafina automat template-urile de prompt și exemplele few-shot. Acesta tratează feedback-ul modelului ca pe un semnal diferențiabil, permițând o formă de backpropagation pentru LLM-uri pentru a îmbunătăți iterativ calitatea output-ului pe baza metricilor de evaluare. Framework-ul acoperă o suprafață largă de capabilități, inclusiv retrieval-augmented generation cu căutare semantică vectorială și reranking, urmărirea execuției bazată pe span pentru observabilitate și parsare structurată bazată pe schemă. Oferă un strat de comunicare unificat pentru numeroși furnizori de modele proprietare și open-source și suportă conversia funcțiilor Python în interfețe standardizate de instrumente. Sistemul este implementat în Python și se integrează cu MLflow pentru urmărirea și analiza fluxurilor de lucru.
Restricts retrieved documents using SQL-like conditions or database-specific metadata filters.
Codesearch este un motor de căutare de cod indexat și un indexator de surse la scară largă conceput pentru a executa expresii regulate pe arbori de cod sursă extensivi. Acesta funcționează ca un instrument pentru găsirea unor modele de text specifice în codebase-uri mari prin analizarea și indexarea unor volume masive de fișiere sursă pentru recuperare rapidă. Sistemul utilizează un index de căutare specializat bazat pe trigrame pentru a accelera interogările complexe cu expresii regulate. Această abordare de indexare filtrează documentele candidate prin secvențe de trei caractere înainte de a aplica scanări complete cu expresii regulate pentru a asigura performanță ridicată pe seturi de date mari. Motorul gestionează procesarea textului Unicode pentru conținut codificat UTF-8 și Latin-1, asigurând potrivirea consistentă a caracterelor și a majusculelor/minusculelor între diferite limbaje. Capacitățile sale acoperă indexarea codului sursă, potrivirea modelelor și căutarea de înaltă performanță cu expresii regulate.
Identifies potential matches by executing regular expression queries against an optimized index to narrow document sets.