SimpleMem

SimpleMem is a persistent memory system for AI assistants designed to maintain context across different user chat sessions. It functions as a memory server and multimodal vector database that stores and retrieves information from text, images, audio, and video.

The project features a context compression engine that distills interaction histories into compact units to reduce token consumption. It utilizes a distributed memory orchestrator and worker-thread parallel processing to reduce latency when querying large-scale dialogue datasets.

The system implements a hybrid indexing approach combining semantic and keyword search for multimodal retrieval. It also includes a diagnostic framework for retrieval optimization that identifies failures and adjusts configurations to improve search precision.

Features

Long-term Memory Stores - Provides a persistent memory store that allows AI assistants to maintain context across different user chat sessions.

Multimodal Context Providers - Retrieves and assembles context from text, images, audio, and video to provide comprehensive situational awareness.

Context Compression - Provides an engine for summarizing long interaction histories into compact units to minimize LLM token usage.

Interaction Compression - Distills complex multimodal dialogue and media interactions into compact units to minimize LLM token consumption.

Retrieval Optimization - Provides an iterative loop to diagnose retrieval failures and automatically tune configurations for better search precision.

Multi-Modal Memory Stores - Operates as a persistent store managing text, images, and dialogue history across sessions using a standardized protocol.

LLM Token Compression - Reduces token consumption by compressing interaction histories into compact, non-redundant units.

Hybrid Vector-Keyword Indexing - Combines dense vector embeddings with inverted keyword indices to retrieve precise multimodal context.

History Distillation - Compresses multimodal interaction histories into compact memory units to reduce token usage and eliminate redundancy.

Multimodal Search - Indexes and retrieves information across text, image, audio, and video using a multimodal semantic search system.

MCP Servers - Implements a Model Context Protocol server to expose persistent memory stores to AI assistants.

Model Context Protocol Servers - Exposes a standardized Model Context Protocol interface for AI assistants to maintain persistent session context.

Diagnostic Tuning - Diagnoses retrieval failures and automatically adjusts search configurations to improve memory recovery precision.

RAG Optimizations - Includes a diagnostic framework to optimize the precision of memories recovered in RAG pipelines.

Memory Processing Processors - Implements a memory processing pipeline that distributes retrieval and storage across multiple worker threads.

Distributed Memory Orchestration - Coordinates multiple workers to reduce latency when querying large-scale dialogue datasets.

High-Throughput Task Processing - Implements high-throughput task processing using distributed workers to accelerate memory building and retrieval.

Parallel Retrieval Processing - Uses multiple background worker threads to parallelize memory building and query retrieval, reducing latency for large datasets.

aiming-labSimpleMem

Features

Star history