# ccfos/nightingale

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/ccfos-nightingale).**

13,108 stars · 1,727 forks · Go · Apache-2.0

## Links

- GitHub: https://github.com/ccfos/nightingale
- Homepage: https://n9e.github.io
- awesome-repositories: https://awesome-repositories.com/repository/ccfos-nightingale.md

## Topics

`alerting` `ccf` `metrics` `monitoring` `nightingale` `observability` `open-falcon` `time-series` `tsdb`

## Description

Nightingale is a Prometheus-compatible monitoring and alerting platform designed to centralize telemetry management across multiple time-series databases. It functions as a multi-source alerting engine and metric data pipeline that ingests telemetry via remote write protocols and triggers alarms based on data from sources such as Prometheus, Elasticsearch, Loki, and ClickHouse.

The system is distinguished by its automated alert healing system, which executes predefined scripts and RPC-based corrective actions when monitoring thresholds are breached. It supports distributed alert processing, allowing the evaluation engine to run at the network edge to ensure monitoring reliability in remote data centers with unstable connectivity.

The platform covers a broad range of observability capabilities, including metric and log-based alerting, system metric visualization through distributed dashboards, and multi-channel notification routing. It also provides a plugin-based collection architecture for monitoring host heartbeats, network ports, and database performance, alongside enterprise access management utilizing single sign-on and hierarchical business group permissions.

The project supports multiple installation paths, including single-node, cluster mode, and Kubernetes deployments via Helm charts.

## Tags

### Artificial Intelligence & ML

- [Operational Self-Healing](https://awesome-repositories.com/f/artificial-intelligence-ml/agentic-automation-frameworks/operational-self-healing.md) — Triggers predefined corrective scripts on remote machines via RPC to automatically resolve monitoring breaches.

### System Administration & Monitoring

- [Centralized Monitoring Platforms](https://awesome-repositories.com/f/system-administration-monitoring/centralized-monitoring-platforms.md) — Provides a centralized platform to unify telemetry data from multiple time-series databases and logs for integrated monitoring and alerting.
- [Alert Management Systems](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-and-observability/observability-platforms/operational-health-alerting/alert-management-systems.md) — Centralizes alert rules and permission controls across multiple time-series databases into a single management platform. ([source](https://n9e.github.io/docs/prologue/prometheus/))
- [Resource Organization](https://awesome-repositories.com/f/system-administration-monitoring/administrative-operations/resource-organization.md) — Assigns machines, rules, dashboards, and scripts to business groups to isolate resources by organizational boundaries. ([source](https://n9e.github.io/docs/usecase/bizgroup/))
- [Alert Generation Engines](https://awesome-repositories.com/f/system-administration-monitoring/alert-generation-engines.md) — Features an evaluation system that triggers alarms based on telemetry data from Prometheus, Elasticsearch, Loki, and ClickHouse.
- [Alert Notification Systems](https://awesome-repositories.com/f/system-administration-monitoring/alert-notification-systems.md) — Provides configurable communication channels and customizable templates for distributing real-time monitoring notifications. ([source](https://cdn.jsdelivr.net/gh/ccfos/nightingale@main/README.md))
- [Incident Notification Rules](https://awesome-repositories.com/f/system-administration-monitoring/alert-notification-systems/notification-configuration-updates/incident-notification-rules.md) — Allows definition of the conditions and notification channels used to distribute alerts when thresholds are met. ([source](https://n9e.github.io/docs/prologue/videos/))
- [Alert Routing](https://awesome-repositories.com/f/system-administration-monitoring/alert-routing.md) — Implements routing logic to direct alerts to specific teams and channels based on severity and data source metadata. ([source](https://n9e.github.io/docs/faq/global-callback/))
- [Alert Thresholds](https://awesome-repositories.com/f/system-administration-monitoring/alert-thresholds.md) — Configures numerical limits and query conditions against data sources to detect anomalies and trigger alert events. ([source](https://n9e.github.io/docs/usecase/alerting/))
- [Distributed Evaluation Engines](https://awesome-repositories.com/f/system-administration-monitoring/alerting-and-incident-management/alerting-systems/distributed-evaluation-engines.md) — Spreads alert evaluations across multiple processing nodes to balance load and ensure automatic failover. ([source](https://n9e.github.io/docs/prologue/architecture/))
- [Alerting Logic Engines](https://awesome-repositories.com/f/system-administration-monitoring/alerting-logic-engines.md) — Defines flexible alert rules with custom effective times, event relabeling, and automated healing triggers. ([source](https://n9e.github.io/docs/prologue/prometheus/))
- [Edge Alert Evaluation](https://awesome-repositories.com/f/system-administration-monitoring/edge-alert-evaluation.md) — Runs alert evaluation engines at the network edge to ensure monitoring reliability in remote data centers with unstable connectivity.
- [External Data Source Integrations](https://awesome-repositories.com/f/system-administration-monitoring/external-data-source-integrations.md) — Retrieves data from external time-series databases and search engines for visualization and alert evaluation. ([source](https://n9e.github.io/docs/prologue/architecture/))
- [Automated Incident Response Workflows](https://awesome-repositories.com/f/system-administration-monitoring/incident-management/automated-incident-response-workflows.md) — Implements automated workflows to detect service disruptions and restore stability through predefined incident response actions and self-healing scripts.
- [Metric Data Ingestion](https://awesome-repositories.com/f/system-administration-monitoring/logging-and-telemetry/metric-data-ingestion.md) — Implements a routing layer that ingests telemetry via remote write protocols and forwards it to various time-series backends.
- [Infrastructure Metric Ingestion](https://awesome-repositories.com/f/system-administration-monitoring/logging-and-telemetry/metric-data-ingestion/infrastructure-metric-ingestion.md) — Ingests performance metrics from external programs using industry-standard protocols to centralize telemetry data. ([source](https://n9e.github.io/docs/usecase/api/))
- [Metric Transformation Pipelines](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-and-observability/observability-platforms/metric-performance-monitors/pipeline-processing/metric-transformation-pipelines.md) — Gathers application metrics using a plugin-based architecture to aggregate and transform data before transmission. ([source](https://n9e.github.io/docs/agent/telegraf/))
- [PromQL Rule Evaluation Engines](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-and-observability/rule-based-alerting-engines/promql-rule-evaluation-engines.md) — Evaluates PromQL queries against data sources to trigger alerts based on predefined thresholds and frequencies. ([source](https://n9e.github.io/docs/usage/metric-alerting/))
- [Multi-Source Alerting Engines](https://awesome-repositories.com/f/system-administration-monitoring/multi-source-alerting-engines.md) — Provides an alerting engine that triggers alarms based on telemetry data from Prometheus, Elasticsearch, Loki, and ClickHouse. ([source](https://n9e.github.io/docs/prologue/prometheus/))
- [Edge Alert Evaluation](https://awesome-repositories.com/f/system-administration-monitoring/remote-alerting/edge-alert-evaluation.md) — Executes alert rules locally within remote data centers to ensure reliability during network instability. ([source](https://n9e.github.io/docs/prologue/architecture/))
- [Monitoring Data Visualization](https://awesome-repositories.com/f/system-administration-monitoring/system-metrics/visual-graphing/monitoring-data-visualization.md) — Displays dashboards with various chart types and business-group filtering to monitor performance. ([source](https://n9e.github.io/docs/prologue/introduction/))
- [Telemetry Ingestion](https://awesome-repositories.com/f/system-administration-monitoring/telemetry-ingestion.md) — Connects to various storage backends and ingestion protocols to perform alerting and analysis on telemetry data. ([source](https://cdn.jsdelivr.net/gh/ccfos/nightingale@main/README.md))
- [Administrative APIs](https://awesome-repositories.com/f/system-administration-monitoring/administrative-apis.md) — Provides programmatic interfaces for the automated management of alarm rules, metadata, and system operations. ([source](https://n9e.github.io/docs/usecase/api/))
- [Alarm Processing Pipelines](https://awesome-repositories.com/f/system-administration-monitoring/alarm-processing-pipelines.md) — Runs alarms through a sequence of automated steps to append metadata or relabel events. ([source](https://cdn.jsdelivr.net/gh/ccfos/nightingale@main/README.md))
- [Severity-Based Routing](https://awesome-repositories.com/f/system-administration-monitoring/alarm-processing-pipelines/severity-based-routing.md) — Directs alarm events to specific communication channels based on the severity level of the alert. ([source](https://n9e.github.io/docs/usage/notify-rules/))
- [Alert Event Forwarding](https://awesome-repositories.com/f/system-administration-monitoring/alert-event-forwarding.md) — Sends alert event data to external HTTP endpoints to trigger automated third-party workflows. ([source](https://n9e.github.io/docs/usecase/processor/))
- [AI-Powered Notification Summaries](https://awesome-repositories.com/f/system-administration-monitoring/alert-notification-systems/ai-powered-notification-summaries.md) — Integrates with large language models to analyze alert events and append automated summaries to notifications. ([source](https://n9e.github.io/docs/usecase/alerting/))
- [HTTP Callbacks](https://awesome-repositories.com/f/system-administration-monitoring/alert-notification-systems/http-callbacks.md) — Supports triggering external workflows via configurable HTTP POST callbacks containing alert event data. ([source](https://n9e.github.io/docs/usecase/media/))
- [Alert Pattern Analysis Tools](https://awesome-repositories.com/f/system-administration-monitoring/alert-pattern-analysis-tools.md) — Archives past alert events and provides multi-dimensional querying to identify recurring patterns and distributions. ([source](https://n9e.github.io/docs/prologue/introduction/))
- [Alert Suppression Systems](https://awesome-repositories.com/f/system-administration-monitoring/alert-suppression-systems.md) — Provides tools to manage and schedule maintenance windows to silence notifications during planned system downtime. ([source](https://n9e.github.io/docs/usecase/mute/))
- [Availability Monitoring](https://awesome-repositories.com/f/system-administration-monitoring/availability-monitoring.md) — Triggers alerts when a monitored host stops sending data or fails ping tests. ([source](https://n9e.github.io/docs/practice/linux/))
- [Business KPI Monitoring](https://awesome-repositories.com/f/system-administration-monitoring/business-kpi-monitoring.md) — Executes custom SQL scripts to monitor business-level key performance indicators and extend tracking. ([source](https://n9e.github.io/docs/practice/mysql/))
- [Cluster Monitoring Dashboards](https://awesome-repositories.com/f/system-administration-monitoring/cluster-monitoring-dashboards.md) — Ships a web interface for visualizing system performance and managing resource groups across clustered and edge deployments.
- [Database Performance Monitors](https://awesome-repositories.com/f/system-administration-monitoring/database-performance-monitors.md) — Collects and analyzes system metrics from databases using exporters or plugins to track health. ([source](https://n9e.github.io/docs/practice/mysql/))
- [Log Pattern Alerting](https://awesome-repositories.com/f/system-administration-monitoring/log-pattern-alerting.md) — Queries log sources periodically and triggers notifications when logs match specific text patterns or severity levels. ([source](https://n9e.github.io/docs/usage/logs-alerting/))
- [Log Query Engines](https://awesome-repositories.com/f/system-administration-monitoring/log-querying-interfaces/log-query-engines.md) — Searches logs via index patterns or direct queries using KQL or Lucene syntax. ([source](https://n9e.github.io/docs/usage/ad-hoc/))
- [Script-Based](https://awesome-repositories.com/f/system-administration-monitoring/metric-collection/script-based.md) — Runs user-defined scripts in various languages to capture and parse standard output into monitoring data. ([source](https://n9e.github.io/docs/practice/exec/))
- [Metric Relabeling](https://awesome-repositories.com/f/system-administration-monitoring/metric-relabeling.md) — Modifies labels of monitoring data before writing to the backend database to ensure naming consistency. ([source](https://n9e.github.io/docs/install/configuration/))
- [Metrics Exporters](https://awesome-repositories.com/f/system-administration-monitoring/metrics-exporters.md) — Sends collected metric data to external time-series databases using configurable output plugins. ([source](https://n9e.github.io/docs/agent/telegraf/))
- [Monitoring Agents](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-agents.md) — Links existing monitoring agents by configuring target URLs for centralized data ingestion. ([source](https://n9e.github.io/docs/agent/datadog-agent/))
- [AI Event Summarization](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-and-observability/observability-platforms/operational-health-alerting/event-monitoring-systems/ai-event-summarization.md) — Uses AI to generate concise summaries of alert events for quicker insight into system issues. ([source](https://n9e.github.io/docs/usecase/processor/))
- [HTTP Health Probes](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-and-observability/observability-platforms/operational-health-alerting/health-monitoring-endpoints/http-health-probes.md) — Verifies web services by checking response codes, body content, and SSL expiration dates via HTTP probes. ([source](https://n9e.github.io/docs/practice/port/))
- [Monitoring Rule Imports](https://awesome-repositories.com/f/system-administration-monitoring/monitoring-rule-imports.md) — Loads existing monitoring configurations and pre-defined rules from Prometheus or standard database middleware. ([source](https://cdn.jsdelivr.net/gh/ccfos/nightingale@main/README.md))
- [Process Monitors](https://awesome-repositories.com/f/system-administration-monitoring/process-monitors.md) — Collects resource usage metrics for specific processes via external exporters or embedded instrumentation. ([source](https://n9e.github.io/docs/practice/proc/))
- [Ecosystem Integrations](https://awesome-repositories.com/f/system-administration-monitoring/prometheus-exporters/ecosystem-integrations.md) — Supports importing rules and querying data from Prometheus-compatible sources to centralize alerting logic.

### Business & Productivity Software

- [Alert-Based Script Triggers](https://awesome-repositories.com/f/business-productivity-software/automation-triggers/alert-based-script-triggers.md) — Executes predefined scripts automatically when monitoring thresholds are breached to resolve system issues. ([source](https://n9e.github.io/docs/prologue/introduction/))
- [Self-Healing Systems](https://awesome-repositories.com/f/business-productivity-software/automation-triggers/alert-based-script-triggers/self-healing-systems.md) — Provides an automated alert healing system that executes predefined scripts and RPC-based corrective actions when thresholds are breached.

### Data & Databases

- [Time-Series Data Abstractions](https://awesome-repositories.com/f/data-databases/database-abstraction-layers/time-series-data-abstractions.md) — Provides a unified interface to connect diverse time-series databases and search engines for alerting and visualization.
- [Metric Query Interfaces](https://awesome-repositories.com/f/data-databases/query-engines/metric-query-languages/metric-query-interfaces.md) — Executes time-series queries against data sources to visualize metrics and identify collection failures. ([source](https://n9e.github.io/docs/usage/ad-hoc/))
- [Time-Series Data Forwarding](https://awesome-repositories.com/f/data-databases/time-series-databases/time-series-data-forwarding.md) — Routes collected metrics to time-series databases using remote write protocols for persistence. ([source](https://n9e.github.io/docs/install/configuration/))
- [Alert Event Processing Pipelines](https://awesome-repositories.com/f/data-databases/data-processing-pipelines/data-processing/data-normalization-schema-enforcement/metadata-transformation-pipelines/alert-event-processing-pipelines.md) — Transforms alert data through a sequence of relabeling, filtering, and metadata enrichment steps before notification.
- [Telemetry Gap Detection](https://awesome-repositories.com/f/data-databases/missing-value-detection/telemetry-gap-detection.md) — Triggers an alert when expected data points disappear from a data source during periodic queries. ([source](https://n9e.github.io/docs/usage/metric-alerting/))

### DevOps & Infrastructure

- [Edge Monitoring Deployment](https://awesome-repositories.com/f/devops-infrastructure/edge-network-deployment/edge-monitoring-deployment.md) — Runs a distributed alert engine at the network edge to process data locally. ([source](https://n9e.github.io/docs/install/compose/))
- [Distributed Processing](https://awesome-repositories.com/f/devops-infrastructure/distributed-processing.md) — Spreads alert evaluation tasks across multiple processing nodes to balance load and provide automatic failover.
- [High Availability Deployments](https://awesome-repositories.com/f/devops-infrastructure/high-availability-deployments.md) — Runs multiple instances sharing a unified database and cache for high availability and distributed processing. ([source](https://n9e.github.io/docs/install/compose/))
- [Kubernetes Deployments](https://awesome-repositories.com/f/devops-infrastructure/kubernetes-deployments.md) — Uses Helm charts to manage the installation and lifecycle of the system within Kubernetes. ([source](https://n9e.github.io/docs/install/helm/))
- [Shared-State Clustering](https://awesome-repositories.com/f/devops-infrastructure/shared-state-clustering.md) — Runs multiple identical service instances using a unified database and cache for high availability and scaling.
- [Heartbeat Monitors](https://awesome-repositories.com/f/devops-infrastructure/worker-node-management/heartbeat-monitors.md) — Monitors real-time machine availability and basic metadata via a heartbeat interface. ([source](https://n9e.github.io/docs/practice/linux/))

### Security & Cryptography

- [Hierarchical Tool Permissions](https://awesome-repositories.com/f/security-cryptography/permission-systems/hierarchical-tool-permissions.md) — Organizes monitoring rules and data visibility using a tiered permission system based on organizational business units. ([source](https://cdn.jsdelivr.net/gh/ccfos/nightingale@main/README.md))
- [API Access Security](https://awesome-repositories.com/f/security-cryptography/api-access-security.md) — Protects agent and service API interfaces using Basic Authentication to prevent unauthorized access. ([source](https://n9e.github.io/docs/install/configuration/))
- [Enterprise Access Controls](https://awesome-repositories.com/f/security-cryptography/security/policies/access-control/enterprise-access-controls.md) — Integrates single sign-on and hierarchical business groups to provide enterprise-grade access control for dashboards and alert rules.
- [Single Sign-On Integrations](https://awesome-repositories.com/f/security-cryptography/single-sign-on-integrations.md) — Authenticates users via unified identity protocols including LDAP, CAS, OAuth2, and OIDC. ([source](https://n9e.github.io/docs/usecase/sso/))

### Software Engineering & Architecture

- [Metric Collection Plugins](https://awesome-repositories.com/f/software-engineering-architecture/software-architecture/architectural-patterns/plugin-module-systems/modular-plugin-architectures/plugin-based-architectures/plugin-based-architectures/metric-collection-plugins.md) — Uses a modular plugin architecture to gather, parse, and transform telemetry data from diverse external sources.

### Testing & Quality Assurance

- [Label-Based Alert Distribution](https://awesome-repositories.com/f/testing-quality-assurance/label-based-alert-distribution.md) — Filters and distributes alerts to specific users or teams using custom labels assigned to rules. ([source](https://n9e.github.io/docs/faq/biz-team-subscribe-infra-alarms/))

### Part of an Awesome List

- [Monitoring and Alerting](https://awesome-repositories.com/f/awesome-lists/devops/monitoring-and-alerting.md) — Monitoring system.