check_ganglia_metric is een Nagios plugin waarmee je waarschuwingen triggeren op een Ganglia metrische.
check_ganglia_metric werd sterk geïnspireerd door Vladimir Vuksan's check_ganglia_metric.php, maar het komt met een aantal verbeteringen.
Installatie
# Pip check_ganglia_metric installeren
... Of:
# Easy_install check_ganglia_metric
Ganglia Configuratie
Tenzij uw Nagios server en Ganglia Meta Daemon worden uitgevoerd op dezelfde host, moet u wellicht uw gmetad.conf bewerken om externe verbindingen van uw Nagios server mogelijk te maken.
Om connecties van nagios-server.example.com toe te staan:
trusted_hosts nagios-server.example.com
Om connecties van alle hosts (waarschijnlijk een gevaar voor de veiligheid) toe te staan:
all_trusted op
Testen op het Command Line
Laten we eerst eens kijken of check_ganglia_metric kan communiceren met de Ganglia Meta Daemon:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = host.example.com --metric_name = cpu_idle
Status Ok, CPU Idle = 99,3% | cpu_idle = 99,3% ;;;;
De "Status OK" melding geeft aan dat check_ganglia_metric werkt. Als je moeite hebt om dit te laten werken, probeer het opnieuw met uitgebreide logboekregistratie ingeschakeld (--verbose) om beter inzicht te krijgen in wat er mis gaat.
Laten we nu proberen het instellen van een alarmdrempel:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = host.example.com --metric_name = cpu_idle --critical = 99
Status Kritische, CPU Idle = 99,6% | cpu_idle = 99,6% ;; 99 ;;
We vertelden check_ganglia_metric om een "kritische" toestand terug te keren als de Idle CPU was groter dan 99. De "Status Kritische" melding geeft aan dat het werkte. Merk op dat check_ganglia_metric ontleedt reeksen en drempels volgens de officiële richtlijnen Nagios plugin ontwikkeling.
Om een volledige lijst van command line opties met een korte uitleg, lopen check_ganglia_metric met de --help optie te zien.
Nagios Configuratie
Maak eerst een commando definitie:
definiëren commando {
& Nbsp; command_name check_ganglia_metric
& Nbsp; command_line /usr/bin/check_ganglia_metric.py --gmetad_host = gmetad-server.example.com --metric_host = $ Hostaddress $ --metric_name = $ ARG1 $ --warning = $ ARG2 $ --critical = $ arg3 $
}
Nu kunt u de bovenstaande opdracht te gebruiken in uw dienst definities:
definiëren dienst {
& Nbsp; service_description CPU inactieve - Ganglia
& Nbsp; gebruik some_template
! & Nbsp; check_command check_ganglia_metric cpu_idle 0: 20 0: 0!
& Nbsp; host_name host.example.com
}
Dit werkt prima totdat er iets mis is met check_ganglia_metric gaat (bijvoorbeeld de cache-bestand niet kan worden gelezen / geschreven, de ganglia Meta Daemon kan niet worden bereikt, enz.). Op dat moment zal elke dienst die is gebaseerd op check_ganglia_metric falen, wat mogelijk overspoelen u met waarschuwingen. We kunnen dit voorkomen door het gebruik van de dienst afhankelijkheden.
Het eerste wat we nodig hebben is een commando definitie voor het controleren van de leeftijd van een bestand:
definiëren commando {
& Nbsp; command_name check_file_age
& Nbsp; command_line / usr / lib / nagios / plugins / check_file_age -f $ ARG1 $ w $ ARG2 $ -c $ arg3 $
}
Vervolgens definiëren we een dienst die de leeftijd van cache-bestand check_ganglia_metric's controleert. Merk op dat om werkelijk effectief te zijn, deze dienst moet regelmatig worden gecontroleerd althans (bij voorkeur meer) dan alle andere controles die afhankelijk check_ganglia_metric:
definiëren dienst {
& Nbsp; service_description Cache voor check_ganglia_metric
& Nbsp; gebruik some_template
& Nbsp;!? Check_command check_file_age /var/lib/nagios/.check_ganglia_metric.cache 60 120
& Nbsp; host_name localhost
& Nbsp; check_interval 1
& Nbsp; max_check_attempts 1
}
Tot slot hebben we het opzetten van de werkelijke dienst afhankelijkheid. Merk op dat ik heb ingeschakeld use_regexp_matching in Nagios, die me in staat stelt om reguliere expressies te gebruiken in mijn richtlijnen. Door vast te houden "- ganglia" aan het einde van elke dienst die is gebaseerd op check_ganglia_metric, kan ik mezelf een hoop inspanning:
definiëren servicedependency {
& Nbsp; host_name localhost
& Nbsp; service_description Cache voor check_ganglia_metric
& Nbsp; dependent_host_name *.
& Nbsp;. Dependent_service_description * - Ganglia $
& Nbsp; execution_failure_criteria c, p
}
Nu als er iets mis is met check_ganglia_metric gaat, zal slechts één signalering worden gestuurd over de cache-bestand, en alle afhankelijke dienstencheques zal worden onderbroken totdat u het probleem dat check_ganglia_metric te mislukken veroorzaakt te repareren. Zodra het probleem is opgelost, moet u de tijdstempel op de cache-bestand bij te werken met het oog op de "Cache voor check_ganglia_metric" dienst terug in een OK status (die je zal toestaan afhankelijk dienstencheques om door te gaan):
& Nbsp; tintje /var/lib/nagios/.check_ganglia_metric.cache
Tips en trucs
Het is mogelijk om een volledige lijst van beschikbare hosts en metrics te krijgen door het inschakelen van "uitgebreidere" logging (-vv). Sinds de metric_host en METRIC_NAME opties nodig, heb je een beetje een "kip en ei" probleem hier, maar dat is OK. Gewoon leveren sommige dummy data. De plugin zal uit fouten aan het einde met een "gastheer / metrische niet gevonden" fout, maar niet voordat hij dumpt haar cache:
& Nbsp; check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
& Nbsp; - metric_host = dummy --metric_name = dummy -vv
Wat is nieuw in deze release:
- toevoegen - -metrics_max_age optie
- CHANGELOG.rst samenvoegen in README.rst
Eisen
- Python
- Nagios
Beperkingen
- Werkt niet met Python 2.4
Reacties niet gevonden