Was mir bei der Überwachung von Servern immer wieder auffällt ist, dass es in 95% aller Fälle ausreicht genau drei Dinge zu überwachen:
- Diskusage
- Hardware (Netzteile, Festplatten)
- Raid-Status
In der Reihenfolge. Alles andere erhöht das Grundrauschen hilft aber selten weiter.
Mir fehlt gerade der “Like” Button ;-)
Ich persönlich würde ja (nach leidvoller Erfahrung) die folgende Reihenfolge vorschlagen:
* Load
* RAID-Status (beinhaltet Festplatten)
* Disk-Usage
* Hardware (vor allem SMART-Status, Ausfälle und ggf. Temperaturen)
Und bei HTTP-Anwendungen reicht zusätzlich meistens ein einfaches GET / um auf Software-Fehler zu checken.
@Jens
Für so’n neumodischen Kram bin ich zu alt.
@Holger Just
Load ist so eine Sache die einen gerne mal Nachts für nichts und wieder nichts aus den Bett holt.
Wie wird man jetzt noch mal darauf aufmerksam, dass der komplette HTTP-Cluster down ist?
Hardware ist ja schön und gut, aber nur mit Bare-Metal verdient man in der Regel kein Geld :)
Es sei denn man ist schrotthaendler..
aber den Load wuerde ich auch auf jeden fall mit checken.
@Joern
Ich denke, das hängt davon ab, wo man seine Grenze setzt. Ich denke, Nachts reicht es aus, wenn man bei ner ~30er Load benachrichtigt wird – also im Prinzip dann, wenn es wirklich hart wird. Load sollte ja auch nicht einfach so aus dem nichts entstehen (vor allem nicht Nachts).
Am Ende hängt es ja immer daran, was man gerne für SLAs einhalten möchte…
Ich würde noch “Auslaufen von Zertifikaten” mit aufnehmen. Mir als Entwickler ist es schon passiert, dass eine Live-Setzung eines Programmes von mir um eine WOche verschoben werden musste, weil der Betrieb es versäumt hatte, die Zertifikate zu überwachen. Mitten in der Migration in der NAcht von Samstag auf Sonntag lief das Zertifikat ab und ich kam an keine Daten mehr. *Sehr* unschön.
Die Zertifikate waren das erste, was mir noch zusätzlich in den Sinn kam. Insbesondere weil Nagios mit seinem check_http die Laufzeit per default mit erschlägt.
Ansonsten ist es natürlich so, daß wahre Betriebskompetenz erst dann demonstriert wird, wenn man pro Server seitenweise Cacti-Graphen vorzeigen kann. Insbesondere ist es essentiell wichtig, einen Graphen pro Prozessorkern am Start zu haben. Eine Visualisierung der Auslastung pro Speichermodul ist hingegen trotz allem eher selten gefragt.
natürlich sollte der grundlegende dienst auf dem jeweiligen server auch überwacht werden, aber was mir noch fehlt in der auflistung ist ganz klar.
_die zeit_
gerade bei rechnerverbünden ist das sogar wichtiger als alles andere … meiner ansicht nach
Ich finde ja “durchgreifende” Funktionstests super:
check.php auf dem Webserver die einen einfachen Zugriff auf die Datenbank macht:
Funktionierts: alles ok
Funktionierts nicht: eine Komponente hat ein Problem, Admin schau mal nach.
Dem kann ich leider nicht ganz zustimmen. Natürlich sollte man die zusätzliche Belastung so gering wie möglich halten. Ich halte es aber auch für unerlässlich, die einzelnen Dienste zu überwachen. Schließlich ist deren korrekte Funktion i.d.R. ja das, was auf jeden Fall gewährleistet sein muss. Dadurch kann man dann beispielsweise auch Probleme oft schon beheben, bevor sie der Kunde überhaupt mitbekommt.
Hi,
kurze Frage:”Wie kann ich bitteschön ein Netzteil überwachen (z.B. mit Nagios)?”
Greetz
Marcel
@Marcel
Mit IPMI. Ein Anwendungsbeispiel:
http://www.sun.com/bigadmin/scripts/submittedScripts/ipmi-ck.sh.txt
@Joern
Danke für die schnelle Antwort, da hab ich gleich eine neue Frage :)
Benötige ich zwingend eine IPMI-Karte oder spezielle Hardware dafür? Die ipmitools kenn ich bis jetzt nur in Verbindung mit den KVM Karten von Fujitsu.
noe
@Marcel
Das kommt auf die Hardware an. Vor ein paar Jahren hatte jeder namhafte Serverboard-Hersteller seine eigene Lösung für das Management, dies wurde durch IPMI Standardisiert und Vielfach abgelöst. Das wie ist wohl auch von Hersteller zu Hersteller unterschiedlich.