kurze Pause

Alles rund um Folding@Home

Moderatoren: Framige, Spocky

kurze Pause

Beitragvon Nils » 10. Jun. 2012 17:19

Mir ist gestern mein Hauptrechner abgefackelt - lautes PFFFT gefolgt vom Klack der Festplatten. Außer zwei geplatzten Elkos im Netzteil sind auch noch ein paar auf dem Board dick, die getauscht werden müssen. Nach 5 Jahren Dauerbetrieb mit Last ist das nicht ganz so überraschend... Ersatzteile sind bestellt. :rolleyes:
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Spocky » 23. Jun. 2012 20:51

may he rest in peace
Bild
Benutzeravatar
Spocky
Mitglied
 
Beiträge: 777
Registriert: 26. Feb. 2003 16:31
Wohnort: Ulm

Re: kurze Pause

Beitragvon Nils » 24. Jun. 2012 20:51

läuft doch schon längst wieder ... ;)

Das billige Sharkoon-Netzteil (WPM 400 - 80+ mit Cable Management für <40€) gefällt mir übrigens recht gut - mal sehen wie lange es hält.
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Cherel4 » 01. Aug. 2012 18:17

Wo seid ihr denn alle?
Cherel4
Mitglied
 
Beiträge: 7
Registriert: 04. Jul. 2012 12:35

Re: kurze Pause

Beitragvon Nils » 01. Aug. 2012 18:38

Wir sind doch da.... ;)

kleiner Nachtrag zum Netzteil: das war ein altes Chieftec 350W - allerdings wohl noch aus der Athlon K7 Zeit. Viel Leistung auf 3,3/5V und nur 15(!) A auf 12V. Ein Wunder, daß es mit einem Athlon II 635 (2,9 GHz x4) und einer GTS450 bei Volllast überhaupt noch lief. Ich hab mich nur immer gewundert, warum's dann etwas knurrt... :rolleyes: :eek: :lol:
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Nils » 24. Aug. 2012 13:39

Wir machen jetzt mal einen kleinen Lasttest mit unserem Cluster.
Am Start sind insgesamt 67,2 GHz (24 Lisbon-Opteron-Kerne) - mal gucken, was es bringt... :D
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Springer45 » 31. Okt. 2012 13:13

Und? Was hats gebracht?
Springer45
Mitglied
 
Beiträge: 3
Registriert: 08. Aug. 2012 16:04

Re: kurze Pause

Beitragvon Nils » 03. Nov. 2012 11:32

Nun ja - VMware wird anscheinend instabil(!) wenn alle Kerne durch Gäste ausgelastet sind (Snapshots klemmen, Backups werden extrem langsam). Wie weit man gehen kann, habe ich noch nicht ganz ausgelotet, da ein Host in größeren Umstellungen ist (musste gestern Netzteil(!)-Firmware updaten, was unbegreiflicherweise nicht einfach über das Management geht sondern man muss dafür die Maschine 2x booten). Momentan laufen 6 Kerne, aber ich gehe davon aus, daß wir das demnächst nochmal länger mit 20-22 Kernen wiederholen.
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Nils » 09. Nov. 2012 16:25

Bevor ich VMware zu Unrecht beschuldige: eine ganz gezielte Fehlersuche hat ergeben, daß anscheinend ein einzelner Kern(!) in einem der Opterons Blödsinn macht. Solange dieser Kern gezielt umgangen wird, macht der Host alles mit, was ich drauf werfe.

Cool bei der Geschichte war, das Testsystem im Betrieb von einem Kern auf den nächsten zu schieben und immer an derselben Stelle zu sehen, daß der Folding@Home-Client innerhalb von Sekunden abschmiert. Sieht so aus als ob der Lasttest eine richtig gute Idee war - sonst hätten wir das wohl monate-/jahrelang nicht gemerkt... :O
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Nils » 16. Nov. 2012 21:51

Dell hat heute die verdächtige CPU getauscht - jetzt folgt ein kleines Burn-In zum Testen mit 23 Kernen... ;)
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Nils » 28. Dez. 2012 18:27

... das Burn-In hat sich etwas hingezogen, dafür waren es auch 23-24 Kerne mit einem schicken Output (übrigens heute 15M geknackt) - heute scheint allerdings die nächste CPU verreckt zu sein. Einige VMs wurden instabil, ich habe dann schnell den Host geräumt.

Im Unterschied zum letzten Mal lässt sich das Problem nicht sehr schnell mit
Code: Alles auswählen
dnetc -stress ogr-ng
sehen - ich habe auf L2-Cache-Probleme getippt, RC5 lief problemlos - sondern dnetc sowie Prime95 laufen in allen Varianten durch. Nur der F@H-Client und diverse Anwendungen sind hochgradig instabil. Mal gucken, wie ich das Dell beibringe...

Ach ja: den anderen Host habe ich sicherheitshalber erstmal entlastet und der suspekte ist natürlich im Test - erstmal deutlich weniger Output von hier. :(
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen

Re: kurze Pause

Beitragvon Nils » 04. Apr. 2013 17:55

... und gestern fing dann der dritte Opteron (von insgesamt vier) an zu spinnen - wir scheinen da eine ganz schlechte Charge erwischt zu haben. Wird morgen früh getauscht, dann müssen wir eben noch ein paar Wochen testen. :-P

Interessanterweise ist der F@H-Client die einzige Software, die auf dem kaputten Kern sofort abschmiert - schon bevor der eigentliche Client startet kommen lustige Zeichen in FAHControl.
Der ESXi kriegt auch einige Probleme wenn man alle anderen Kerne voll auslastet und ihn damit auf den kaputten zwingt - aber die meiste andere Software scheint normal zu laufen. Nach einem Reboot (des Hosts) ist der Fehler ein paar Stunden bis Wochen wieder völlig weg, dann aber konstant wieder da. Alles äußerst mysteriös...

Die extrem ominösen Probleme, die wir im letzten Frühjahr mit zwei Windows-Servern (VMs) hatten, waren vermutlich auch schon von dem ersten Defekt verursacht worden. Bin mal gespannt, ob von AMD noch irgendwas kommt - Dell sagt, die testen die CPUs ziemlich gründlich durch und Zeit hatten sie ja inzwischen. Eigentlich sollten sie die letzte CPU auch gleich tauschen...
Benutzeravatar
Nils
Mitglied
 
Beiträge: 841
Registriert: 25. Feb. 2003 18:17
Wohnort: Erlangen


Zurück zu GHN - Folding@Home Forum

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast

cron