不安定なPCの修理

(2020/5/25 記事書き直し)
最初はCPUを疑ってたが、どうやら原因はCPUではないようだ。理由はよくわからないけどいろいろ試したら安定して動くようになった。

時系列

2020/2

作業用PCにヤフオクで買った中古Ryzen 5 3600を入れる

2020/4/4

作業用PCが正常に起動しなくなる

  • 電源入れると下記の事象のどれかがランダムで発生する
  1. UEFIのPOST画面でフリーズし、起動しない
  2. POST画面表示中に再起動を繰り返し、起動しない
  3. 電源投入を何度も繰り返すと、ごくまれに正常起動するときがある

2020/4/5~

  • 作業用PCのCPUをRyzen 7 1700に交換すると安定して動作することが分かった
  • 今までRyzen1700で安定して動作していた自宅サーバにRyzen3600を入れたところ、ランダムな起動不良が発生した
  • 上記の理由によりCPUの故障を強く疑う

2020/4/10頃

  • Ryzen3600を入れた自宅サーバのBIOSを最新版にアップデートしたりメモリ入れ替えたり、いろいろ試したら起動はできるようになった
  • ランダムで突然再起動する症状が発生した
    • いわゆる"KP41病" 41 Kernel-Power: The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
    • 短いときは起動してから数分後、長いときは24時間後、というタイミングで突然再起動する。
  • 自宅鯖をRyzen1700に戻して3日運用したが、再起動は発生しなかった
  • 自宅鯖にRyzen3600を入れて引き続き様子を見る

2020/4/18

  • BIOS設定を変更した
    • Precision Boost Overdrive: Disable
    • Power Supply Idle Control: Typical Current Idle
  • 以前よりは安定したものの、48時間目で突然再起動した

~2020/5

不安定な状況のまま、だましだまし運用を続ける

2020/5/1

  • 10GbE NICのヒートシンクのグリスを塗りなおしたところ、安定性が向上した
  • 10GbE NICの熱暴走を疑う

2020/5/15

  • 10GbE NICを冷やすためにファンを増設
  • CPUクーラーの吸気ダクトを作ってエアフローを改善した
  • 安定性が良くなっているのでPrecision Boost Overdriveを有効化
  • 10GbE NICのドライバを最新版に更新
    • Windows標準のドライバは2016年頃のバージョン、デバイスベンダーのWebサイトから取得したドライバは2019年
    • ついでにRealtek 1GbE NICのドライバも更新

2020/5/18

  • 自宅サーバのメモリを増設した
    • Micron DDR4-3200 32GBx2枚(CT2K32G4DFD832A)を追加
    • メインメモリが96GBになった。そんなにたくさんいらない(アホ)
    • メモリクロックは2666MHz (古いメモリも刺さっているため)

2020/5/25

  • 現在、連続稼働7日目だが不具合は発生していない
    • 突然の再起動とか発生してない

環境

PC1

ゲーム用/作業用PC

  • AMD Ryzen 5 3600  (後日、Ryzen 7 3700Xに交換)
  • ASRock Fatal1ty X370 Gaming K4 (BIOS 5.80)
  • DDR4-3200 16GB×4枚 (Crutial CT2K16G4DFD832A)
  • GTX1660Ti
  • SSD Crutial P1 960GB
  • BCM57810 10GbE NIC

PC2

自宅サーバ

  • AMD Ryzen 7 1700 → Ryzen 5 3600
  • ASRock X370 Pro4
  • DDR4-2666 16GB×2枚 (Crutial)
  • GTX1050Ti
  • SSD 64GB (OS用)
  • 記憶域プール(Mirrored Storage Tier)
    • SSD 1TB * 2
    • HDD 8TB * 2
  • BCM57810 10GbE NIC

Ryzen3600 素性

  • 2020/2にヤフオクで中古品を購入
  • 並行輸入品(保証どうなってるんだろ?)
  • 2020/4/4から発生
  • 購入から2020/4/3までは正常に動作していた
  • 何もしていないのに壊れた

症状

  • 正常に起動しない
  • 電源入れると下記の事象がランダムで発生する
    • UEFIのPOST画面でフリーズし、起動しない
    • POST画面表示中に再起動を繰り返し、起動しない
    • 電源投入を何度も繰り返すと、ごくまれに正常起動するときがある

以後、記事書き直す前の記述

  • 4/8 初稿
  • 4/9 追記
  • 4/17 追記
  • 4/18 追記

調査

CPUを交換してみる

  • CPUを交換すると正常に動作するようになった
  • なので原因はCPUと特定

疑惑CPUを別のPCに挿してみる

  • 故障疑惑CPUを別のPCに挿してみると、症状が再現した(ただし、正常起動する確率は上がった気がする)
  • なので相性問題ではなさそう

考察

  • 電源投入後の初期化処理に失敗している
  • 初期化処理さえ通れば正常に動作するらしい
  • メモリがDDR4-3200だと起動しなかったが、DDR4-2666にしたところ正常起動する確率が上がったので、メモリ周りの不具合なのかもしれんね

対処

  • 並行輸入品の中古の保証がどうなってるのかさっぱりわからんが、AMDにRMA申請出して返事待ち
  • 今はCOVID-19で世界がヤバいので手続きは停滞していると思われる

20200409追記

  • どうせぶっ壊れとるがなと思って保管してたんだけど、AMDのRMA担当から「正常に動作するプラットフォームにCPU挿して確認してくれ」って言われたので、もう一度 X370 Pro4に挿してみたら正常に動作しているように見えた。前回は動作しなかったんだけどナンデ?発生条件が分からない/不具合の発生が確率的、という一番厄介なやつだコレ。

20200417追記

  • ASRock X370 Pro4に挿して運用してみたんだけど、ランダムで突然再起動する症状がみられた。
  • 短いときは起動してから数分後、長いときは24時間後、という感じで、連続稼働させると突然再起動する。
    • ポアソン分布かな?
  • いわゆる"KP41病" 41 Kernel-Power: The system has rebooted without cleanly shutting down first. This error could be caused if the system stopped responding, crashed, or lost power unexpectedly.
  • X370 Pro4を最新のBIOSにアップデートするが、再起動は治らず
    • アップデート前: 5.80 (2019/7/3)
      • Ryzen 3000系に対応した中では最も古いBIOS
      • AMD AGESA Combo-AM4 1.0.0.1
    • アップデート後:6.30 (2020/2/4)
      • AMD AGESA Combo-AM4 1.0.0.4 Patch B
      • ASRock do NOT recommend updating this BIOS if Pinnacle, Raven, Summit or Bristol Ridge CPU is being used on your system.
      • このバージョンではRyzen1000系は非推奨となっているので、正直なところBIOSアップデートはあまりやりたくなかった
  • BIOS設定を変更して連続稼働テスト中
    • Precision Boost Overdrive: Disable
    • Power Supply Idle Control: Typical Current Idle
    • 上記の設定で1日間連続稼働しているが、今のところ異常な再起動は確認されていない
    • RedditとかAMDサポートフォーラムとかの情報に、PBO無効化とPower Supply Idle Controlの設定変更で直ったという情報があったので
    • クロック少し下がるので性能が落ちる
    • 運用方針はピーク性能よりも電力効率を重視なので無問題
  • とりあえず、上記のような対処をやって運用する
  • RMAはめんどうなので、これで安定して動くのならRMA出さなくていいやと思っている
    • シンガポールに故障CPUを送る必要がある
    • "We strongly recommend you use FedEx or DHL to ship your package."
    • DHLとFedExでシンガポールまで送ると送料9000円程度かかってヤバイ
    • というかそもそもDHL,FedExの営業所が近所にない
    • 非推奨のEMS便とかだと安いけどね
    • 片道の送料は自己負担
    • ヤバいウイルスで物流とかいろいろヤバくて、所要日数が予測できない

20200418追記

  • 連続稼働48時間目で再起動した
  • キレそう

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中