效能調校

收斂的委員會：Decision Convergence Engineering 的一次實踐

個案經驗分享 · AI 應用實戰 · 決策工程收斂的委員會 Decision Convergence Engineering 的一次實踐人越多，越難收斂——這是多數人對開會的印象。但我的經驗剛好相反：當與會者全是 AI，收斂速度反而比任何真人委員會都快。 Mr. τ ／風雲網通系統　·　2026 🤔 一個違反直覺的觀察很多人對開會的直覺是：人越多，立場越多，越難有結論。這個直覺在真人世界裡完全正確。但當與會成員換成 AI 助理，這個規律就失效了。我長期使用多模型合議來輔助重大決策，觀察到一件事：AI 委員會的發散速度很快，收斂速度也很快。而且幾乎不需要主席強行裁決——觀點的碰撞本身就會自然篩選出值得保留的東西。 ⚖️ 真人委員會 vs AI 委員會真人委員會難以收斂，不是因為人不夠聰明，而是因為人帶著太多與問題本身無關的東西進入討論：真人委員會的阻力 AI 委員會的特性權力鬥爭與派系利益 ✔ 無組織政治面子問題、不願認錯 ✔ 無自我防衛情緒反應與歷史包袱 ✔ 每次對話都是新的起點部門本位、各守地盤 ✔ 只針對問題本身給出立場開會時間有限、精力有限 ✔ 幾分鐘內給出有結構的完整立場 AI 之間觀點不同，但沒有任何一個模型有「贏過其他模型」的動機。它們只是在回應問題本身。這讓討論的訊噪比大幅提高。 🧭 實際流程是這樣跑的我的主導... » read more

Read

steven written 1 month ago

工程師思路系列之事出必有因

工程師思路系列｜PCPiLOT 開發日誌事出必有因 AI Agent 的執行成本，誰來負責？ Mr. τ／風雲網通系統與 AI 協作，本質上是一種資源管理問題。最近使用 Claude Code 的時候，忽然發現五小時的使用額度直接前進了 18%。回頭看工作紀錄，完全找不到對應的大型功能產出。我把 console log 貼給 Claude 分析。真正發生的事情分析結果出來：Claude Code 因為找不到目標檔案，直接啟動了全硬碟搜尋。它執行了 recursive directory scan、數次 PowerShell 呼叫、嘗試多組路徑，最後甚至準備啟動 llama-server 做測試驗證。問題是，這件事只需要問我一句「檔案在哪裡？」就能解決。十秒鐘。但它沒問。然後同樣的事情又發生了一次。額度直接燒到 37%。 Claude Code 事後的自我分析是：使用者的輸入被解讀成「繼續調查」，而不是「停止確認」。事實上，真正的問題早就結案了：rope.dimension_sections = 3 vs 4。後面所有的行動，全部是多餘的成本。 AI 與人類的成本模型不同這個問題的核心，不是 AI 太積極，而是： 👉 AI 不知道「執行成本」是什麼。對... » read more

Read

steven written 2 months ago

36GB VRAM 的幻覺：我讓三家 AI 預測 RTX 3060 ×3 的推論效能，結果全部輸給實測數據

36GB VRAM 的幻覺：我讓三家 AI 預測 RTX 3060 ×3 的推論效能，結果全部被數據打臉 Mr. τ／風雲網通系統 · 2026-06-10 · 地端 AI 基礎設施一、心動的開始前幾天，社群裡流傳一篇文章。有人用 RTX 5090 在本地跑 Gemma 4 12B，透過一個參數調整，TPS 從 27 直接飆到 103。將近四倍。看完之後，我盯著螢幕想了很久。「我手上有三張 RTX 3060 12GB，加起來 36GB VRAM。應該也能跑得很猛吧？」其實買第三張卡的初衷很務實。不是為了炫耀規格，而是有實際需求：兩張卡跑大一點的模型，偶爾會 OOM（顯存不足），動不動就崩想測試 26B、27B 等級的模型，需要更寬裕的 VRAM 緩衝不希望因為顯存限制，就把好不容易找到的優質模型放棄帶著這個期待，我做了一件很多人都會做的事：先去問 AI。 💡 小科普：什麼是 TPS？ TPS = Tokens Per... » read more

Read

steven written 2 months ago

2026 Local AI 的典範轉移: 從「硬體軍備競賽」走向「系統工程調校時代

從「硬體軍備競賽」走向「系統工程調校時代」風雲網通系統｜技術深度報告 2026 Local AI 的典範轉移從「硬體軍備競賽」走向「系統工程調校時代」 LOCAL AI MoE ARCHITECTURE llama.cpp SMB AI 落地許多中小企業（SMB）在評估地端 AI 落地時，最常聽到一個問題：「我們是不是非得採購動輒數十萬的高階 AI 伺服器，才能跑動夠聰明的大型語言模型？」在傳統「暴力堆砌硬體（Hardware Brute Force）」的思維下，答案似乎是肯定的。然而，邁入 2026 年，Local AI 的技術底層已悄悄迎來一場革命性的典範轉移。實測案例／觸發本文的關鍵數據技術頻道 Codacus（YouTube）發布實測影片《Running a 35B AI Model on 6GB VRAM, FAST》，以一張 8 年前的 GTX 1060 6GB、搭配 i3 處理器與 24GB DDR4，成功流暢運行 350 億參數（Qwen 3.6 35B... » read more

Read

steven written 2 months ago

24GB 顯存，為什麼跑不動 16GB 的本地 AI 模型？

技術觀察 · AI Infrastructure 24GB 顯存，為什麼跑不動 16GB 的本地 AI 模型？ Mr. τ／風雲網通系統 · 本地 LLM 部署實測觀察很多玩家的第一反應：「我有兩張 3060，加起來 24GB，跑個 16GB 的模型理論上完全沒問題啊？」實測結果卻是：載入沒事，一開始對話就隨機崩潰。這不是顯卡壞了。是 VRAM 的本質被誤解了。 💡 核心觀念：VRAM 是預算，不是倉庫很多人把 VRAM 想成靜態的硬碟空間。但跑 LLM 推論時，它更像是一個「會呼吸的緩衝區」。16GB 的模型進了顯存之後，只是第一筆支出，後面還有更多看不見的隱形成本持續消耗。一個更直觀的比喻：VRAM 是電梯的「額定載重」，而 16GB 的模型只是乘客的體重。電梯運行時的機械摩擦、剎車瞬間的衝擊力（推論峰值）——這些才是讓系統超載的真正原因。 📦 消失的顯存去哪了？三層隱形成本 1 靜態模型權重（固定 16GB）這是你看得見的部分——模型進了 VRAM 就不動了。誤區正是從這裡開始，很多人以為「剩下 8GB 就是安全空間」，但實際上那 8GB 要承擔後面所有的動態壓力。 2 KV Cache 的「呼吸效應」（4～8GB，且隨時間膨脹）這是最關鍵的時間變數。LLM 是有記憶的，每一輪對話都要把前面的內容儲存進... » read more

Read

steven written 3 months ago

30 分鐘換來的 12 倍加速<br>本地 LLM 效能異常的根因拆解與 Debug SOP

30 分鐘換來的 12 倍加速
本地 LLM 效能異常的根因拆解與 Debug SOP

工程實戰 · Mr. τ · 2026 年 5 月 30 分鐘換來的 12 倍加速本地 LLM 效能異常的根因拆解與 Debug SOP ▌ 這篇文章在講什麼我花了整個上午，讓 AI 助理幫我 debug 一個本地 LLM 效能異常。六輪下來沒解決，最後靠一個三字參數位置錯誤找到根因。這是那次事件的完整記錄——以及我從中整理出來的 Debug SOP。現象：200 字的文件，為什麼要跑 30 分鐘？測試場景很單純：6 筆文件，每筆約 200–300 字，交給本地模型做結構化評分。正常情況下，這種規模的任務應該在幾分鐘內完成。實際結果是：每筆 140–150 秒，6 筆合計接近 30 分鐘。硬體監控數字正常，GPU 在線，模型已載入顯存。從表面看，系統沒有任何問題。六輪 Debug，每輪都沒打到點我請 AI 助理協助排查。接下來發生了一段很典型的「AI 時代 Debug 迴圈」： 1 加入串流顯示... » read more

Read

steven written 3 months ago

24GB VRAM 的生存法則：為什麼 26B 模型會讓你的地端 AI 體驗撞牆？

前言：效能與品質的拔河在追求地端大型語言模型（LLM）的過程中，許多企業主與開發者常面臨一個抉擇：在現有的硬體資源（如單片 24GB 顯存環境）下，究竟該追求模型參數的大小，還是追求輸出的穩定性？最近我在實際操作 PCPiLOT 的核心邏輯時，對 26B / 27B 等級模型進行了深度測試，發現了一個極為現實的技術瓶頸。這篇文章將解析為什麼「模型塞得進去」不代表「真的好用」。一、模型變大，不代表生產力提升以 26B / 27B 等級的模型（如 Qwen 或 Gemma 系列）來說，輸出的邏輯與表達確實非常出色，甚至接近商用等級。但問題在於：在 24GB VRAM 的環境下，這類模型幾乎把資源吃到極限。這就像一台超載的貨車，雖然還能上路，但已經沒有任何避震空間與加速餘裕。二、隱形的效能殺手：KV Cache 與上下文長度許多人評估硬體時，只看「模型權重大小」，卻忽略了推論過程中的動態變數：當 VRAM 被模型權重與 KV Cache 噴滿後，系統會被迫將資料外溢到電腦記憶體（RAM）。此時，推論速度會出現「斷崖式下降」，從流暢的每秒十幾字，變成讓人難以忍受的一秒一字。三、實戰取捨：為何我目前改採 9B 模型？為了確保 PCPiLOT 知識中心的運作效率，我目前的工程策略是改用 Qwen 3.5 9B 先撐住。這並非退步，而是基於「可用性」的權衡：這是一個典型的工程觀念：不追求極致的靜態品質，而是追求「可用性 + 穩定性」的綜合表現。四、給地端部署者的三條建議五、結語：專業顧問的價值... » read more

Read

steven written 3 months ago

收斂的委員會：Decision Convergence Engineering 的一次實踐

工程師思路系列 之 事出必有因

36GB VRAM 的幻覺：我讓三家 AI 預測 RTX 3060 ×3 的推論效能，結果全部輸給實測數據

2026 Local AI 的典範轉移: 從「硬體軍備競賽」走向「系統工程調校時代

24GB 顯存，為什麼跑不動 16GB 的本地 AI 模型？

30 分鐘換來的 12 倍加速本地 LLM 效能異常的根因拆解與 Debug SOP

24GB VRAM 的生存法則：為什麼 26B 模型會讓你的地端 AI 體驗撞牆？

工程師思路系列之事出必有因

30 分鐘換來的 12 倍加速
本地 LLM 效能異常的根因拆解與 Debug SOP