在答案之外
在理論與真實之間,重新理解撲克。
A short mobile book by three poker coaches — about GTO, Exploit, MDA, AI, and the edge that still belongs to understanding.
你在第幾層?
撲克的世界,從來不是單一的遊戲,而是由不同層次的牌局所構成。每一種局,都對應著截然不同的理解、技術,甚至思考方式。大多數人以為自己學會了撲克,實際上,只是適應了自己所處的那一層環境。
第一層,常見於 Home Game 或低額 Online 俱樂部。
這是一個「錯誤密集」的世界——幾乎每一手都有多人入池,Limp 成為常態,決策鬆散而直接。
在這個層次,勝負並不取決於誰更精準,而是誰犯更少明顯的錯。
簡單的 Preflop 策略、對 Equity 的基本理解,加上翻後極少詐唬,已足以長期勝出。某些天賦較高的玩家,甚至未曾系統學習,已能脫穎而出;而對大多數人而言,系統學習三個月至半年,便足以看清這一層的本質。
但當你踏入第二層,一切開始改變。這類牌局常見於澳門中低額、街場、中高額 Online Club,或低額公廳。Limp 依然存在,但不再主導;取而代之的,是更頻繁的 Raise、3Bet,甚至 4Bet。
牌局逐漸從「多人混戰」,轉變為更多的單挑對抗。
在這裡,直覺開始失效。玩家若仍停留在第一層的思維,往往會誤判對手、錯估強度。要在此立足,必須開始理解 GTO ——不是為了完美,而是為了建立一個剝削的基準。只有當你真正掌握 Preflop 的 Optimal 範圍,你才會看見:誰過鬆、誰過緊,誰過度攻擊,誰過度保守。而所謂的「剝削」,也從此不再是直覺,而是建立在偏差之上的選擇。
天賦較高者,或許系統學習半年便能跨越;而對多數人而言,一年的時間,只是剛剛開始理解這個層次的語言。
另外,值得一提的是,在第一、二層的牌局中,牌手的其他能力往往更容易轉化為實際優勢。由於對手普遍較容易Tilt,決策亦較粗糙,很多時候只要具備更好的情緒管理、觀察能力、認知同理心,以及對節奏與行為模式的敏感度,便足以在牌桌上建立明顯 優勢。
換句話說,在這一層,除了牌本身以外,人的因素往往更加突出;你不但可以從對手的情緒波動與馬腳中獲利,亦可以藉由更穩定的判斷,避開他人容易犯下的明顯錯誤。
然而,當牌局逐漸上升至第三層,情況便開始改變。對手的漏洞被大幅壓縮,情緒化失誤亦明顯減少,這些能力仍然重要,但已不再如低層牌局般容易直接轉化為可觀的利潤。到了這個階段,真正決定勝負的,往往是對結構、範圍、適應與偏差的理解,而不再只是單純依賴對手的表面破綻。
第三層——那已經不是單純「打牌」的地方。中額 Online 公廳,或澳門高額局,娛樂玩家稀少,留下的,是職業與半職業玩家之間的長期博弈。
在這裡,牌風不再明顯,錯誤被極度壓縮,優勢變得難以察覺。勝負,不再來自表面的決策,而來自結構性的理解。
你需要的不只是 GTO,而是對無數場景的拆解與重組,包括 Nodelock、MDA(數據分析),甚至各種 Suboptimal 策略的運用。
學習,也不再是線性的。你會從不同角度切入,同時修正,反覆推翻,再重建。而最困難的,不是學得更多,而是意識到—— 自己仍然理解得不夠。
在這一層,天賦或許能縮短時間,但無法跳過過程。系統學習兩年,只是入場券;更多人,則會在長時間的探索中,始終無法真正戰勝這個遊戲。
最可惜的是,大多數人沒有打算認真學習這個遊戲。撲克的運氣成分,給了每個人一個繼續自欺的理由——只要贏過幾次,就足以掩蓋長期的落後;只要輸了,也總能怪在牌面上。更現實的是,這是一個極難準確認知自身位置的遊戲:你會錯判對手,也會高估自己,然後用結果去合理化一切決策。
真正的 Poker Secret
大約三、四年前,在撲克圈中我經常聽到有人說:
「GTO 不適用於我的牌局。」「學習 GTO 沒有用。」
雖然近年這類說法已經明顯減少,但我相信,仍然有不少人持有類似的想法。
一般而言,會產生這種觀點,通常離不開兩個原因。
第一,你打的牌局整體水平偏低,對手錯漏百出、漏洞明顯。在這種環境下,只要掌握基本剝削方向,確實已經足以長期盈利。
第二,你對遊戲具有極高天賦,能夠憑直覺與經驗,大致推算出接近 Optimal 的決策,而不依賴任何理論工具。
然而,以我的經驗來看,絕大多數情況都屬於前者。
至於後者,可以說是萬中無一。
但更令我困惑的,是另一句更常被提及的說法:
「我不是打 GTO,我是打 Exploit,GTO 與我無關。」
能夠說出這句話的人,往往並未真正理解 GTO 與 Exploit 的本質。他們傾向將兩者視為對立關係,彷彿選擇 Exploit,就等同於否定 GTO。
然而事實剛好相反。
GTO 與 Exploit 並不是兩條分離的路,而是一個彼此依存、相互定義的系統。
GTO 提供的是基準;Exploit,則是相對於這個基準的偏離。
換句話說——沒有 GTO,就不存在有意義的 Exploit。
如果你將兩者視為完全獨立的概念,問題便隨之而來:
當你的所謂「剝削」並非建立在任何清晰基準之上時,你其實無法確定自己剝削了什麼、剝削了多少,更無法驗證這種剝削是否真的帶來正向收益。
在這種情況下,所謂 Exploit,往往只是一種被合理化的直覺決策。
你或許會贏,但你不知道為什麼會贏;
而當結果不如預期時,你亦無從修正。
從這個角度來看,GTO 的價值從來不在於取代 Exploit,而在於讓 Exploit 變得可以被理解、被量化,並且被持續優化。
舉一個最簡單的 Preflop 問題:
在 100bb 深度下,BTN 持 J5s open,是過鬆還是過緊?
BB 面對 BTN open 2.5bb,會 Call K8o,是過鬆還是過緊?
如果你連 Optimal 的基準都不清楚,其實便無法判斷對手是 overcall 還是 overfold,更遑論進行有效的 Exploit。
而在我的觀察中,不少自稱「打 Exploit」的玩家,對這類問題的判斷,多數仍然依賴感覺。
感覺與經驗並非沒有價值。
但問題在於感覺並不穩定亦不可驗證,你永遠不知道感覺何時會失了蹤。
而 GTO 的核心價值,正是在於提供一個不會漂移的參考點。
當討論至此,常見的問題是:
「那麼 GTO 是否萬能?」
答案很簡單——並不是。
首先即使是頂級職業玩家,也無法真正做到完美執行。
況且如果你在實戰牌局中「單純執行 GTO」,你很大機會會輸。
GTO 更接近於一種「不被剝削的下限」,而不是「盈利策略」。
這就如同包剪揼:你永遠三分之一出每一種Action,長遠而言你不會輸,但同時亦不會贏。
而撲克與包剪揼最大的差異在於——撲克有抽水。
當你只能做到「不輸」,實際上就等於正在輸。
那麼問題便變成:
撲克如何真正賺錢?
答案其實很簡單——盡可能正確地偏離 GTO。
關鍵不在於「偏離」,而在於你是否偏離在正確的方向。
這種偏離,必須建立在理解 GTO 的基礎之上,準確識別對手的偏差,並作出幅度更大、但方向正確的調整。
換句話說:
GTO 不是終點,而是坐標。
當談到大幅偏離時,另一個常見疑問便會出現:
「這樣不就失去 Balance?」
某程度上,會。
但更現實的答案是——大部分時候,你不需要 Balance。
如果你已經確定對手過度棄牌,但你仍然堅持所謂「Value to Bluff比例」,那其實是在主動放棄利潤。
所謂 Balance,很多時候只是一種心理上的安全感,而不是最佳策略。
當然,偏離一定有代價。你會暴露出可以被反制的空間。
但現實是大多數玩家不會調整,就算察覺問題,也未必懂得如何正確調整。
撲克之所以能夠長期盈利,並不是因為理論完美,而是因為人並不完美。
另一個經常被低估的,是遊戲本身的複雜程度。
許多玩家習慣以經驗或簡化的「金句」來理解策略,在我接觸撲克的初期經常聽到以下金句:
「A-high 牌面對 Raiser 有利,所以要高頻細 c-bet。」
「有 Flush draw 就應該 Check-raise build pot。」
「短碼一定會被深碼壓制。」
這些說法未必完全錯誤。
但問題在於——它們過於簡化。
是否所有 A-high Board都一樣?SRP 與 3BP 是否相同?位置是否影響?
Check-raise flush draw,是想對手 fold,還是 call?Draw不中時也想 Build pot 嗎?
當你真正深入研究,就會發現以上說法其實過於以偏概全,甚至存在不少邏輯上的缺口。
很多 Optimal 決策,其實是反直覺的,甚至違反人性。
而這,正正是學習的價值所在。
最後,談一談為何學習。
如果你的目標只是應付朋友局,其實不需要投入太多。
但如果你願意再向前一步,你會發現你學的,從來不只是撲克。
而是在資訊不完整的情況下作出決策,學會分辨直覺與事實,並以EV(期望值)衡量各種選擇的利弊,從而作出最優決定。
而這些能力,會延伸到牌桌之外的每一個決定。
即使你將撲克視為娛樂,你仍然可以選擇成為一名高質素的娛樂玩家。
當你面對更高水平的對局時,你至少清楚自己在做什麼。
也同時明白——對手,未必清楚。
在答案之外
德州撲克一直是一個不斷演化的遊戲。
很多年前,玩家依靠的是直覺、經驗與心理戰。那是一個資訊極度不對稱的年代,一些今天看來非常基礎的觀念,在當時已經足以成為巨大的優勢。
後來,solver 出現了。
Game Theory Optimal(GTO)的普及,徹底改變了現代撲克的樣貌。過去依賴感覺與經驗建立的策略,開始被數學重新檢視;許多長久以來被視為「理所當然」的打法,也在 equilibrium 的框架下被重新定義。
對很多玩家而言,這是一場革命。
但隨著時間過去,我們也開始慢慢意識到另一件事:
Solver 所提供的,是 equilibrium 的結果;
而真實的撲克世界,從來不是 equilibrium 本身。
現代撲克資訊已經非常流通。從 solver、training site,到各種 node-locking 工具與 AI 輔助研究,研究 exploitative strategy 的門檻正以前所未有的速度下降。
今天幾乎所有玩家都知道: 「不要盲從 GTO,而要學會 exploit。」
但真正困難的問題,從來不是「要不要 exploit」。
而是:
我們如何知道,一個 exploit 真正成立?
很多研究與討論,習慣於比較所謂的 frequency deviation(頻率偏離)。
但單一節點上的頻率差異,很多時候並不足以完整描述一個 exploit 為什麼成立。
因為真實玩家的偏離,並不是從某一個 river frequency 才突然開始出現;而是從 preflop、flop、turn 開始,便已經逐步累積、逐步改變整個 range composition。
而當 range 本身已經發生變化時,後續所有 node 的 EV,也會被重新塑形。
這也是為什麼,很多表面上的「population leak」,未必真的代表對應的 exploit 一定成立。
有些 deviation,並不是錯誤;
有些 frequency difference,也未必真正帶來 EV difference。
Solver 教會了我們 equilibrium。
但 equilibrium 本身,並不足以完整描述真實玩家池如何運作。
而這也是 Mass Data Analysis(MDA)存在的原因。
對我而言,MDA 的價值,從來不只是「找 leak」。
它更像是一種理解玩家池的方法:
理解人們如何偏離理論、如何互相適應、如何在不同環境下逐漸形成集體傾向;並進一步理解,這些偏離如何重新改變整個 EV landscape。
因為撲克從來不是與 solver 對戰。
撲克始終是與人對戰。
而人,並不平衡。
也正因如此,我開始愈來愈認為,現代撲克需要的,未必只是更多 static solver output。
而是一種能夠真正理解真實玩家池如何演化、如何偏離,以及 EV 如何在多個街道之間重新分配的思維方式。
某程度上,Maxploit 也是在這樣的想法下誕生的。
它並不是希望取代 GTO;相反地,它的核心更接近於:如何在理解 equilibrium 的前提下,重新理解真實世界。
這種對於「靜態模型」與「真實市場行為」之間差異的觀察,其實也與我過去在量化研究中的一些經驗十分相似。
無論是市場還是撲克,人們最終面對的,往往都不是理論本身。
而是偏離理論的人。
近年 AI Agent 的發展,也正在快速改變撲克世界。
過去需要大量時間、人力與技術門檻才能完成的研究,如今可能只需要幾句 prompt、幾個 automated workflow,甚至一個晚上便能完成。
某程度上,資訊與工具正在以前所未有的速度被 democratize。
事實上,Maxploit 的開發過程本身,也深受 AI Agent 的影響。許多過去需要大型團隊才能完成的工程,如今個人開發者也能快速實現。
但隨著資訊變得愈來愈廉價,我也愈來愈相信:
真正重要的,從來不是「你能取得多少答案」。
而是你是否真正理解那些答案背後代表什麼。
在 AI 時代,人們或許會逐漸開始外判計算、外判分析,甚至外判部分思考與決策。
但理解,始終無法被完全外判。
因為撲克從來不是一個背誦答案的遊戲。
它更像是一個不斷變化的動態系統:
玩家會適應、會偏離、會互相影響;而策略的價值,也會隨著整個生態改變而重新分配。
工具會愈來愈強大。
資訊量也會以幾何級數增長。
但真正的 edge,也許反而會因此重新回到一件最基本的事情上:
你是否真正理解自己正在面對什麼。
在答案之外,仍然是理解。
三個章節,從牌局層次,到 GTO 與 Exploit,再到 MDA、AI 與真實玩家池。它們共同指向同一件事:撲克不是背誦答案,而是理解自己正在面對什麼。