Promlo

如何追蹤 ChatGPT 對你品牌的提及(實作指南)

一份具體、可自行打造的指南,教你如何量測 ChatGPT 等 LLM 提到你品牌的頻率 — 提示設計、批次執行、提及抽取、引用、跑的頻率。

如果你聽過 AEO,想知道 ChatGPT 答案中你的品牌出現的頻率,最直覺的做法是:把品牌名輸入 ChatGPT 看它怎麼說。這樣你幾乎得不到任何有用資訊。本文走過真正能用的工作流程 — 市面上每個 AEO 工具背後都長這樣,你想自己做也完全可以。

前置條件:你已經理解 AEO 是什麼、為什麼提及很重要。如果還沒,先讀什麼是 AEO

為什麼把品牌丟進 ChatGPT 一次行不通

三個理由它不算量測:

  • 樣本數只有 1。 模型回應是非確定性的。同一個「最適合新創的 CRM」跑三次會得到三種不同的品牌排序。單次查詢是快照,不是指標。
  • 問題形狀錯了。 搜尋自己的品牌名(「Mixpanel 怎麼樣」)只會告訴你品牌面向的觀感。真正高槓桿的查詢是非品牌查詢 — 買家還不知道你存在的時候會問的問題。
  • 沒涵蓋多個引擎。 ChatGPT 只是至少四個主流答覆引擎之一。每個引擎訓練截斷時間、搜尋來源、引用規則都不同。你需要全部都看。

你不是在量測「ChatGPT 對我品牌的看法」。你在量測「在我買家會用的所有 AI 介面上,相關的買家問題裡,我的品牌佔多少比例,這個比例的趨勢如何」。

第 1 步 — 建你的提示清單

這是最被低估的一步。工具和儀表板都是建立在提示品質之上的。

一個有用的提示清單會有 50–200 個提示,分三類:

類別比例範例
非品牌品類~50%「Shopify 商家最好的 email 行銷工具」
比較/vs~25%「Klaviyo vs Mailchimp 哪個適合電商」
品牌相關~25%「Klaviyo 值不值得」、「Klaviyo 替代品」

75/25 的「非品牌:品牌」比例是業界粗略的預設。Profound 等工具用類似的比例。原因:品牌查詢揭露觀感問題(值得知道),但品類活在非品牌查詢裡。如果你只追蹤品牌查詢,你永遠不會發現買家會問「最佳 [鄰近品類] 工具」、然後得到一個沒有你的清單。

便宜的種子做法:

  1. 打開 Google Search Console,拉出有曝光但沒點擊的查詢。這些是你受眾會問、但你沒贏的查詢。很多可以直接轉成 AEO 提示。
  2. 跟業務/客服聊。當客戶寫信「我們在你跟 X 之間考慮 — 差別是什麼?」這就是一個比較型提示。
  3. 讓 LLM 擴增。把品類、三個競爭對手、你的賣點丟給它,要求 50 個買家會問的問題。然後手動審查、砍掉 30% 不夠真實的。不要直接拿原始輸出來上線。

把清單存成扁平檔案:prompt_id, prompt_text, category 這幾欄。你會迭代它好幾個月。

第 2 步 — 批次跑提示

每個提示需要在每個引擎上跑、最好每週跑一次、並且把每次的完整原始回應存下來。三個選項:

選項 A — 直接呼叫各供應商 API。 ChatGPT 用 OpenAI 的 chat.completions、Claude 用 Anthropic 的 messages、Gemini 用 Google 的 API、Perplexity 用它的 chat.completions。每家都有各自的驗證、速率限制、計價。2026 年的實際成本:小 / 中型模型每個提示大約 $0.001–$0.01;如果用旗艦推理模型加上網路存取則是每個提示 $0.02–$0.10。

選項 B — OpenRouter。 一個 API 代理到所有主要供應商:OpenAI、Anthropic、Google、Perplexity、加一些開源模型。一把 key、一個帳單、一致的回應格式。便利稅大約是直接呼叫的 5–10%。對多數團隊來說,省下的工程時間遠遠抵過它。

選項 C — 瀏覽器自動化。 用 Playwright / Puppeteer 打 chat.openai.com、claude.ai 等。生產追蹤不要這樣做 — 服務條款灰色地帶、UI 一改就壞、Bot 偵測遲早會把你抓出來。

成本估算的真實例子:100 個提示 × 6 個引擎 × 每週 4 次 = 每月 2,400 次呼叫。平均 $0.025 / 次(輕量加重量模型混合),就是每月 $60 純 API 費用。加上緩衝大概 $100 / 月。這就是為什麼多數團隊要嘛買追蹤 SaaS、要嘛用 OpenRouter 來把帳單壓得可預測。

幾個實務注意事項:

  • 永遠存完整原始回應,不要只存抽取後的摘要。之後你想換抽取邏輯重跑時,會用到原文。
  • 引擎支援的話用 temperature=0,可以降低不同次跑之間的雜訊。
  • ChatGPT 特別要明確決定:要網路搜尋(更新、較慢、較貴)還是(只用模型訓練資料)。多數團隊要開;有些兩種都要、分開追蹤。
  • 自我限流。不要 5 秒內爆 100 個呼叫 — 供應商會限速,資料品質會下降。

第 3 步 — 可靠地抽取品牌提及

這一步最容易在新手版本踩坑。

錯誤做法:正則或子字串比對。"klaviyo" in response.lower() 看起來沒問題,直到你遇到:

  • 出現在競爭對手的引言裡:「Klaviyo 的執行長說...」 — 即使這段是在講別的,也被算進去。
  • 「不推薦」的脈絡:「如果你的聯絡人少於 1,000 人,避免用 Klaviyo。」
  • 跟常用字撞名的品牌名。「Notion」會配對到「notion」這個字。
  • 拼寫/大小寫變體:「Klaviyo」、「klaviyo」、「Klavio」(模型筆誤)。

正確做法:每個回應做一次小的結構化輸出 LLM 呼叫。把回應、品牌名、已知競爭對手丟給便宜的模型(gpt-4o-mini、Claude Haiku、Gemini Flash),用 JSON schema 接:

{
  "mentions": [
    {
      "brand": "Klaviyo",
      "sentiment": "positive | neutral | negative",
      "context": "recommended | mentioned | dismissed",
      "quote": "verbatim sentence from the response"
    }
  ],
  "ranked_brands": ["Klaviyo", "Mailchimp", "Brevo"]
}

這個抽取每次大約 $0.0005,在跑提示的成本之上幾乎可忽略。準確率比正則明顯好:我們內部測試中消除了大約 30% 的偽陽性(撞名與引言情境),多抓到大約 10% 的真提及(拼字錯誤與形態變體)。

抽樣驗證。每週隨機抓 50 筆抽取結果用人眼看一遍,把錯誤回饋進抽取 prompt。2–3 次迭代後,精確率會 >95%、召回率 >90%。這已經夠好了 — 追到 99% 花的成本超過它的回報。

第 4 步 — 追蹤引用與被引用的來源

當答覆引擎引用來源時(Perplexity 最積極、ChatGPT 開網路時偶爾會、Gemini 越來越會),每個引用記三個欄位:

  1. 網域reddit.comg2.comyourcompetitor.com。把所有提示的網域聚合起來,你就知道這個品類裡答覆引擎信任哪些來源。
  2. URL — 之後做缺口分析跟追溯需要。
  3. 連到誰的提及 — 這個引用是接在你品牌、競品、還是泛指的提及上?

高槓桿動作:找出「你品類常被引用、但你完全沒出現過」的網域。如果 reddit.com/r/SaaS 在你品類 40% 的答案裡都被引用、而你從來沒在那邊發過文,那就是內容缺口。能用資料具體回答「我需要在哪些第三方網域上出現」是極大的工程紅利。

第 5 步 — 決定跑的頻率

  • 熱門品牌(剛發布、改價、重新定位):頭 4 週每天跑,之後降到每週。
  • 穩態追蹤:每週。比這更頻繁就是雜訊 — 底層的訓練資料和搜尋索引並不會每天變動,所以日對日的差異主要反映模型溫度、不是真實移動。
  • 行銷活動期間的點檢:隨機跑,但記到跟排程跑一起的同一個資料庫。

把提及與 SoV 用 4 週滾動平均畫出來。不要對單週尖峰反應 — 那通常是雜訊。

實際長什麼樣子

把上面全部建出來後,你大概會有:

  • 一張 prompts 表(~100 列,手動策劃)
  • 一張 runs 表(每個 提示 × 引擎 × 時間戳 一列,含完整原始回應)
  • 一張 mentions 表(小模型抽取出來的 JSON)
  • 一張 citations 表(網域 + URL + 對應到哪個提及)
  • 一個每週 cron、一個小儀表板、約 $80–150 / 月的 API 費用

打造可用 v1 的工程時間:1 位工程師 1–2 週。長期維運:每週幾小時,用來更新提示、處理抽取邊界案例、追蹤模型版本。

如果這聽起來是你不想自己養的 plumbing,Promlo 就是做這件事 — 6 個 LLM、自動抽取、每週摘要,每月從 $29 起。文章把流程講得這麼老實是因為,自己做還是買來用,流程都是一樣的;我們賣的是「你不必再維護它」。

常見錯誤

新手版本常踩的坑:

  1. 只追蹤品牌提示。 你會覺得自己很有產出,但不會學到任何品類定位上的事。
  2. 用旗艦模型做抽取。 每次抽取 $0.005 的 GPT-4o 是大材小用,Haiku 用 $0.0005 就能搞定。
  3. 只存抽取後的 JSON、不存原始回應。 半年後你想改抽取邏輯重跑,原文已經不在了。
  4. 比月對月絕對提及數,不對提示清單變化做正規化。 你加了 20 個提示,提及數當然會上升。SoV 才是不會說謊的指標。
  5. 把 ChatGPT 當成唯一引擎。 Perplexity 有引用、Gemini 在 Google AI Overviews 有主場、Claude 在 B2B 快速崛起。四個都重要。

如果想看區域戰術 — 特別是港台市場上各引擎的真實使用份額 — 請看港台 SaaS 創辦人的 AEO 實戰手冊

本頁目錄