Meta SIRA - 用 1994 年的 BM25 重構 AI 檢索¶

Meta Superintelligence Lab 2026 年 5 月論文，提出 SIRA（SuperIntelligent Retrieval Agent）。核心理念：用 LLM 的世界知識做詞彙擴展，用 1994 年的 BM25 做最終檢索，單次查詢打敗多輪代理和 dense retrieval。適合關注 RAG / Information Retrieval / 搜尋引擎技術的開發者。

為什麼現有的 AI 檢索不夠好¶

兩條主流路線的致命缺陷¶

  Dense Retrieval              Multi-Turn Agentic RAG
  ┌────────────────┐           ┌────────────────────┐
  │ 文本 → 向量壓縮│           │ 搜 → 讀 → 換詞再搜 │
  │ 壓縮丟失精細結構│           │ 多輪對話，成本高昂   │
  │ 罕見詞信號被抹平│           │ 中間迷失（lost in    │
  └────────────────┘           │   the middle）      │
                                └────────────────────┘
  死穴：信息瓶頸               死穴：昂貴 + 噪音迷宮

維度	Dense Retrieval	Multi-Turn Agentic RAG
原理	文本→向量→距離計算	AI 像人一樣反覆搜索
優點	快速、單次查詢	能發現新線索
致命缺陷	粗暴壓縮導致罕見詞信號丟失	成本高、延遲大、中間迷失
比喻	清明上河圖壓成縮略圖	考前熬夜背書，背到後面忘前面

中間迷失（Lost in the Middle）問題¶

多輪代理隨著搜索輪次增加，prompt 越來越長。核心線索被前幾輪搜索帶來的海量無關噪音徹底淹沒。搜到第 5-6 輪時，AI 忘記了最初要找的針長什麼樣。

SIRA 的核心思路¶

        SIRA 架構
  ┌──────────────────────────────────────┐
  │          LLM（大語言模型）             │
  │   不負責搜索，只負責「詞彙擴展」      │
  └──────────┬───────────────┬────────────┘
             │               │
     ┌───────▼──────┐  ┌────▼───────────┐
     │ 離線：文檔端  │  │ 在線：查詢端    │
     │ 補充索引詞彙  │  │ 預期響應草圖    │
     │ + DF 上限過濾│  │ + DF 下限過濾   │
     └───────┬──────┘  └────┬───────────┘
             │               │
             ▼               ▼
     ┌───────────────────────────────┐
     │    BM25（1994 年老古董算法）    │
     │    原始查詢 + 擴展詞彙加權     │
     │    單次查詢，一錘定音           │
     └───────────────────────────────┘

一句話：用 LLM 的世界知識去發散詞彙，用 BM25 的統計學去收斂結果。

BM25 — 1994 年的算法為何依然不可替代¶

核心機制：TF-IDF 家族¶

BM25 得分 = Σ IDF(qi) × (f(qi,D) × (k1 + 1)) / (f(qi,D) + k1 × (1 - b + b × |D|/avgdl))

關鍵因子：
  TF  (Term Frequency)     — 詞在文檔中出現頻率
  IDF (Inverse Document    — 罕見詞權重高，常見詞權重低
       Frequency)

IDF 的哲學¶

詞彙類型	出現頻率	IDF 權重	比喻
「研究表明」	幾乎每篇都有	≈ 0	沙子
特定醫學縮寫	整個庫只有 3 篇	極高	金子

BM25 的優勢： - ✅ 保留文字最尖銳的信號——罕見詞高權重 - ✅ 完全透明可審計——清楚知道匹配了哪些具體詞 - ✅ 計算成本極低——單次查詢，無需多輪

BM25 的死穴：詞彙鴻溝（Vocabulary Gap）——用戶搜「貓會得抑鬱症」，作者寫「貓科動物的環境壓力與行為退化」，意思相同但字眼不同，BM25 一個字都匹配不到。

SIRA 三步流程¶

第一步：離線階段 — 文檔端詞彙擴展¶

系統建立時（一次性）：

  知識庫（500 萬篇文檔）
         │
         ▼
  LLM 逐篇閱讀 ──→ 推測缺失的搜索詞彙
         │
         ├── 事實合查類 → 補充實體別名
         ├── 辯論類 → 補充反方觀點詞彙
         │
         ▼
  DF 上限過濾器 ──→ 只保留罕見且有區分度的詞
         │
         ▼
  注入 BM25 索引

DF 上限過濾器：大模型生成的詞不能隨便塞進索引。如果某個詞在數據庫中出現頻率超過預設閾值，視為高頻噪音直接丟棄。只保留能將此文檔與其他幾百萬篇明顯區分開來的差異化詞彙。

用大模型的想像力去發散，再用冰冷的統計學去收斂——完美控制幻覺。

第二步：在線階段 — 查詢端預期響應草圖¶

用戶輸入通俗查詢詞時，LLM 不直接去搜索，而是：

閉眼腦補：基於自身參數記憶，生成「預期響應草圖」——如果有一篇完美論文能回答這個問題，它大概會包含哪些專業名詞和領域詞彙
嚴格禁止猜答案：搜「相對論哪年提出」時，不能把答案「1905」加入搜索詞（否則變成循環論證，會偏向僅含 1905 的文檔）
DF 下限過濾器：預測的詞彙必須在數據庫中物理存在（哪怕只出現過一次）。捏造的詞直接丟棄

  用戶查詢：「為什麼古羅馬混凝土比現代的耐久？」
       │
       ▼
  LLM 預期響應草圖：
    → 「火山灰」「海水反應」「鋁矽酸鹽」「托勃莫來石」
       │
       ▼
  DF 下限驗證：每個詞都在庫中存在 ✓
       │
       ▼
  通過驗證的詞彙 → 作為輔助證據

第三步：最終檢索 — 單次 BM25 查詢¶

  直接證據：用戶原始查詢詞    × 權重 α
  輔助證據：LLM 擴展的專業詞  × 權重 β
       │
       ▼
  BM25 加權得分 = α × Score(原始) + β × Score(擴展)
       │
       ▼
  一錘定音，AI 連返回的文章都沒看一眼

這就是 SIRA 的精髓：將多輪探索壓縮成一次單次執行。沒有反覆試錯的時間成本，單次精準定位。

基準測試結果¶

BEIR Benchmark 對比（10 個數據集，540 萬篇文檔）¶

方法	純檢索指標	備註
SIRA	69.1%	單次 BM25 查詢
Dense Retrieval (Jina v1.5)	64.8%	當前頂級 dense 模型
GraphRAG	28.0%	多輪代理
Self-RAG	25.3%	多輪代理

亮點提升¶

測試任務	SIRA 提升
科學文獻引用預測（外行問內行化詞彙）	+36%
重複題檢測	+23%
QA 問答（前 10 檢索覆蓋率）	84.7% vs 對手 71.2%

檢索領域扣的是小數點零頭，36% 的提升是降維打擊級別。

該保留的懷疑¶

三個致命落地坑¶

坑	問題	嚴重程度
計算巨獸	離線階段需用 LLM 逐一處理 500 萬篇文檔，一次性成本極高	🔴 高門檻
超參數敏感	權重 α/β、DF 上下限閾值基於經驗設定或簡單網格搜索，缺乏數學推導，遷移到新數據集可能脆弱	🟡 中等
知識邊界	查詢端擴展依賴 LLM 預訓練知識。超出分佈的新概念（內部代號、全新病毒名）→ 腦補出垃圾 → 垃圾進垃圾出	🔴 根本性限制

「超級智能」是否過度營銷？¶

SIRA 本質是基於嚴密統計學護欄的高級詞彙發散與驗證器
受限於 BM25 的 TF-IDF 邊界約束
高度依賴預訓練知識
並未產生超越人類認知的智慧
「SuperIntelligent」在科學定義上顯得誇大，但工程精妙程度確實驚人

核心啟示¶

  對於 QA 系統：
  找對方向 比 跑得快 重要一萬倍

  如果連正確的米都沒找到，
  花幾千萬買高級電鍋也做不出飯。

  提升最底層的檢索能力才是王道。

SIRA 的範式轉移¶

舊範式	新範式
AI 像苦力一樣在數據堆裡反覆找金子	AI 用世界知識先定義金子的模樣
盲目探測	精準預判
多輪試錯	單次擊中
用更大的模型去搜索	用模型的世界知識去擴展詞彙，讓經典算法去搜索

判斷決策樹：什麼時候該考慮 SIRA¶

你的場景需要精準檢索嗎？
  ├── 否 → 用標準 RAG 就好
  └── 是 → 數據集規模多大？
        ├── < 10 萬篇 → Dense Retrieval 夠用
        └── > 100 萬篇 → 用戶查詢是否經常「外行問內行」？
              ├── 否 → 標準 BM25 + rerank
              └── 是 → SIRA 值得評估
                    │
                    └── 但先確認：
                        ✅ 能承受離線階段的 LLM 推理成本
                        ✅ 數據域不超出 LLM 預訓練知識範圍
                        ✅ 願意投入工程時間調參