Skip to content

Meta SIRA - 用 1994 年的 BM25 重構 AI 檢索

Meta Superintelligence Lab 2026 年 5 月論文,提出 SIRA(SuperIntelligent Retrieval Agent)。核心理念:用 LLM 的世界知識做詞彙擴展,用 1994 年的 BM25 做最終檢索,單次查詢打敗多輪代理和 dense retrieval。適合關注 RAG / Information Retrieval / 搜尋引擎技術的開發者。


為什麼現有的 AI 檢索不夠好

兩條主流路線的致命缺陷

  Dense Retrieval              Multi-Turn Agentic RAG
  ┌────────────────┐           ┌────────────────────┐
  │ 文本 → 向量壓縮│           │ 搜 → 讀 → 換詞再搜 │
  │ 壓縮丟失精細結構│           │ 多輪對話,成本高昂   │
  │ 罕見詞信號被抹平│           │ 中間迷失(lost in    │
  └────────────────┘           │   the middle)      │
                                └────────────────────┘
  死穴:信息瓶頸               死穴:昂貴 + 噪音迷宮
維度 Dense Retrieval Multi-Turn Agentic RAG
原理 文本→向量→距離計算 AI 像人一樣反覆搜索
優點 快速、單次查詢 能發現新線索
致命缺陷 粗暴壓縮導致罕見詞信號丟失 成本高、延遲大、中間迷失
比喻 清明上河圖壓成縮略圖 考前熬夜背書,背到後面忘前面

中間迷失(Lost in the Middle)問題

多輪代理隨著搜索輪次增加,prompt 越來越長。核心線索被前幾輪搜索帶來的海量無關噪音徹底淹沒。搜到第 5-6 輪時,AI 忘記了最初要找的針長什麼樣。


SIRA 的核心思路

        SIRA 架構
  ┌──────────────────────────────────────┐
  │          LLM(大語言模型)             │
  │   不負責搜索,只負責「詞彙擴展」      │
  └──────────┬───────────────┬────────────┘
             │               │
     ┌───────▼──────┐  ┌────▼───────────┐
     │ 離線:文檔端  │  │ 在線:查詢端    │
     │ 補充索引詞彙  │  │ 預期響應草圖    │
     │ + DF 上限過濾│  │ + DF 下限過濾   │
     └───────┬──────┘  └────┬───────────┘
             │               │
             ▼               ▼
     ┌───────────────────────────────┐
     │    BM25(1994 年老古董算法)    │
     │    原始查詢 + 擴展詞彙加權     │
     │    單次查詢,一錘定音           │
     └───────────────────────────────┘

一句話:用 LLM 的世界知識去發散詞彙,用 BM25 的統計學去收斂結果。


BM25 — 1994 年的算法為何依然不可替代

核心機制:TF-IDF 家族

BM25 得分 = Σ IDF(qi) × (f(qi,D) × (k1 + 1)) / (f(qi,D) + k1 × (1 - b + b × |D|/avgdl))

關鍵因子:
  TF  (Term Frequency)     — 詞在文檔中出現頻率
  IDF (Inverse Document    — 罕見詞權重高,常見詞權重低
       Frequency)

IDF 的哲學

詞彙類型 出現頻率 IDF 權重 比喻
「研究表明」 幾乎每篇都有 ≈ 0 沙子
特定醫學縮寫 整個庫只有 3 篇 極高 金子

BM25 的優勢: - ✅ 保留文字最尖銳的信號——罕見詞高權重 - ✅ 完全透明可審計——清楚知道匹配了哪些具體詞 - ✅ 計算成本極低——單次查詢,無需多輪

BM25 的死穴:詞彙鴻溝(Vocabulary Gap)——用戶搜「貓會得抑鬱症」,作者寫「貓科動物的環境壓力與行為退化」,意思相同但字眼不同,BM25 一個字都匹配不到。


SIRA 三步流程

第一步:離線階段 — 文檔端詞彙擴展

系統建立時(一次性):

  知識庫(500 萬篇文檔)
         │
         ▼
  LLM 逐篇閱讀 ──→ 推測缺失的搜索詞彙
         │
         ├── 事實合查類 → 補充實體別名
         ├── 辯論類 → 補充反方觀點詞彙
         │
         ▼
  DF 上限過濾器 ──→ 只保留罕見且有區分度的詞
         │
         ▼
  注入 BM25 索引

DF 上限過濾器:大模型生成的詞不能隨便塞進索引。如果某個詞在數據庫中出現頻率超過預設閾值,視為高頻噪音直接丟棄。只保留能將此文檔與其他幾百萬篇明顯區分開來的差異化詞彙。

用大模型的想像力去發散,再用冰冷的統計學去收斂——完美控制幻覺。

第二步:在線階段 — 查詢端預期響應草圖

用戶輸入通俗查詢詞時,LLM 不直接去搜索,而是:

  1. 閉眼腦補:基於自身參數記憶,生成「預期響應草圖」——如果有一篇完美論文能回答這個問題,它大概會包含哪些專業名詞和領域詞彙
  2. 嚴格禁止猜答案:搜「相對論哪年提出」時,不能把答案「1905」加入搜索詞(否則變成循環論證,會偏向僅含 1905 的文檔)
  3. DF 下限過濾器:預測的詞彙必須在數據庫中物理存在(哪怕只出現過一次)。捏造的詞直接丟棄
  用戶查詢:「為什麼古羅馬混凝土比現代的耐久?」
       │
       ▼
  LLM 預期響應草圖:
    → 「火山灰」「海水反應」「鋁矽酸鹽」「托勃莫來石」
       │
       ▼
  DF 下限驗證:每個詞都在庫中存在 ✓
       │
       ▼
  通過驗證的詞彙 → 作為輔助證據

第三步:最終檢索 — 單次 BM25 查詢

  直接證據:用戶原始查詢詞    × 權重 α
  輔助證據:LLM 擴展的專業詞  × 權重 β
       │
       ▼
  BM25 加權得分 = α × Score(原始) + β × Score(擴展)
       │
       ▼
  一錘定音,AI 連返回的文章都沒看一眼

這就是 SIRA 的精髓:將多輪探索壓縮成一次單次執行。沒有反覆試錯的時間成本,單次精準定位。


基準測試結果

BEIR Benchmark 對比(10 個數據集,540 萬篇文檔)

方法 純檢索指標 備註
SIRA 69.1% 單次 BM25 查詢
Dense Retrieval (Jina v1.5) 64.8% 當前頂級 dense 模型
GraphRAG 28.0% 多輪代理
Self-RAG 25.3% 多輪代理

亮點提升

測試任務 SIRA 提升
科學文獻引用預測(外行問內行化詞彙) +36%
重複題檢測 +23%
QA 問答(前 10 檢索覆蓋率) 84.7% vs 對手 71.2%

檢索領域扣的是小數點零頭,36% 的提升是降維打擊級別。


該保留的懷疑

三個致命落地坑

問題 嚴重程度
計算巨獸 離線階段需用 LLM 逐一處理 500 萬篇文檔,一次性成本極高 🔴 高門檻
超參數敏感 權重 α/β、DF 上下限閾值基於經驗設定或簡單網格搜索,缺乏數學推導,遷移到新數據集可能脆弱 🟡 中等
知識邊界 查詢端擴展依賴 LLM 預訓練知識。超出分佈的新概念(內部代號、全新病毒名)→ 腦補出垃圾 → 垃圾進垃圾出 🔴 根本性限制

「超級智能」是否過度營銷?

  • SIRA 本質是基於嚴密統計學護欄的高級詞彙發散與驗證器
  • 受限於 BM25 的 TF-IDF 邊界約束
  • 高度依賴預訓練知識
  • 並未產生超越人類認知的智慧
  • 「SuperIntelligent」在科學定義上顯得誇大,但工程精妙程度確實驚人

核心啟示

  對於 QA 系統:
  找對方向 比 跑得快 重要一萬倍

  如果連正確的米都沒找到,
  花幾千萬買高級電鍋也做不出飯。

  提升最底層的檢索能力才是王道。

SIRA 的範式轉移

舊範式 新範式
AI 像苦力一樣在數據堆裡反覆找金子 AI 用世界知識先定義金子的模樣
盲目探測 精準預判
多輪試錯 單次擊中
用更大的模型去搜索 用模型的世界知識去擴展詞彙,讓經典算法去搜索

判斷決策樹:什麼時候該考慮 SIRA

你的場景需要精準檢索嗎?
  ├── 否 → 用標準 RAG 就好
  └── 是 → 數據集規模多大?
        ├── < 10 萬篇 → Dense Retrieval 夠用
        └── > 100 萬篇 → 用戶查詢是否經常「外行問內行」?
              ├── 否 → 標準 BM25 + rerank
              └── 是 → SIRA 值得評估
                    │
                    └── 但先確認:
                        ✅ 能承受離線階段的 LLM 推理成本
                        ✅ 數據域不超出 LLM 預訓練知識範圍
                        ✅ 願意投入工程時間調參

參考資料

相關筆記