Meta SIRA - 用 1994 年的 BM25 重構 AI 檢索¶
Meta Superintelligence Lab 2026 年 5 月論文,提出 SIRA(SuperIntelligent Retrieval Agent)。核心理念:用 LLM 的世界知識做詞彙擴展,用 1994 年的 BM25 做最終檢索,單次查詢打敗多輪代理和 dense retrieval。適合關注 RAG / Information Retrieval / 搜尋引擎技術的開發者。
為什麼現有的 AI 檢索不夠好¶
兩條主流路線的致命缺陷¶
Dense Retrieval Multi-Turn Agentic RAG
┌────────────────┐ ┌────────────────────┐
│ 文本 → 向量壓縮│ │ 搜 → 讀 → 換詞再搜 │
│ 壓縮丟失精細結構│ │ 多輪對話,成本高昂 │
│ 罕見詞信號被抹平│ │ 中間迷失(lost in │
└────────────────┘ │ the middle) │
└────────────────────┘
死穴:信息瓶頸 死穴:昂貴 + 噪音迷宮
| 維度 | Dense Retrieval | Multi-Turn Agentic RAG |
|---|---|---|
| 原理 | 文本→向量→距離計算 | AI 像人一樣反覆搜索 |
| 優點 | 快速、單次查詢 | 能發現新線索 |
| 致命缺陷 | 粗暴壓縮導致罕見詞信號丟失 | 成本高、延遲大、中間迷失 |
| 比喻 | 清明上河圖壓成縮略圖 | 考前熬夜背書,背到後面忘前面 |
中間迷失(Lost in the Middle)問題¶
多輪代理隨著搜索輪次增加,prompt 越來越長。核心線索被前幾輪搜索帶來的海量無關噪音徹底淹沒。搜到第 5-6 輪時,AI 忘記了最初要找的針長什麼樣。
SIRA 的核心思路¶
SIRA 架構
┌──────────────────────────────────────┐
│ LLM(大語言模型) │
│ 不負責搜索,只負責「詞彙擴展」 │
└──────────┬───────────────┬────────────┘
│ │
┌───────▼──────┐ ┌────▼───────────┐
│ 離線:文檔端 │ │ 在線:查詢端 │
│ 補充索引詞彙 │ │ 預期響應草圖 │
│ + DF 上限過濾│ │ + DF 下限過濾 │
└───────┬──────┘ └────┬───────────┘
│ │
▼ ▼
┌───────────────────────────────┐
│ BM25(1994 年老古董算法) │
│ 原始查詢 + 擴展詞彙加權 │
│ 單次查詢,一錘定音 │
└───────────────────────────────┘
一句話:用 LLM 的世界知識去發散詞彙,用 BM25 的統計學去收斂結果。
BM25 — 1994 年的算法為何依然不可替代¶
核心機制:TF-IDF 家族¶
BM25 得分 = Σ IDF(qi) × (f(qi,D) × (k1 + 1)) / (f(qi,D) + k1 × (1 - b + b × |D|/avgdl))
關鍵因子:
TF (Term Frequency) — 詞在文檔中出現頻率
IDF (Inverse Document — 罕見詞權重高,常見詞權重低
Frequency)
IDF 的哲學¶
| 詞彙類型 | 出現頻率 | IDF 權重 | 比喻 |
|---|---|---|---|
| 「研究表明」 | 幾乎每篇都有 | ≈ 0 | 沙子 |
| 特定醫學縮寫 | 整個庫只有 3 篇 | 極高 | 金子 |
BM25 的優勢: - ✅ 保留文字最尖銳的信號——罕見詞高權重 - ✅ 完全透明可審計——清楚知道匹配了哪些具體詞 - ✅ 計算成本極低——單次查詢,無需多輪
BM25 的死穴:詞彙鴻溝(Vocabulary Gap)——用戶搜「貓會得抑鬱症」,作者寫「貓科動物的環境壓力與行為退化」,意思相同但字眼不同,BM25 一個字都匹配不到。
SIRA 三步流程¶
第一步:離線階段 — 文檔端詞彙擴展¶
系統建立時(一次性):
知識庫(500 萬篇文檔)
│
▼
LLM 逐篇閱讀 ──→ 推測缺失的搜索詞彙
│
├── 事實合查類 → 補充實體別名
├── 辯論類 → 補充反方觀點詞彙
│
▼
DF 上限過濾器 ──→ 只保留罕見且有區分度的詞
│
▼
注入 BM25 索引
DF 上限過濾器:大模型生成的詞不能隨便塞進索引。如果某個詞在數據庫中出現頻率超過預設閾值,視為高頻噪音直接丟棄。只保留能將此文檔與其他幾百萬篇明顯區分開來的差異化詞彙。
用大模型的想像力去發散,再用冰冷的統計學去收斂——完美控制幻覺。
第二步:在線階段 — 查詢端預期響應草圖¶
用戶輸入通俗查詢詞時,LLM 不直接去搜索,而是:
- 閉眼腦補:基於自身參數記憶,生成「預期響應草圖」——如果有一篇完美論文能回答這個問題,它大概會包含哪些專業名詞和領域詞彙
- 嚴格禁止猜答案:搜「相對論哪年提出」時,不能把答案「1905」加入搜索詞(否則變成循環論證,會偏向僅含 1905 的文檔)
- DF 下限過濾器:預測的詞彙必須在數據庫中物理存在(哪怕只出現過一次)。捏造的詞直接丟棄
用戶查詢:「為什麼古羅馬混凝土比現代的耐久?」
│
▼
LLM 預期響應草圖:
→ 「火山灰」「海水反應」「鋁矽酸鹽」「托勃莫來石」
│
▼
DF 下限驗證:每個詞都在庫中存在 ✓
│
▼
通過驗證的詞彙 → 作為輔助證據
第三步:最終檢索 — 單次 BM25 查詢¶
直接證據:用戶原始查詢詞 × 權重 α
輔助證據:LLM 擴展的專業詞 × 權重 β
│
▼
BM25 加權得分 = α × Score(原始) + β × Score(擴展)
│
▼
一錘定音,AI 連返回的文章都沒看一眼
這就是 SIRA 的精髓:將多輪探索壓縮成一次單次執行。沒有反覆試錯的時間成本,單次精準定位。
基準測試結果¶
BEIR Benchmark 對比(10 個數據集,540 萬篇文檔)¶
| 方法 | 純檢索指標 | 備註 |
|---|---|---|
| SIRA | 69.1% | 單次 BM25 查詢 |
| Dense Retrieval (Jina v1.5) | 64.8% | 當前頂級 dense 模型 |
| GraphRAG | 28.0% | 多輪代理 |
| Self-RAG | 25.3% | 多輪代理 |
亮點提升¶
| 測試任務 | SIRA 提升 |
|---|---|
| 科學文獻引用預測(外行問內行化詞彙) | +36% |
| 重複題檢測 | +23% |
| QA 問答(前 10 檢索覆蓋率) | 84.7% vs 對手 71.2% |
檢索領域扣的是小數點零頭,36% 的提升是降維打擊級別。
該保留的懷疑¶
三個致命落地坑¶
| 坑 | 問題 | 嚴重程度 |
|---|---|---|
| 計算巨獸 | 離線階段需用 LLM 逐一處理 500 萬篇文檔,一次性成本極高 | 🔴 高門檻 |
| 超參數敏感 | 權重 α/β、DF 上下限閾值基於經驗設定或簡單網格搜索,缺乏數學推導,遷移到新數據集可能脆弱 | 🟡 中等 |
| 知識邊界 | 查詢端擴展依賴 LLM 預訓練知識。超出分佈的新概念(內部代號、全新病毒名)→ 腦補出垃圾 → 垃圾進垃圾出 | 🔴 根本性限制 |
「超級智能」是否過度營銷?¶
- SIRA 本質是基於嚴密統計學護欄的高級詞彙發散與驗證器
- 受限於 BM25 的 TF-IDF 邊界約束
- 高度依賴預訓練知識
- 並未產生超越人類認知的智慧
- 「SuperIntelligent」在科學定義上顯得誇大,但工程精妙程度確實驚人
核心啟示¶
對於 QA 系統:
找對方向 比 跑得快 重要一萬倍
如果連正確的米都沒找到,
花幾千萬買高級電鍋也做不出飯。
提升最底層的檢索能力才是王道。
SIRA 的範式轉移¶
| 舊範式 | 新範式 |
|---|---|
| AI 像苦力一樣在數據堆裡反覆找金子 | AI 用世界知識先定義金子的模樣 |
| 盲目探測 | 精準預判 |
| 多輪試錯 | 單次擊中 |
| 用更大的模型去搜索 | 用模型的世界知識去擴展詞彙,讓經典算法去搜索 |
判斷決策樹:什麼時候該考慮 SIRA¶
你的場景需要精準檢索嗎?
├── 否 → 用標準 RAG 就好
└── 是 → 數據集規模多大?
├── < 10 萬篇 → Dense Retrieval 夠用
└── > 100 萬篇 → 用戶查詢是否經常「外行問內行」?
├── 否 → 標準 BM25 + rerank
└── 是 → SIRA 值得評估
│
└── 但先確認:
✅ 能承受離線階段的 LLM 推理成本
✅ 數據域不超出 LLM 預訓練知識範圍
✅ 願意投入工程時間調參