技術對比分析：傳統檢索 vs. 競賽 Hybrid RAG 方案

本文件旨在分析為何傳統技術難以解決生物醫學類的複雜查詢，以及本競賽所要求的 Hybrid RAG + Vibe Coding 方案如何克服這些痛點。

1. 核心技術對照表

GraphRAG (Knowledge Graph-Augmented Generation) 是將 「知識圖譜 (Knowledge Graph)」 的結構化推導能力，注入到生成式 AI (LLM) 中的頂尖技術。

傳統 VectorRAG 像是「關鍵字聯想」，而 GraphRAG 則是「邏輯推理」。它不僅讀懂文字的意思，更理解萬物之間的「因果」與「關聯」。

在本競賽應用的 EAP 平台中，GraphRAG 的實現流程超越了簡單的「點線連結」，主要分為以下四個關鍵階段：

第一步：實體與關係提取 (Extraction)：系統利用 LLM 掃描原始數據（CSV、PDF、論文），不僅識別實體，還會抽取實體間的 「語意關係 (Semantic Triplets)」。例如：識別出「藥物 A ➡ 抑制 ➡ 酵素 B」這種三元組結構，而非只是單純的關鍵字。
第二步：層次化社群發現 (Hierarchical Community Detection)：將數以萬計的實體節點進行 「組群化 (Leiden Algorithm)」。系統會自動偵測那些關聯特別緊密的區塊（如：某類癌症的所有相關基因與藥物），並為這些「社群」生成摘要。這讓系統在回答「大局觀」問題時，不必遍覽整張網，只需查看社群摘要。
第三步：全局與局部檢索 (Global & Local Search)：
- Local Search：針對特定問題（如：某種藥物的副作用），系統從該藥物出發進行 「多跳 (Multi-hop) 遍歷」。
- Global Search：針對宏觀問題（如：目前的藥物開發趨勢），系統遍歷所有預先生成的「社群摘要」。
第四步：推理脈絡注入 (Contextualization)：系統將檢索到的「圖譜路徑」與「文獻段落」合併，重新拼裝成邏輯嚴密的 「推理背景塊 (Context)」，再餵給 LLM 生成最終具備因果關係的回答。

情景：查詢「某種基因突變病患在服用藥物 A 時，是否有潛在毒性風險？」

若文獻中沒直接出現「基因+藥物+毒性」這三個關鍵字的組合，就搜尋不到結果。

AI 可能會找到「藥物 A 很好」與「該基因突變很危險」的片段，然後自行腦補將兩者連結，產生嚴重的技術幻覺。

找到藥物 A 代謝路徑 -> 發現需要 CYP2D6 酵素 -> 發現該基因突變會導致 CYP2D6 缺乏。結論：事實上存在代謝阻塞的可能。

在 PubMed 文獻中搜尋相似案例的敘述性描述，提取臨床報告中的症狀觀察、給藥建議等細節。

由 Agent 將「圖譜中的邏輯事實」與「文獻中的臨床案例」結合，給出一個既有邏輯根據又有臨床細節的完美回覆。

只需透過 Prompt 描述業務邏輯與介面需求，系統自動生成 API 串接與 UI 元件。這讓具備生物學背景的成員能真正把專業知識注入到 AI 系統中。這正是本次競賽評分「整合創新能力 (15%)」的核心。

從 Technical Standpoint 出發，本系統並非單一的大檔案，而是由三種不同特性的存儲引擎共同維持：

存儲層級	技術實作 (Implementation)	核心作用
圖形數據庫 (Graph DB)	Neo4j / Nebula Graph (Cypher Query)	存儲實體(Nodes)與關係(Edges)。解決多跳查詢的關聯邏輯。
向量數據庫 (Vector DB)	Pinecone / Milvus / Chroma	存儲文本 Chunk 與實體的 Embeddings。負責語意相似度檢索。
文檔與摘要存儲 (Doc Store)	Parquet Files / NoSQL / S3	存儲原始文件段落與 Leiden 演算法生成的社群摘要 (Summaries)。

當用戶輸入 Query 時，系統會同時調用圖譜中的「點線關聯」與向量中的「語意相似度」，最後由 AI Agent 在內容層進行彙整。這就是為何它能兼顧數據的準確性與描述的廣度。