语义泛化

语义泛化实际上是 自然语言理解（NLU）的核心目标，它要解决两个关键点

手工或程序生成多种说法：

模板：「打开{设备名}」
同义：{开启, 打开, 开一下, 启动}
→ 打开空调 / 开一下空调

思路：把每句话都编码成语义向量，计算相似度。

“打开空调” → 向量A

“帮我开一下空调” → 向量B

相似度高 → 视为同一意图。

常用模型：

中文可用：text-embedding-3-large, bge-large-zh, m3e-base

英文可用：text-embedding-3-large, all-MiniLM-L6-v2

优点：天然支持泛化；用户说法不需要出现在训练集中。

缺点：需要相似度阈值调优；与训练数据分布有关。

用户说：“有点热，开个空调吧”
请输出对应的意图（如“开空调”）：

LLM 能理解复杂语境与隐含语义，比如：

“有点闷” → 推理为“需要开窗或开空调”

“冷死了” → 推理为“关空调或调高温度”

一个实际可部署的语义泛化方案通常是：

{
  "dependencies": ["."],
  "graphs": {
    "agent": "./src/agent/graph.py:graph"
  },
  "env": ".env",
  "image_distro": "wolfi"
}

10 11 月, 2025

truezy