<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
    <channel>
      <title>Hety-Wiki</title>
      <link>https://notes.gianniiss.top</link>
      <description>Last 10 notes on Hety-Wiki</description>
      <generator>Quartz -- quartz.jzhao.xyz</generator>
      <item>
    <title>Hety-Wiki</title>
    <link>https://notes.gianniiss.top/</link>
    <guid>https://notes.gianniiss.top/</guid>
    <description><![CDATA[ 欢迎来到我的第二大脑 动机 灵感来源：咸鱼暄的外置大脑 在为个人博客搜集灵感时看到了学长的【外置大脑】站，很喜欢这种碎片式记录知识的设计理念，刚好最近尝试使用 obsidian 记录笔记，于是也试着维护一个这样的个人wiki。 内容 这里收录了我的知识碎片，目前没有什么东西，希望不要太懒多多更新。. ]]></description>
    <pubDate>Fri, 19 Jun 2026 09:55:38 GMT</pubDate>
  </item><item>
    <title>AI Agent 核心概念</title>
    <link>https://notes.gianniiss.top/AI-Agent-%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5</link>
    <guid>https://notes.gianniiss.top/AI-Agent-%E6%A0%B8%E5%BF%83%E6%A6%82%E5%BF%B5</guid>
    <description><![CDATA[ AI Agent 核心概念 来源：HuggingFace Agent Glossary 全局关系 graph TD Trainer[Trainer] --&gt;|更新权重| Model Agent --&gt;|包含| Model Agent --&gt;|包含| Harness Agent --&gt;|包含| Scaffold Harness --&gt;|管理| Context-Engineering Agent --&gt;|使用| Tool Agent --&gt;|加载| Skill Agent --&gt;|调用| Sub-agent Agent --&gt;|遵循| Poli... ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Agent</title>
    <link>https://notes.gianniiss.top/Agent</link>
    <guid>https://notes.gianniiss.top/Agent</guid>
    <description><![CDATA[ Agent（智能体） 公式：Agent = Model + Harness RL 起源 在强化学习中，Agent 就是「一个接收 observation 并返回 action 的函数」。 LLM 语境下的扩展 模型 + 使其能在循环中行动的一切： 获取信息 → 决策 → 执行（tool call）→ 观察结果 → 再决策 → .. ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Context Engineering</title>
    <link>https://notes.gianniiss.top/Context-Engineering</link>
    <guid>https://notes.gianniiss.top/Context-Engineering</guid>
    <description><![CDATA[ Context Engineering（上下文工程） 设计 Agent 上下文窗口里的内容：每步看到什么、system prompt、工具描述、对话历史、检索到的知识。 不是一次性工作 Harness 在运行过程中持续管理上下文： 对话历史增长时的压缩/截断策略 检索增强（RAG）的时机和内容 Tool 结果的格式化回传 多步推理的中间步骤管理 推理 vs 训练的优势 训练推理出错成本重新训练改 prompt 即可迭代速度慢即时 Memory（记忆） 短期记忆 单次运行的上下文窗口内： 对话历史 Tool 结果 推理过程 长期记忆 跨 session 持久化： 外部存储（数据库、向量库） 按需... ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Harness</title>
    <link>https://notes.gianniiss.top/Harness</link>
    <guid>https://notes.gianniiss.top/Harness</guid>
    <description><![CDATA[ Harness（执行框架） Agent 内部的执行层：调模型、处理 tool call、决定何时停止。 让 Agent 真正跑起来的东西。 Harness vs Scaffold HarnessScaffold是什么执行循环行为定义做什么调模型 → 收到 tool call → 路由到函数 → 结果回传 → 循环system prompt、工具描述、格式定义类比神经系统世界观 Claude Code 等产品把「模型之外的一切」都泛称为 harness。 Harness Engineering 涵盖： 何时停止：判断任务完成 错误处理：tool call 失败后的重试/降级 安全护栏：在训练和推... ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Model</title>
    <link>https://notes.gianniiss.top/Model</link>
    <guid>https://notes.gianniiss.top/Model</guid>
    <description><![CDATA[ Model（模型） 纯 LLM：文本进、文本出。没有记忆、没有循环。 可以表达调用工具的意图（以结构化格式输出 tool call），但本身不能执行——需要 Harness 来执行。 同一个 model 在不同的 Scaffold + Harness 下可以表现得完全不同。 Model 本身没有跨调用的记忆——记忆由 Context Engineering 管理。 例子：Claude、Qwen、GPT。 与其他概念的关系 Model 是 Agent 的「大脑」：Agent = Model + Harness Model 的表达能力由 Scaffold 塑造 Model 的改进靠 Trainer... ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Policy</title>
    <link>https://notes.gianniiss.top/Policy</link>
    <guid>https://notes.gianniiss.top/Policy</guid>
    <description><![CDATA[ Policy（策略） 给定任一情境下，采取每种可能行动的概率分布。 两类来源 来源说明模型权重训练过程中学习到的行为倾向Scaffold + Harnessprompt / tool / memory / execution loop 定义的行为 同一个 Model 在不同 prompt / tool / memory / execution loop 下，策略完全不同。 Policy ≠ Agent Policy：定义行为（做什么的概率） Agent：执行行为的完整系统（Model + Harness + Scaffold） 回到总览 → AI Agent 核心概念. ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>RL Environment</title>
    <link>https://notes.gianniiss.top/RL-Environment</link>
    <guid>https://notes.gianniiss.top/RL-Environment</guid>
    <description><![CDATA[ RL Environment（强化学习环境） 任何可交互的对象：接收 action、更新内部状态、返回 observation。 LLM 语境下 Action 通常是 Tool call。 例子：文件系统 action: touch foo.txt state: 创建了新文件 observation: 更新后的目录列表（ls 输出） 与其他 RL 概念的关系 Environment 提供 Rollout 的「舞台」 每一步的 state/action/observation 组成 trajectory 数据 Reward 在这个环境中计算 回到总览 → AI Agent 核心概念. ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Reward</title>
    <link>https://notes.gianniiss.top/Reward</link>
    <guid>https://notes.gianniiss.top/Reward</guid>
    <description><![CDATA[ Reward（奖励） 告诉训练算法 Model 是否在变好的分数。 四种类型 类型说明例子Verifiable可自动验证测试通过/失败、代码编译Learned从数据学习人类偏好标注、LLM-as-judgeSparse稀疏奖励episode 结束才给一个分Dense密集奖励每一步都有得分 与其他概念的关系 Reward 在 RL Environment 中计算 Rubrics 是 Reward 的多维度分解 Trainer 使用 Reward 来更新权重 Rollout 记录每一步的 reward 回到总览 → AI Agent 核心概念. ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item><item>
    <title>Rollout</title>
    <link>https://notes.gianniiss.top/Rollout</link>
    <guid>https://notes.gianniiss.top/Rollout</guid>
    <description><![CDATA[ Rollout（轨迹） Agent 从头到尾的一次完整运行：每一步看到了什么、做了什么、得了多少奖励。 别名 Trajectory Trace 包含什么 Step 1: observation → action → reward Step 2: observation → action → reward .. ]]></description>
    <pubDate>Mon, 15 Jun 2026 00:00:00 GMT</pubDate>
  </item>
    </channel>
  </rss>