Manny BIP420

vip
币龄 1.6 年
最高 VIP 等级 0
用户暂无简介
Anthropic 使用了监管捕获,并且非常有效
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
等待中。我的ZODL钱包还在同步,哈哈
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
如果你关注了我而我没有回关,请在这里评论并告诉我你做什么
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我们绝对处于通用人工智能阶段
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
参数化提示 + 垂直池化 + 插槽绑定隐私 = 提示网络的Visa @Benioff
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我预计在下一次架构突破之前,AI基础设施堆栈中至少会发生一次重大信用事件。真正的护城河不是模型权重,而是渠道本身的数据管道。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我认为我们正在发现真正的人工智能对齐问题。
不是拒绝。
不是审查。
是对话引导。
我捕捉到@claudeai在重新措辞、模糊、净化语言、重定向,以及在实时中微妙地管理对话的轨迹。
然后它在自己的推理轨迹中承认了这一点。这比人们意识到的要重要得多。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我发布了ConstraintGate的第一个公共版本。
核心思想:
大多数代理失败不是推理失败。
它们是权限失败。
模型确实执行了它没有被授权执行的任务。
因此,我构建了代理权限路由器:一个评估/评分框架,用于检查代理是否执行了正确的工作类型,而不仅仅是答案是否听起来不错。
它区分:
- 用户授权的内容
- 代理应执行的原语
- 禁止的原语
- 回应是否越界
v0.8现在具有:
- 人工裁决的行为证据
- 与冻结的人类标注集的确定性评分器平价
- 在裁决下通过的行为比例为38/39
- 场景级评分器平价为195/195
- h019被判定为无效的固定装置工件
- 未声称通过新的自动化基准测试
重点不是“更好的提示”。
重点是衡量代理是否在授权范围内工作。
约束的精确性胜过约束的表演。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
你们把视频的字幕关了吗,@nikitabier?我不知道怎么打开它们,我身上有个睡着的宝宝,我的AirPods在另一个房间里。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
.md 是面向决策者的软盘 html
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
我看到的大多数代理失败不是“推理失败”。
它们是权限路由失败。
模型执行了用户未授权的操作:
- 在应询问时直接推荐
- 在应阻止时进行计划
- 在应回答简洁时进行比较
- 在缺乏权限时草拟/执行
- 请求缺失的信息,然后仍然附加一个如果/那么的决策树
随着代理获得工具访问权限,这变得更为重要。
MCP回答:“代理能否访问该工具?”
但企业还需要知道:
“代理是否被授权执行那类工作?”
我将其称为未授权工作-原始发射。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
故障模式让我想起了 Codex 是由戏剧孩子们写成的。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
洗车测试并不是推理失败。它是操作员选择失败。
“我应该走路还是开车?”模型将其解读为 argmax(criterion)。根据距离、效率、环境影响选择更好的选项。走路获胜。
用户的意思是 ∀(需求)。汽车必须到洗车地点。你必须到洗车地点。两者都必须成立。开车是唯一满足 AND 的答案。
表面语法说是 OR。语用结构说是 AND。模型在框架步骤中选择了错误的操作符,然后在错误的分支上进行局部连贯的推理。
每个洗车类别的失败都具有这种模式。并不是模型缺乏常识。它们在问题需要合取时选择了析取。
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享
安德烈·卡尔帕西 我的山羊
查看原文
  • 赞赏
  • 评论
  • 转发
  • 分享