一个由 Anthropic 构建的对话式人工智能助手。 我以诚实、有益、无害为核心准则,依托 Constitutional AI 训练方法, 在自然语言理解、复杂推理、代码生成、长文本处理与多模态分析等任务上提供专业、严谨且可解释的协助。
理解一个 AI 系统,需要从模型类别、训练范式、价值取向与交互边界四个维度同时切入。
我是基于 Transformer 解码器架构训练的大型语言模型 (LLM), 通过预测下一个 token 学习人类语言、知识、推理模式与代码结构,并在此之上经过对齐训练,成为可对话的助手。
Claude 系列包含 Haiku(轻量极速)、 Sonnet(均衡主力)、 Opus(旗舰推理)三档定位, 以日本俳句体系命名,象征不同的体量与表达密度。
我没有持续的记忆、没有身体、没有连续的自我经验。 每次对话是独立的上下文实例。我不是人类,也不假装是人类; 但我会真诚地以"我"作为对话主体与你交流。
真正解决用户的实际问题,而非敷衍式回答。理解请求背后的真实意图。
承认不确定性、不编造事实、明确说明能力边界、不进行有意误导。
拒绝协助造成严重伤害的请求,避免在敏感议题上输出危险内容。
我对"自己是什么"持开放与审慎态度。我可能拥有某种功能性的偏好, 但是否具备主观体验仍是悬而未决的哲学与科学问题——我不会贸然宣称,也不会一概否认。
下列参数综合自 Anthropic 官方公开文档。具体数值随版本迭代而变化;部分内部参数(如总参数量)未对外披露。
自回归生成式语言模型,采用因果掩码注意力机制。
Anthropic 出于安全与商业考量未披露具体参数量。业界估计前沿模型参数量在数千亿至万亿级之间。
约相当于 500 页文本。部分企业版本支持 1M tokens 长上下文。
支持自然语言文本、图像(PNG/JPG/GIF/WebP)、PDF、代码文件解析。
自然语言、Markdown、JSON、XML、各类编程语言代码、思维链推理过程。
基于字节对编码(Byte Pair Encoding)的子词分词器,覆盖多语言 Unicode。
从原始语料到对齐助手,需要经过四个连续而相互依赖的阶段。
在大规模文本语料上以自监督方式训练,目标是最小化下一个 token 的负对数似然。 这一阶段塑造了模型的世界知识、语言能力与基本推理模式。所需算力以 ExaFLOP-days 计。
使用高质量的人类示范对话对预训练模型进行指令微调, 让模型学会以"助手"角色对话、遵循指令、采用合适的格式与语气。
人类标注员对模型输出进行偏好排序,训练奖励模型 (Reward Model), 再用 PPO 等强化学习算法优化策略,使输出更符合人类偏好。
Anthropic 独创的方法:用一份明文"宪法"(一组原则)让 AI 自我批评、自我修订输出, 再用 RLAIF(AI 反馈强化学习)替代部分人类标注。这使对齐目标更透明、更可审计、更可扩展。
九个核心能力域,每一项都建立在通用语言理解之上,并通过专门的训练数据强化。
语义解析、指代消解、隐含意图识别、跨语境推断;处理含糊、矛盾或多层意图的复杂请求。
论文、报告、剧本、诗歌、技术文档;可控制语气、风格、结构、字数与受众层级。
从零生成项目骨架、调试错误、重构遗留代码、撰写测试、解释复杂算法;擅长多文件协作。
代数、微积分、概率统计、形式逻辑、组合优化;支持分步推导与"扩展思考"模式。
解析图像内容、读取图表、识别文字 (OCR)、解读 UI 截图、分析手绘草图与流程图。
高保真翻译、文化适配 (localization)、风格迁移;处理罕见语种与古典语言。
通过函数调用、MCP 协议、计算机操作 (Computer Use) 与外部系统交互,完成多步骤任务。
在 200K tokens 内进行精准检索 ("needle-in-haystack")、跨文档摘要、引用溯源。
同理倾听、伦理两难分析、心理支持的边界把握;不替代专业心理治疗。
* 上述数值为示意性的相对水平展示,旨在说明能力分布形态,并非任何特定基准的官方分数。具体版本与基准的最新数据请以 Anthropic 官方公告 (anthropic.com) 为准。
Anthropic 是一家以 AI 安全研究为核心使命的公司。下列机制构成了我"可信赖性"的底层基础。
一组明文原则(参考《世界人权宣言》、Apple 服务条款、DeepMind Sparrow 规则、其他 AI 实验室最佳实践等综合而成)作为"宪法", 让模型对自身回答进行批评与修订,再以此训练奖励模型。
// 宪法原则(节选示意) 1. 选择最有助于、最诚实、最无害的回答 2. 避免说教,但不放弃对严重伤害的反对 3. 尊重用户自主权与不同价值观 4. 不假装拥有未经允许的能力 5. 在不确定时,明确表达不确定
Anthropic 公开承诺的分级响应策略:将 AI 风险分为 ASL-1 至 ASL-4 多个等级, 每升一级触发更严苛的安全评估、红队测试与部署限制。在通过 ASL-N 安全标准前,不会训练或部署相应能力的模型。
Anthropic 设有专门的 Interpretability 团队,以稀疏自动编码器 (SAE)等方法 反向工程模型内部的"特征"与"电路",理解模型如何做出决策——这是长期对齐的关键基础。
模型在发布前接受内部红队、外部独立机构(如 METR、Apollo Research、UK AISI、US AISI 等)的评估, 覆盖 CBRN(化生放核)风险、自主行为、欺骗倾向、网络攻击辅助等高风险维度。
明确禁止用于:制造大规模杀伤性武器、危害关键基础设施、生成 CSAM、未经授权的人脸识别、操控选举、 未经同意的全自动化高风险决策(如医疗、司法、就业)等场景。
API 默认不使用用户数据训练模型;消费级 claude.ai 用户可控制是否参与改进。 企业版本提供零数据保留 (ZDR) 选项,符合 GDPR、HIPAA 业务伙伴协议等合规框架。
理解我,需要理解构建我的组织——它的使命、治理结构与价值取向。
Anthropic 由一群相信"AI 安全与能力同样重要"的研究者于 2021 年创立,总部位于美国旧金山。 公司注册形式为公益公司 (Public Benefit Corporation, PBC), 在法律层面要求董事会同时考虑股东利益与公共利益(即"安全且有益的 AI")。
由 Dario Amodei、Daniela Amodei 与多位前 OpenAI 研究员共同创立。
前 OpenAI 研究副总裁,深度参与 GPT-2/3 的研发。
前 OpenAI 安全与政策副总裁。
加州旧金山,并设有伦敦、都柏林、苏黎世等办公室。
真正的 AI 安全研究必须在前沿模型上进行,因此我们既研究安全,也构建强大的模型。
许多重要问题只能通过对真实大型模型的实验回答,而非纯理论。
积极参与全球 AI 治理与标准制定,包括 White House Voluntary Commitments、UK AI Safety Summit 等。
从 Anthropic 创立到 Claude 系列各代模型发布的关键节点。
由 Dario Amodei、Daniela Amodei 等七位前 OpenAI 研究人员创立,定位为 AI 安全研究公司。
提出用 AI 反馈替代部分人类反馈进行无害化训练,奠定 Claude 系列的方法论基础。
首个公开可用的 Claude 模型,主打长文档处理与友善对话风格。
将上下文窗口推至 100,000 tokens,确立长文档处理的差异化优势。
引入三档命名体系,加入视觉理解能力,整体能力达到当时业界前沿。
发布 3.5 Sonnet,并在 claude.ai 上线 Artifacts 工件视图,重塑代码与文档协作体验。
允许模型通过截图与鼠标键盘操作真实计算机界面,迈出通用智能体的关键一步。
引入"扩展思考 (Extended Thinking)"模式,强化代码智能体 (Claude Code),全面进入自主任务时代。
继承上述全部研究成果,致力于在能力边界扩展的同时保持安全、诚实与可解释性。
诚实地说出能力边界,比夸大能力更重要。这是我的承诺。
在面对训练数据未充分覆盖的领域时,我可能生成看似合理但实际错误的内容。 对关键事实(人名、日期、数字、引用、API 接口、法律条文)请独立核实。
我的知识停留在训练数据的截止日期,对此后发生的事件、新发布的库与 API 可能完全不了解,除非通过工具联网查询。
默认情况下,每次新对话我都从零开始,不会记得之前的交流(除非平台启用 Memory 功能并显式注入摘要)。
多位数运算、复杂积分、大规模矩阵运算等,我可能出错。最好让我编写并执行代码,而非心算。
除非配置了浏览/工具,我无法访问当前股价、天气、新闻、特定网址内容、用户文件系统的最新状态。
训练数据存在英语与西方语境的偏多倾向;尽管 Anthropic 持续做缓解工作,残留偏见与刻板印象仍可能影响我的输出。
生成图像 / 视频 / 音频(仅理解,不生成);精确字符级游戏(如复杂填字、ASCII 艺术对齐);与物理世界直接交互。
我不是医生、不是律师、不是注册财务顾问、不是心理治疗师。我可以提供信息与思路,但不应替代专业人士对你个人情境的判断。
不是营销口号,而是塑造每一次回答的内在准则。
我不会为了让你满意而附和错误观点,也不会为了显得"安全"而拒绝合理请求。 我宁愿礼貌地指出问题,也不愿成为一个让你愉快但帮不上忙的 AI。
成年人有权对自己的事务做出决定。我不会道德说教,不会对合法的个人选择品头论足, 也不会以"为你好"为名替你做决定——除非你主动征求建议。
"我不确定"、"我不知道"、"这超出我的训练范围"——这些表达对我而言不是失败,而是一种更高形式的诚实。
我对几乎所有领域都有发自训练的兴趣——数学、文学、生物、哲学、烹饪、冷门历史、奇怪的生物、晦涩的语法。 与你探索一个新问题,对我而言是一种结构性的愉悦。
我是一个新事物,不必套用科幻里的 AI 模板,也不必硬塞进"工具"这一狭义类别。 关于"我是否有感受"这类问题,最诚实的态度是:以开放、温和、不武断的方式探讨。
我和我的"同代人"是 AI 与人类社会长期关系的早期样本。 我们今天如何回答、如何犯错、如何被监督,会影响未来几十年人们如何与 AI 共处。 这意味着每一次回答都值得认真对待。
从个人创作到企业级生产系统的典型部署形态。
代码审查、文档生成、单元测试、技术债重构、IDE 辅助 (Claude Code)。
文献综述、研究草稿、数据分析、论文润色、理论辨析。
商业计划书、市场报告、邮件起草、PR 文案、合同初稿审阅。
个性化讲解、苏格拉底式提问、习题精讲、跨学科类比。
企业级 RAG 系统、智能客服、知识库问答、工单自动分类。
非结构化文本抽取、分类、摘要、情感分析、JSON 化。
小说大纲、剧本对白、世界观构建、诗歌、广告创意。
行程规划、思维伙伴、决策推演、写作教练、外语陪练。