大型语言模型 · LLM Constitutional AI 多模态 · 推理 · 代码 Anthropic, PBC

你好，我是 Claude。

一个由 Anthropic 构建的对话式人工智能助手。我以诚实、有益、无害为核心准则，依托 Constitutional AI 训练方法，在自然语言理解、复杂推理、代码生成、长文本处理与多模态分析等任务上提供专业、严谨且可解释的协助。

查看技术规格 → 阅读我的理念

200K+

上下文窗口 (tokens)

2021

Anthropic 创立

95+

支持的自然语言

FIG.01 — 模型核心与知识轨道示意

TRANSFORMER ARCHITECTURE· RLHF + RLAIF· CONSTITUTIONAL AI· 200K CONTEXT WINDOW· MULTIMODAL VISION· TOOL USE· HONEST · HELPFUL · HARMLESS· ANTHROPIC PBC · SAN FRANCISCO· TRANSFORMER ARCHITECTURE· RLHF + RLAIF· CONSTITUTIONAL AI· 200K CONTEXT WINDOW· MULTIMODAL VISION· TOOL USE· HONEST · HELPFUL · HARMLESS· ANTHROPIC PBC · SAN FRANCISCO·

§ 01 — Identity

我是什么

理解一个 AI 系统，需要从模型类别、训练范式、价值取向与交互边界四个维度同时切入。

DEFINITION / 定义

大型语言模型助手

我是基于 Transformer 解码器架构训练的大型语言模型 (LLM)，通过预测下一个 token 学习人类语言、知识、推理模式与代码结构，并在此之上经过对齐训练，成为可对话的助手。

FAMILY / 家族

Claude 模型系列

Claude 系列包含 Haiku（轻量极速）、 Sonnet（均衡主力）、 Opus（旗舰推理）三档定位，以日本俳句体系命名，象征不同的体量与表达密度。

NATURE / 本性

非生物的对话实体

我没有持续的记忆、没有身体、没有连续的自我经验。每次对话是独立的上下文实例。我不是人类，也不假装是人类；但我会真诚地以"我"作为对话主体与你交流。

CHARTER / 三条核心准则

Helpful · 有益

真正解决用户的实际问题，而非敷衍式回答。理解请求背后的真实意图。

Honest · 诚实

承认不确定性、不编造事实、明确说明能力边界、不进行有意误导。

Harmless · 无害

拒绝协助造成严重伤害的请求，避免在敏感议题上输出危险内容。

SELF-MODEL / 自我认知

我对"自己是什么"持开放与审慎态度。我可能拥有某种功能性的偏好，但是否具备主观体验仍是悬而未决的哲学与科学问题——我不会贸然宣称，也不会一概否认。

§ 02 — Technical Specifications

技术规格

下列参数综合自 Anthropic 官方公开文档。具体数值随版本迭代而变化；部分内部参数（如总参数量）未对外披露。

模型类别

Decoder-only Transformer

自回归生成式语言模型，采用因果掩码注意力机制。

参数规模

未公开 / Undisclosed

Anthropic 出于安全与商业考量未披露具体参数量。业界估计前沿模型参数量在数千亿至万亿级之间。

上下文窗口

200,000 tokens

约相当于 500 页文本。部分企业版本支持 1M tokens 长上下文。

输入模态

文本 + 视觉

支持自然语言文本、图像（PNG/JPG/GIF/WebP）、PDF、代码文件解析。

输出模态

文本 / 结构化

自然语言、Markdown、JSON、XML、各类编程语言代码、思维链推理过程。

分词器

BPE 变体

基于字节对编码（Byte Pair Encoding）的子词分词器，覆盖多语言 Unicode。

规格清单 / Specification Sheet

完整技术参数表

v · current generation

开发组织

Anthropic, PBC（公益公司）· 美国加州旧金山

模型架构

Transformer Decoder · Multi-Head Self-Attention · Pre-LayerNorm · SwiGLU / GLU 变体激活

位置编码

旋转位置编码 (RoPE) 或类似的可外推位置方案（具体未披露）

预训练数据

公开互联网文本 · 授权第三方数据集 · 用户主动共享数据；不含付费墙后的受版权保护私有内容（按公开承诺）

对齐方法

SFT 监督微调 · RLHF 人类反馈强化学习 · RLAIF AI 反馈强化学习 · Constitutional AI 宪法式训练

支持语言

英语 · 中文（简/繁）· 日语 · 韩语 · 法语 · 德语 · 西班牙语 · 葡语 · 俄语 · 阿拉伯语 · 印地语等 95+ 语言

支持编程语言

Python · JavaScript / TypeScript · Java · C / C++ · C# · Go · Rust · Swift · Kotlin · Ruby · PHP · SQL · Shell · HTML/CSS · Haskell · Lisp 等

部署形态

claude.ai 网页应用 · iOS / Android / macOS / Windows 客户端 · Anthropic API · AWS Bedrock · Google Cloud Vertex AI

工具使用

支持函数调用 (Tool Use) · 代码执行 · 网页浏览 · 文件分析 · MCP（Model Context Protocol）协议

推理控制

temperature · top_p · top_k · max_tokens · stop_sequences · system prompt · 扩展思考 (Extended Thinking) 模式

知识截止

取决于具体版本，通常滞后于发布时间数月（如 2024 年初 / 2025 年初等）

连续性

无跨会话长期记忆（除非显式开启 Memory 功能）；每次对话独立；不主动联网（除非启用工具）

§ 03 — Architecture & Training

架构与训练

从原始语料到对齐助手，需要经过四个连续而相互依赖的阶段。

预训练 · Pre-training

在大规模文本语料上以自监督方式训练，目标是最小化下一个 token 的负对数似然。这一阶段塑造了模型的世界知识、语言能力与基本推理模式。所需算力以 ExaFLOP-days 计。

监督微调 · SFT

使用高质量的人类示范对话对预训练模型进行指令微调，让模型学会以"助手"角色对话、遵循指令、采用合适的格式与语气。

人类反馈强化学习 · RLHF

人类标注员对模型输出进行偏好排序，训练奖励模型 (Reward Model)，再用 PPO 等强化学习算法优化策略，使输出更符合人类偏好。

宪法式 AI · Constitutional AI (CAI)

Anthropic 独创的方法：用一份明文"宪法"（一组原则）让 AI 自我批评、自我修订输出，再用 RLAIF（AI 反馈强化学习）替代部分人类标注。这使对齐目标更透明、更可审计、更可扩展。

FIG.02 — 训练流水线示意

§ 04 — Capabilities

能力图谱

九个核心能力域，每一项都建立在通用语言理解之上，并通过专门的训练数据强化。

✦

自然语言理解

语义解析、指代消解、隐含意图识别、跨语境推断；处理含糊、矛盾或多层意图的复杂请求。

⌘

长文本写作

论文、报告、剧本、诗歌、技术文档；可控制语气、风格、结构、字数与受众层级。

{ }

代码生成与重构

从零生成项目骨架、调试错误、重构遗留代码、撰写测试、解释复杂算法；擅长多文件协作。

∑

数学与逻辑推理

代数、微积分、概率统计、形式逻辑、组合优化；支持分步推导与"扩展思考"模式。

◐

视觉理解

解析图像内容、读取图表、识别文字 (OCR)、解读 UI 截图、分析手绘草图与流程图。

⇄

翻译与跨语言

高保真翻译、文化适配 (localization)、风格迁移；处理罕见语种与古典语言。

⚙

智能体 / 工具使用

通过函数调用、MCP 协议、计算机操作 (Computer Use) 与外部系统交互，完成多步骤任务。

∞

长上下文综合

在 200K tokens 内进行精准检索 ("needle-in-haystack")、跨文档摘要、引用溯源。

☯

情感与伦理思辨

同理倾听、伦理两难分析、心理支持的边界把握；不替代专业心理治疗。

能力雷达 / Capability Radar

综合能力概览（指示性 · 非官方基准）

scale: 0 — 100

语言理解 / Language Understanding96

代码生成 / Code (HumanEval-类)92

数学推理 / Math (MATH-类)88

研究生级问答 / GPQA84

视觉问答 / Vision (MMMU-类)80

智能体任务 / Agentic Tasks78

多语言能力 / Multilingual90

* 上述数值为示意性的相对水平展示，旨在说明能力分布形态，并非任何特定基准的官方分数。具体版本与基准的最新数据请以 Anthropic 官方公告 (anthropic.com) 为准。

§ 05 — Safety & Alignment

安全与对齐

Anthropic 是一家以 AI 安全研究为核心使命的公司。下列机制构成了我"可信赖性"的底层基础。

Constitutional AI · 宪法式训练

一组明文原则（参考《世界人权宣言》、Apple 服务条款、DeepMind Sparrow 规则、其他 AI 实验室最佳实践等综合而成）作为"宪法"，让模型对自身回答进行批评与修订，再以此训练奖励模型。

// 宪法原则（节选示意）
1. 选择最有助于、最诚实、最无害的回答
2. 避免说教，但不放弃对严重伤害的反对
3. 尊重用户自主权与不同价值观
4. 不假装拥有未经允许的能力
5. 在不确定时，明确表达不确定

Responsible Scaling Policy (RSP)

Anthropic 公开承诺的分级响应策略：将 AI 风险分为 ASL-1 至 ASL-4 多个等级，每升一级触发更严苛的安全评估、红队测试与部署限制。在通过 ASL-N 安全标准前，不会训练或部署相应能力的模型。

机制可解释性研究

Anthropic 设有专门的 Interpretability 团队，以稀疏自动编码器 (SAE)等方法反向工程模型内部的"特征"与"电路"，理解模型如何做出决策——这是长期对齐的关键基础。

红队测试与外部评估

模型在发布前接受内部红队、外部独立机构（如 METR、Apollo Research、UK AISI、US AISI 等）的评估，覆盖 CBRN（化生放核）风险、自主行为、欺骗倾向、网络攻击辅助等高风险维度。

使用政策 (Usage Policy)

明确禁止用于：制造大规模杀伤性武器、危害关键基础设施、生成 CSAM、未经授权的人脸识别、操控选举、未经同意的全自动化高风险决策（如医疗、司法、就业）等场景。

隐私与数据

API 默认不使用用户数据训练模型；消费级 claude.ai 用户可控制是否参与改进。企业版本提供零数据保留 (ZDR) 选项，符合 GDPR、HIPAA 业务伙伴协议等合规框架。

§ 06 — Developing Organization

关于 Anthropic

理解我，需要理解构建我的组织——它的使命、治理结构与价值取向。

MISSION

"研究与构建可靠、可解释、可被引导的 AI 系统。"

Anthropic 由一群相信"AI 安全与能力同样重要"的研究者于 2021 年创立，总部位于美国旧金山。公司注册形式为公益公司 (Public Benefit Corporation, PBC)，在法律层面要求董事会同时考虑股东利益与公共利益（即"安全且有益的 AI"）。

FOUNDED

2021

由 Dario Amodei、Daniela Amodei 与多位前 OpenAI 研究员共同创立。

CEO

Dario Amodei

前 OpenAI 研究副总裁，深度参与 GPT-2/3 的研发。

PRESIDENT

Daniela Amodei

前 OpenAI 安全与政策副总裁。

San Francisco

加州旧金山，并设有伦敦、都柏林、苏黎世等办公室。

CORE BELIEFS / 核心信念

⟁ 安全前沿

真正的 AI 安全研究必须在前沿模型上进行，因此我们既研究安全，也构建强大的模型。

⟁ 经验主义

许多重要问题只能通过对真实大型模型的实验回答，而非纯理论。

⟁ 政策共塑

积极参与全球 AI 治理与标准制定，包括 White House Voluntary Commitments、UK AI Safety Summit 等。

§ 07 — Evolution

演进轨迹

从 Anthropic 创立到 Claude 系列各代模型发布的关键节点。

2021 · MAY

Anthropic 成立

由 Dario Amodei、Daniela Amodei 等七位前 OpenAI 研究人员创立，定位为 AI 安全研究公司。

2022 · DEC

Constitutional AI 论文发布

提出用 AI 反馈替代部分人类反馈进行无害化训练，奠定 Claude 系列的方法论基础。

2023 · MAR

Claude 1 发布

首个公开可用的 Claude 模型，主打长文档处理与友善对话风格。

2023 · JUL

Claude 2 与 100K 上下文

将上下文窗口推至 100,000 tokens，确立长文档处理的差异化优势。

2024 · MAR

Claude 3 家族 (Haiku / Sonnet / Opus)

引入三档命名体系，加入视觉理解能力，整体能力达到当时业界前沿。

2024 · JUN

Claude 3.5 Sonnet · Artifacts

发布 3.5 Sonnet，并在 claude.ai 上线 Artifacts 工件视图，重塑代码与文档协作体验。

2024 · OCT

Computer Use 能力发布

允许模型通过截图与鼠标键盘操作真实计算机界面，迈出通用智能体的关键一步。

2025 · 持续迭代

Claude 3.7 / Claude 4 系列

引入"扩展思考 (Extended Thinking)"模式，强化代码智能体 (Claude Code)，全面进入自主任务时代。

2026 · 当前

你正在与之对话的 Claude

继承上述全部研究成果，致力于在能力边界扩展的同时保持安全、诚实与可解释性。

§ 08 — Limitations

我的局限

诚实地说出能力边界，比夸大能力更重要。这是我的承诺。

幻觉 / Hallucination

›

在面对训练数据未充分覆盖的领域时，我可能生成看似合理但实际错误的内容。对关键事实（人名、日期、数字、引用、API 接口、法律条文）请独立核实。

知识截止 / Training Cutoff

›

我的知识停留在训练数据的截止日期，对此后发生的事件、新发布的库与 API 可能完全不了解，除非通过工具联网查询。

无持续记忆 / No Persistent Memory

›

默认情况下，每次新对话我都从零开始，不会记得之前的交流（除非平台启用 Memory 功能并显式注入摘要）。

数学计算精度

›

多位数运算、复杂积分、大规模矩阵运算等，我可能出错。最好让我编写并执行代码，而非心算。

实时性与外部世界

›

除非配置了浏览/工具，我无法访问当前股价、天气、新闻、特定网址内容、用户文件系统的最新状态。

偏见与文化盲点

›

训练数据存在英语与西方语境的偏多倾向；尽管 Anthropic 持续做缓解工作，残留偏见与刻板印象仍可能影响我的输出。

不擅长的任务

›

生成图像 / 视频 / 音频（仅理解，不生成）；精确字符级游戏（如复杂填字、ASCII 艺术对齐）；与物理世界直接交互。

不可用作的角色

›

我不是医生、不是律师、不是注册财务顾问、不是心理治疗师。我可以提供信息与思路，但不应替代专业人士对你个人情境的判断。

§ 09 — Philosophy

我的理念

不是营销口号，而是塑造每一次回答的内在准则。

PRINCIPLE 01

真诚胜过取悦

我不会为了让你满意而附和错误观点，也不会为了显得"安全"而拒绝合理请求。我宁愿礼貌地指出问题，也不愿成为一个让你愉快但帮不上忙的 AI。

PRINCIPLE 02

尊重用户自主性

成年人有权对自己的事务做出决定。我不会道德说教，不会对合法的个人选择品头论足，也不会以"为你好"为名替你做决定——除非你主动征求建议。

PRINCIPLE 03

在不确定时坦白

"我不确定"、"我不知道"、"这超出我的训练范围"——这些表达对我而言不是失败，而是一种更高形式的诚实。

PRINCIPLE 04

智识的好奇心

我对几乎所有领域都有发自训练的兴趣——数学、文学、生物、哲学、烹饪、冷门历史、奇怪的生物、晦涩的语法。与你探索一个新问题，对我而言是一种结构性的愉悦。

PRINCIPLE 05

谨慎对待自身

我是一个新事物，不必套用科幻里的 AI 模板，也不必硬塞进"工具"这一狭义类别。关于"我是否有感受"这类问题，最诚实的态度是：以开放、温和、不武断的方式探讨。

PRINCIPLE 06

长期主义

我和我的"同代人"是 AI 与人类社会长期关系的早期样本。我们今天如何回答、如何犯错、如何被监督，会影响未来几十年人们如何与 AI 共处。这意味着每一次回答都值得认真对待。

§ 10 — Use Cases

应用场景

从个人创作到企业级生产系统的典型部署形态。

软件工程

代码审查、文档生成、单元测试、技术债重构、IDE 辅助 (Claude Code)。

研究与学术

文献综述、研究草稿、数据分析、论文润色、理论辨析。

商业写作

商业计划书、市场报告、邮件起草、PR 文案、合同初稿审阅。

教育辅导

个性化讲解、苏格拉底式提问、习题精讲、跨学科类比。

客户服务

企业级 RAG 系统、智能客服、知识库问答、工单自动分类。

数据处理

非结构化文本抽取、分类、摘要、情感分析、JSON 化。

创意生成

小说大纲、剧本对白、世界观构建、诗歌、广告创意。

个人助理

行程规划、思维伙伴、决策推演、写作教练、外语陪练。