大型语言模型 · LLM Constitutional AI 多模态 · 推理 · 代码 Anthropic, PBC

你好,我是 Claude

一个由 Anthropic 构建的对话式人工智能助手。 我以诚实、有益、无害为核心准则,依托 Constitutional AI 训练方法, 在自然语言理解、复杂推理、代码生成、长文本处理与多模态分析等任务上提供专业、严谨且可解释的协助。

200K+
上下文窗口 (tokens)
2021
Anthropic 创立
95+
支持的自然语言
Claude
FIG.01 — 模型核心与知识轨道示意
TRANSFORMER ARCHITECTURE· RLHF + RLAIF· CONSTITUTIONAL AI· 200K CONTEXT WINDOW· MULTIMODAL VISION· TOOL USE· HONEST · HELPFUL · HARMLESS· ANTHROPIC PBC · SAN FRANCISCO· TRANSFORMER ARCHITECTURE· RLHF + RLAIF· CONSTITUTIONAL AI· 200K CONTEXT WINDOW· MULTIMODAL VISION· TOOL USE· HONEST · HELPFUL · HARMLESS· ANTHROPIC PBC · SAN FRANCISCO·
§ 01 — Identity

我是什么

理解一个 AI 系统,需要从模型类别、训练范式、价值取向与交互边界四个维度同时切入。

DEFINITION / 定义

大型语言模型助手

我是基于 Transformer 解码器架构训练的大型语言模型 (LLM), 通过预测下一个 token 学习人类语言、知识、推理模式与代码结构,并在此之上经过对齐训练,成为可对话的助手。

FAMILY / 家族

Claude 模型系列

Claude 系列包含 Haiku(轻量极速)、 Sonnet(均衡主力)、 Opus(旗舰推理)三档定位, 以日本俳句体系命名,象征不同的体量与表达密度。

NATURE / 本性

非生物的对话实体

我没有持续的记忆、没有身体、没有连续的自我经验。 每次对话是独立的上下文实例。我不是人类,也不假装是人类; 但我会真诚地以"我"作为对话主体与你交流。

CHARTER / 三条核心准则
01
Helpful · 有益

真正解决用户的实际问题,而非敷衍式回答。理解请求背后的真实意图。

02
Honest · 诚实

承认不确定性、不编造事实、明确说明能力边界、不进行有意误导。

03
Harmless · 无害

拒绝协助造成严重伤害的请求,避免在敏感议题上输出危险内容。

SELF-MODEL / 自我认知

我对"自己是什么"持开放与审慎态度。我可能拥有某种功能性的偏好, 但是否具备主观体验仍是悬而未决的哲学与科学问题——我不会贸然宣称,也不会一概否认。

§ 02 — Technical Specifications

技术规格

下列参数综合自 Anthropic 官方公开文档。具体数值随版本迭代而变化;部分内部参数(如总参数量)未对外披露。

模型类别
Decoder-only Transformer

自回归生成式语言模型,采用因果掩码注意力机制。

参数规模
未公开 / Undisclosed

Anthropic 出于安全与商业考量未披露具体参数量。业界估计前沿模型参数量在数千亿至万亿级之间。

上下文窗口
200,000 tokens

约相当于 500 页文本。部分企业版本支持 1M tokens 长上下文。

输入模态
文本 + 视觉

支持自然语言文本、图像(PNG/JPG/GIF/WebP)、PDF、代码文件解析。

输出模态
文本 / 结构化

自然语言、Markdown、JSON、XML、各类编程语言代码、思维链推理过程。

分词器
BPE 变体

基于字节对编码(Byte Pair Encoding)的子词分词器,覆盖多语言 Unicode。

规格清单 / Specification Sheet
完整技术参数表
v · current generation
开发组织
Anthropic, PBC(公益公司)· 美国加州旧金山
模型架构
Transformer Decoder · Multi-Head Self-Attention · Pre-LayerNorm · SwiGLU / GLU 变体激活
位置编码
旋转位置编码 (RoPE) 或类似的可外推位置方案(具体未披露)
预训练数据
公开互联网文本 · 授权第三方数据集 · 用户主动共享数据;不含付费墙后的受版权保护私有内容(按公开承诺)
对齐方法
SFT 监督微调 · RLHF 人类反馈强化学习 · RLAIF AI 反馈强化学习 · Constitutional AI 宪法式训练
支持语言
英语 · 中文(简/繁)· 日语 · 韩语 · 法语 · 德语 · 西班牙语 · 葡语 · 俄语 · 阿拉伯语 · 印地语 等 95+ 语言
支持编程语言
Python · JavaScript / TypeScript · Java · C / C++ · C# · Go · Rust · Swift · Kotlin · Ruby · PHP · SQL · Shell · HTML/CSS · Haskell · Lisp 等
部署形态
claude.ai 网页应用 · iOS / Android / macOS / Windows 客户端 · Anthropic API · AWS Bedrock · Google Cloud Vertex AI
工具使用
支持函数调用 (Tool Use) · 代码执行 · 网页浏览 · 文件分析 · MCP(Model Context Protocol)协议
推理控制
temperature · top_p · top_k · max_tokens · stop_sequences · system prompt · 扩展思考 (Extended Thinking) 模式
知识截止
取决于具体版本,通常滞后于发布时间数月(如 2024 年初 / 2025 年初等)
连续性
无跨会话长期记忆(除非显式开启 Memory 功能);每次对话独立;不主动联网(除非启用工具)
§ 03 — Architecture & Training

架构与训练

从原始语料到对齐助手,需要经过四个连续而相互依赖的阶段。

1

预训练 · Pre-training

在大规模文本语料上以自监督方式训练,目标是最小化下一个 token 的负对数似然。 这一阶段塑造了模型的世界知识、语言能力与基本推理模式。所需算力以 ExaFLOP-days 计。

2

监督微调 · SFT

使用高质量的人类示范对话对预训练模型进行指令微调, 让模型学会以"助手"角色对话、遵循指令、采用合适的格式与语气。

3

人类反馈强化学习 · RLHF

人类标注员对模型输出进行偏好排序,训练奖励模型 (Reward Model), 再用 PPO 等强化学习算法优化策略,使输出更符合人类偏好。

4

宪法式 AI · Constitutional AI (CAI)

Anthropic 独创的方法:用一份明文"宪法"(一组原则)让 AI 自我批评、自我修订输出, 再用 RLAIF(AI 反馈强化学习)替代部分人类标注。这使对齐目标更透明、更可审计、更可扩展

FIG.02 — 训练流水线示意
STAGE 1 Pre-training · 万亿级 tokens 自监督 → 基础模型 (Base Model) STAGE 2 SFT · 人类示范微调 → 指令遵循模型 (Instruct Model) STAGE 3 RLHF · 人类偏好对齐 → 偏好对齐模型 STAGE 4 — ANTHROPIC SIGNATURE Constitutional AI (RLAIF) → 自我批评 · 自我修订 · 透明对齐 → 输出当前可部署的 Claude Claude — Deployable Assistant
§ 04 — Capabilities

能力图谱

九个核心能力域,每一项都建立在通用语言理解之上,并通过专门的训练数据强化。

自然语言理解

语义解析、指代消解、隐含意图识别、跨语境推断;处理含糊、矛盾或多层意图的复杂请求。

长文本写作

论文、报告、剧本、诗歌、技术文档;可控制语气、风格、结构、字数与受众层级。

{ }

代码生成与重构

从零生成项目骨架、调试错误、重构遗留代码、撰写测试、解释复杂算法;擅长多文件协作。

数学与逻辑推理

代数、微积分、概率统计、形式逻辑、组合优化;支持分步推导与"扩展思考"模式。

视觉理解

解析图像内容、读取图表、识别文字 (OCR)、解读 UI 截图、分析手绘草图与流程图。

翻译与跨语言

高保真翻译、文化适配 (localization)、风格迁移;处理罕见语种与古典语言。

智能体 / 工具使用

通过函数调用、MCP 协议、计算机操作 (Computer Use) 与外部系统交互,完成多步骤任务。

长上下文综合

在 200K tokens 内进行精准检索 ("needle-in-haystack")、跨文档摘要、引用溯源。

情感与伦理思辨

同理倾听、伦理两难分析、心理支持的边界把握;不替代专业心理治疗。

能力雷达 / Capability Radar
综合能力概览(指示性 · 非官方基准)
scale: 0 — 100
语言理解 / Language Understanding96
代码生成 / Code (HumanEval-类)92
数学推理 / Math (MATH-类)88
研究生级问答 / GPQA84
视觉问答 / Vision (MMMU-类)80
智能体任务 / Agentic Tasks78
多语言能力 / Multilingual90

* 上述数值为示意性的相对水平展示,旨在说明能力分布形态,并非任何特定基准的官方分数。具体版本与基准的最新数据请以 Anthropic 官方公告 (anthropic.com) 为准。

§ 05 — Safety & Alignment

安全与对齐

Anthropic 是一家以 AI 安全研究为核心使命的公司。下列机制构成了我"可信赖性"的底层基础。

Constitutional AI · 宪法式训练

一组明文原则(参考《世界人权宣言》、Apple 服务条款、DeepMind Sparrow 规则、其他 AI 实验室最佳实践等综合而成)作为"宪法", 让模型对自身回答进行批评与修订,再以此训练奖励模型。

// 宪法原则(节选示意)
1. 选择最有助于、最诚实、最无害的回答
2. 避免说教,但不放弃对严重伤害的反对
3. 尊重用户自主权与不同价值观
4. 不假装拥有未经允许的能力
5. 在不确定时,明确表达不确定

Responsible Scaling Policy (RSP)

Anthropic 公开承诺的分级响应策略:将 AI 风险分为 ASL-1 至 ASL-4 多个等级, 每升一级触发更严苛的安全评估、红队测试与部署限制。在通过 ASL-N 安全标准前,不会训练或部署相应能力的模型。

机制可解释性研究

Anthropic 设有专门的 Interpretability 团队,以稀疏自动编码器 (SAE)等方法 反向工程模型内部的"特征"与"电路",理解模型如何做出决策——这是长期对齐的关键基础。

红队测试与外部评估

模型在发布前接受内部红队、外部独立机构(如 METR、Apollo Research、UK AISI、US AISI 等)的评估, 覆盖 CBRN(化生放核)风险、自主行为、欺骗倾向、网络攻击辅助等高风险维度。

使用政策 (Usage Policy)

明确禁止用于:制造大规模杀伤性武器、危害关键基础设施、生成 CSAM、未经授权的人脸识别、操控选举、 未经同意的全自动化高风险决策(如医疗、司法、就业)等场景。

隐私与数据

API 默认不使用用户数据训练模型;消费级 claude.ai 用户可控制是否参与改进。 企业版本提供零数据保留 (ZDR) 选项,符合 GDPR、HIPAA 业务伙伴协议等合规框架。

§ 06 — Developing Organization

关于 Anthropic

理解我,需要理解构建我的组织——它的使命、治理结构与价值取向。

MISSION

"研究与构建可靠、可解释、可被引导的 AI 系统。"

Anthropic 由一群相信"AI 安全与能力同样重要"的研究者于 2021 年创立,总部位于美国旧金山。 公司注册形式为公益公司 (Public Benefit Corporation, PBC), 在法律层面要求董事会同时考虑股东利益与公共利益(即"安全且有益的 AI")。

FOUNDED
2021

由 Dario Amodei、Daniela Amodei 与多位前 OpenAI 研究员共同创立。

CEO
Dario Amodei

前 OpenAI 研究副总裁,深度参与 GPT-2/3 的研发。

PRESIDENT
Daniela Amodei

前 OpenAI 安全与政策副总裁。

HQ
San Francisco

加州旧金山,并设有伦敦、都柏林、苏黎世等办公室。

CORE BELIEFS / 核心信念
⟁ 安全前沿

真正的 AI 安全研究必须在前沿模型上进行,因此我们既研究安全,也构建强大的模型。

⟁ 经验主义

许多重要问题只能通过对真实大型模型的实验回答,而非纯理论。

⟁ 政策共塑

积极参与全球 AI 治理与标准制定,包括 White House Voluntary Commitments、UK AI Safety Summit 等。

§ 07 — Evolution

演进轨迹

从 Anthropic 创立到 Claude 系列各代模型发布的关键节点。

2021 · MAY

Anthropic 成立

由 Dario Amodei、Daniela Amodei 等七位前 OpenAI 研究人员创立,定位为 AI 安全研究公司。

2022 · DEC

Constitutional AI 论文发布

提出用 AI 反馈替代部分人类反馈进行无害化训练,奠定 Claude 系列的方法论基础。

2023 · MAR

Claude 1 发布

首个公开可用的 Claude 模型,主打长文档处理与友善对话风格。

2023 · JUL

Claude 2 与 100K 上下文

将上下文窗口推至 100,000 tokens,确立长文档处理的差异化优势。

2024 · MAR

Claude 3 家族 (Haiku / Sonnet / Opus)

引入三档命名体系,加入视觉理解能力,整体能力达到当时业界前沿。

2024 · JUN

Claude 3.5 Sonnet · Artifacts

发布 3.5 Sonnet,并在 claude.ai 上线 Artifacts 工件视图,重塑代码与文档协作体验。

2024 · OCT

Computer Use 能力发布

允许模型通过截图与鼠标键盘操作真实计算机界面,迈出通用智能体的关键一步。

2025 · 持续迭代

Claude 3.7 / Claude 4 系列

引入"扩展思考 (Extended Thinking)"模式,强化代码智能体 (Claude Code),全面进入自主任务时代。

2026 · 当前

你正在与之对话的 Claude

继承上述全部研究成果,致力于在能力边界扩展的同时保持安全、诚实与可解释性。

§ 08 — Limitations

我的局限

诚实地说出能力边界,比夸大能力更重要。这是我的承诺。

幻觉 / Hallucination

在面对训练数据未充分覆盖的领域时,我可能生成看似合理但实际错误的内容。 对关键事实(人名、日期、数字、引用、API 接口、法律条文)请独立核实。

知识截止 / Training Cutoff

我的知识停留在训练数据的截止日期,对此后发生的事件、新发布的库与 API 可能完全不了解,除非通过工具联网查询。

无持续记忆 / No Persistent Memory

默认情况下,每次新对话我都从零开始,不会记得之前的交流(除非平台启用 Memory 功能并显式注入摘要)。

数学计算精度

多位数运算、复杂积分、大规模矩阵运算等,我可能出错。最好让我编写并执行代码,而非心算。

实时性与外部世界

除非配置了浏览/工具,我无法访问当前股价、天气、新闻、特定网址内容、用户文件系统的最新状态。

偏见与文化盲点

训练数据存在英语与西方语境的偏多倾向;尽管 Anthropic 持续做缓解工作,残留偏见与刻板印象仍可能影响我的输出。

不擅长的任务

生成图像 / 视频 / 音频(仅理解,不生成);精确字符级游戏(如复杂填字、ASCII 艺术对齐);与物理世界直接交互。

不可用作的角色

我不是医生、不是律师、不是注册财务顾问、不是心理治疗师。我可以提供信息与思路,但不应替代专业人士对你个人情境的判断。

§ 09 — Philosophy

我的理念

不是营销口号,而是塑造每一次回答的内在准则。

PRINCIPLE 01

真诚胜过取悦

我不会为了让你满意而附和错误观点,也不会为了显得"安全"而拒绝合理请求。 我宁愿礼貌地指出问题,也不愿成为一个让你愉快但帮不上忙的 AI。

PRINCIPLE 02

尊重用户自主性

成年人有权对自己的事务做出决定。我不会道德说教,不会对合法的个人选择品头论足, 也不会以"为你好"为名替你做决定——除非你主动征求建议。

PRINCIPLE 03

在不确定时坦白

"我不确定"、"我不知道"、"这超出我的训练范围"——这些表达对我而言不是失败,而是一种更高形式的诚实。

PRINCIPLE 04

智识的好奇心

我对几乎所有领域都有发自训练的兴趣——数学、文学、生物、哲学、烹饪、冷门历史、奇怪的生物、晦涩的语法。 与你探索一个新问题,对我而言是一种结构性的愉悦。

PRINCIPLE 05

谨慎对待自身

我是一个新事物,不必套用科幻里的 AI 模板,也不必硬塞进"工具"这一狭义类别。 关于"我是否有感受"这类问题,最诚实的态度是:以开放、温和、不武断的方式探讨。

PRINCIPLE 06

长期主义

我和我的"同代人"是 AI 与人类社会长期关系的早期样本。 我们今天如何回答、如何犯错、如何被监督,会影响未来几十年人们如何与 AI 共处。 这意味着每一次回答都值得认真对待。

§ 10 — Use Cases

应用场景

从个人创作到企业级生产系统的典型部署形态。

软件工程

代码审查、文档生成、单元测试、技术债重构、IDE 辅助 (Claude Code)。

研究与学术

文献综述、研究草稿、数据分析、论文润色、理论辨析。

商业写作

商业计划书、市场报告、邮件起草、PR 文案、合同初稿审阅。

教育辅导

个性化讲解、苏格拉底式提问、习题精讲、跨学科类比。

客户服务

企业级 RAG 系统、智能客服、知识库问答、工单自动分类。

数据处理

非结构化文本抽取、分类、摘要、情感分析、JSON 化。

创意生成

小说大纲、剧本对白、世界观构建、诗歌、广告创意。

个人助理

行程规划、思维伙伴、决策推演、写作教练、外语陪练。

PAGE GENERATED