2本报告的讨论范围具有危险能⼒的专⽤AI(例如⽤于⽹络攻击、⽣物⼯程的AI模型) 前沿AI (Frontier AI)(例如前沿⼤模型,以及未来可能的AGI) 低⻛险的专⽤系统(例如AlphaGo、AlphaFold)次前沿的基础模型(例如GPT-3)专⽤AI(Narrow AI)通⽤AI(General AI)通⽤性潜在伤害讨论范围注:1)本报告的讨论范围参考了全球AI安全峰会的讨论范围设定,⽩⽪书得到图灵奖得主Yoshua Bengio等学者专家的建议。 2)在不同章节,根据参考资料或讨论语境,前沿⼤模型、前沿AI、AGI等概念可能存在混⽤的情况。3本报告聚焦⸺前沿⼤模型:●前沿⼤模型(Frontier Large Model):能执⾏⼴泛的任务,并达到或超过当前最先进现有模型能⼒的⼤规模机器学习模型,是⽬前最常⻅的前沿AI,提供了最多的机遇但也带来了新的⻛险。模型能⼒相关术语,主要参考全球AI安全峰会、前沿模型论坛、 AI全景报告:●前沿AI(Frontier AI):⾼能⼒的通⽤AI模型,能执⾏⼴泛的任务,并达到或超过当今最先进模型的能⼒,最常⻅的是基础模型。●通⽤AI(General AI)/专⽤AI(Narrow AI):⼀种设计⽤来执⾏任何/特定认知任务的⼈⼯智能,其学习算法被设计为可以执⾏各种各样的任务/少数特定任务,并且从执⾏任务中获得的知识可以/不可以⾃动适⽤或迁移到其他任务。●通⽤⼈⼯智能(Artificial General Intelligence, AGI):可在所有或⼤部分有经济价值的任务中达到或超过⼈类全部认知能⼒的机器智能。(与通⽤AI的区别在于能⼒级别;关于AGI的定义存在很多分歧,本报告中不同专家或调研的定义可能不同)⼤规模机器学习模型相关术语,主要参考斯坦福⼤学、智源研究院:●基础模型(Foundation Model):在⼤规模⼴泛数据上训练的模型,使其可以适应⼴泛的下游任务;国内学界外通常简称为“⼤模型”。⼈⼯智能⻛险相关术语,主要参考⽜津⼤学研究机构:●⽣存⻛险(Existential Risk):威胁起源于地球的智能⽣命过早灭绝或对其未来发展潜⼒的永久和剧烈破坏的⻛险。●灾难性⻛险(Catastrophic Risk):⼀种可能发⽣的事件或过程,若发⽣将导致全球约10%或更多⼈⼝丧⽣,或造成类似损害。术语定义4报告⽬录⼀ 前沿⼤模型的趋势预测:技术解读|扩展预测⼆ 前沿⼤模型的⻛险分析:⻛险态度|⻛险解读三 前沿⼤模型的安全技术:对⻬|监测|鲁棒性|系统性安全四 前沿⼤模型的治理⽅案:技术治理|政府监管|国际治理五 总结和展望⼀ 前沿⼤模型的趋势预测56涌现能⼒ Emergent abilities of large language models (Wei, 2022)专业和学术基准GPT-4 System Card (OpenAI, 2023)GPT-4等前沿⼤模型展现出强⼤的涌现能⼒,多领域逼近⼈类⽔平涌现能⼒是指这些能⼒并没有被开发者显式地设计,⽽是由于其规模庞⼤,在训练过程中会⾃然⽽然地获得的;并且,这些前沿⼤模型已在⼀系列的专业和学术基准逼近⼈类⽔平。●微软研究院的定性研究认为GPT-4显⽰出AGI的⽕花:○“GPT-4的能⼒,我们认为它可以被合理地视为早期(但仍不完善)版本的AGI。”○“新能⼒的影响可能导致就业岗位的更迭和更⼴泛的经济影响,以及使恶意⾏为者拥有新的误导和操纵⼯具;局限性⽅⾯,系统可靠性的缺陷及其学习的偏⻅可能会导致过度依赖或放⼤现有的社会问题。”●图灵奖得主Yoshua Bengio认为GPT-4已经通过图灵测试:○“我最近签署了⼀封公开信,要求放慢⽐ GPT-4 更强⼤的巨型⼈⼯智能系统的开发速度,这些系统⽬前通过了图灵测试,因此可以欺骗⼈类相信它正在与同伴⽽不是机器进⾏对话。”○“正是因为出现了意想不到的加速⸺⼀年前我可能不会签署这样的⼀封信⸺所以我们需要后退⼀步,⽽我对这些话题的看法也发⽣了变化。”⼀ 前沿⼤模型的趋势预测:技术解读|扩展预测7LLM Powered Autonomous Agents (Weng, 2023)⼤模型为多个技术⽅向带来新的发展空间,也引发新的挑战⼤语⾔模型(LLM)的理解和推理等能⼒推动了众多技术⽅向,例如多模态⼤模型和⾃主智能体:●多模态⼤模型 (Multimodal large models)○2023年9⽉,在ChatGPT更新上线能看、能听、能说的多模态版本的同时,OpenAI也发布了GPT-4V(ision) System...