开源大模型江湖之争，安迪和比尔都直呼内行！- Community

[Industry News] 开源大模型江湖之争，安迪和比尔都直呼内行！

deepin Talks 742 views · 0 replies ·

网络对线操盘手

deepin

2024-03-20 10:48

Author

最近大模型这块的新闻不断，全都是戏啊，果然社会是个大舞台呢

马斯克：开源 Grok-1 大模型，314B 参数，可以商用哦

谷歌：全新的开源大模型Gemma，可以商用哦

OpenAI：那我开源个Transformer Debugger分析工具给大家玩玩吧

英伟达：全新Blackwell GPU 架构的B100 GPU 献给大家

马斯克开源 Grok-1 大模型

2024年3月18日，马斯克兑现了他的承诺——开源了Grok-1 大模型。开源后短短一天的时间里，它就斩获了超过 23K 的 Star 而且还在以肉眼可见的速度增长着。

Grok-1 是由马斯克的 xAI 公司开源的 314B 参数、MoE（混合专家模型）的大型语言模型，采用 Apache 2.0 开源协议允许商用，训练数据截止至 2023 年 10 月，由于模型规模较大，所以需要有足够 GPU 内存（600GB 以上）的机器才能运行。

项目地址：https://github.com/xai-org/grok-1

谷歌推出全新的开源大模型Gemma

北京时间2024年2月21日深夜，谷歌宣布推出全新开源模型Gemma。本次发布的Gemma有两个版本：Gemma 2B（20亿参数）和Gemma 7B（70亿参数）。每种规模都提供了预训练和指令微调版本。

当前，Gemma 2B和7B允许所有组织（无论规模大小）负责任地进行商用和分发。而为了方便开发者，谷歌不仅开源模型，还附带开发套装，包括全新的“负责任生成式AI工具包”，为基于Gemma开发安全的人工智能应用程序提供了必要指导和工具，以及跨主流框架（如JAX、PyTorch及原生Keras 3.0下的TensorFlow）的推理和监督微调（SFT）工具链。

推理引擎地址：https://github.com/google/gemma.cpp

PyTorch地址：https://github.com/google/gemma_pytorch

OpenAI 开源 Transformer Debugger分析工具

2024年3月12日，OpenAI 开源了一款用于分析小型语言模型内部行为的工具：Transformer Debugger (TDB)，它将自动可解释性技术与稀疏自动编码器相结合，无需写代码就能快速探索模型。基于 Transformer 的语言模型就像个黑盒，该项目可以解密 Transfomer 的内部结构和预测行为。

具体来说，TDB 能够在需要编写代码之前进行快速探索，并能够干预前向传递，帮助人们查看它是如何影响模型特定行为的。TDB 可用于回答诸如「为什么模型在此提示（prompt）中输出 token A 而不是 token B？」之类的问题或「为什么注意力头 H 会在这个提示下关注 token T？」

项目地址：https://github.com/openai/transformer-debugger

为了给上面的大佬们提供更加专业的厮杀工具，黄教主也是很努力的（挣钱的）