产品信息
什么是 Opencoder?
OpenCoder 是一个开放且可重复的代码LLM系列,其中包括1.5B和8B基础以及聊天模型,支持英语和汉语。从头开始,OpenCoder 在由90%的原始代码和10%与代码相关的Web数据组成的2.5万亿代币上进行了预估计,并在超过450万高质量的SFT示例上进行了监督命名,最终达到了顶级代码LLMS的性能。我们不仅提供模型的权重和推理代码,还提供可再现的培训数据,完整的数据处理管道,严格的实验消融结果以及详细的培训协议。 _OpenCoder 授权研究人员建立和创新,是您推进代码AI的开放基础。
完整的开源:OpenCoder 不仅要发布模型权重和即将推出的推理代码,还可以发布完整的数据清洁代码,以确保完全透明度。该版本包括高质量的合成数据,一组广泛的检查点以及超过450万个监督微调(SFT)条目的数据集,使OpenCoder 是可用的最全面开放式型号之一。
全面的实验分析:OpenCoder 通过对各种数据清洁策略和培训过程的大量消融研究进行严格测试,包括文件级别和存储库级的删除实验,确保彻底探索和验证模型的性能。
高质量的合成数据:OpenCoder 提供了完全开发的合成数据生成过程,超过450万SFT数据条目,为模型培训和评估建立了强大的数据基础。
出色的性能:OpenCoder 在多种语言模型基准中实现高性能,将其定位在代码的领先开源模型中。
如何使用 Opencoder?
OpenCoder是一个开放且可复现的代码大型语言模型(LLM)家族,包含1.5B和8B的基础及对话模型,支持中英文。它旨在为研究人员提供一个开放的基础,以推动代码AI的进步,并进行构建和创新。
Opencoder 的核心功能
隐私优先,无广告,无追踪,AI驱动
Opencoder 的使用场景
- 推动代码AI研究
- 构建和创新代码大型语言模型
- 进行开放科学研究
- 评估代码LLM性能
- 为代码LLM的设计选择和训练策略提供有意义的见解
Opencoder 的常见问题
OpenCoder做什么的?
我如何使用OpenCoder?
OpenCoder有哪些核心功能?
OpenCoder有哪些应用场景?





















