StarCoder2-Instruct

Model Summary

StarCoder2-15B-Instruct-v0.1 is an innovative self-aligned code Large Language Model (LLM) leveraging a transparent pipeline for code generation. Using StarCoder2-15B, it generates instruction-response pairs, optimizing the model without human annotations or proprietary LLM data.

Model: StarCoder2-15B-Instruct-v0.1
Code: StarCoder2-self-align project
Dataset: Self-oss-instruct-sc2-exec-filter-50k
Authors: Yuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang.

Use

Intended Use

The model primarily responds to coding-related, single-turn instructions, particularly in Python, which may limit versatility across different programming languages and complex queries.

Bias, Risks, and Limitations

StarCoder2-15B-Instruct-v0.1 is optimized for Python, which may introduce biases and output variability, particularly with different languages and instruction styles.

Evaluation

The model has been evaluated using benchmarks like EvalPlus, LiveCodeBench, and DS-1000, demonstrating its capabilities in code generation tasks.

Training Details

Hyperparameters

Optimizer: Adafactor
Learning rate: 1e-5
Epochs: 4
Batch size: 64
Warmup ratio: 0.05
Scheduler: Linear
Sequence length: 1280
Dropout: Not applied

Hardware

Trained on 1x NVIDIA A100 80GB.

Resources

Full Data Pipeline

Original seed dataset: Filtered from The Stack v1.
Bad docstring removal using StarCoder2-15B as a judge.
Concept extraction from seeds.
Instruction generation from concepts.
Unfiltered response generation.
Execution-based response filtering.
Final dataset filtering through deduplication.

Citation

@article{wei2024selfcodealign,
  title={SelfCodeAlign: Self-Alignment for Code Generation},
  author={Yuxiang Wei and Federico Cassano and Jiawei Liu and Yifeng Ding and Naman Jain and Zachary Mueller and Harm de Vries and Leandro von Werra and Arjun Guha and Lingming Zhang},
  year={2024},
  journal={arXiv preprint arXiv:2410.24198}
}