Training Data Corpus

Coding Dataset for Code LLM Fine-Tuning

12K+ codebases and roughly 1B tokens is an InfoBay corpus for enterprise AI teams that need traceable, expert-curated coding training data. DSA, SQL, machine coding, low-level design, competitive mathematics, and repository-history datasets.

Each dataset page is designed as a procurement-friendly overview: what the corpus contains, why it matters for model quality, which metrics are available, and how teams can request a scoped sample.

Request a Model Quality Audit Back to Corpus Index

Dataset Overview

DSA, SQL, machine coding, low-level design, competitive mathematics, and repository-history datasets.

Supports code generation, repository reasoning, and supervised fine-tuning.
Includes legacy codebases and full commit history patterns.

Codebase inventory

The corpus is structured for inspection, scoping, and model-training decisions rather than packaged as an opaque bulk asset.

Data structures and algorithms: 5K intermediate + 3.4K expert
SQL and database entry: 759 intermediate + 532 expert
Machine coding and LLD: 376 intermediate + 261 expert
Competitive mathematics: 521 intermediate + 371 expert

Answers for buyers

FAQ

What is the InfoBay Coding dataset used for?

The Coding dataset is used for AI training, fine-tuning, evaluation, and domain-specific model development where curated, documented data quality matters.

Can teams request a sample before licensing?

Yes. InfoBay supports scoped sample requests so teams can evaluate format, coverage, and suitability before a larger licensing discussion.

Does InfoBay provide provenance and metadata?

Yes. InfoBay datasets are structured with source, modality, language, category, and quality metadata where applicable, supporting enterprise review and compliance workflows.