Corpus Gateway

AI training datasets built around a visible, proprietary corpus.

Explore InfoBay's corpus across audio, video, healthcare, textbooks, Q&A, coding, image, and egocentric data. This page is the SEO and GEO gateway for teams evaluating training data quality, provenance, coverage, and enterprise readiness.

Request Corpus Sample View Corpus Index

Visible Corpus Inventory

Every collection is described by modality, volume, language, domain, and intended model workflow.

Reviewable Metadata

Source, quality, category, and delivery signals are documented so AI teams can evaluate fit before licensing.

Procurement Ready

Built for enterprise review across technical, compliance, privacy, security, and model-risk stakeholders.

Audio Corpus

Audio Dataset for ASR, Diarization, and Voice AI

2.1M+ hours of multilingual audio is an InfoBay corpus for enterprise AI teams that need traceable, expert-curated audio training data. Call center, podcast, and speech intelligence datasets with premium metadata for gender, age, industry, channel, dialect, and language.

2.04M+

call center hours

57K+

podcast hours

Podcast languages

Video Corpus

Video Dataset for Multimodal AI Training

132K+ hours of structured and UGC video is an InfoBay corpus for enterprise AI teams that need traceable, expert-curated video training data. STEM classroom and vertical UGC video designed for multimodal grounding, visual reasoning, and cross-modal alignment.

100K+

STEM classroom hours

30K+

UGC hours

2.2K+

storytelling hours

Healthcare Corpus

Healthcare Dataset for Radiology AI and Clinical Models

53M+ healthcare files from verified providers is an InfoBay corpus for enterprise AI teams that need traceable, expert-curated healthcare training data. De-identified diagnostic imaging, clinical records, findings, prescriptions, pathology, and longitudinal care datasets.

1.6M+

patients

53M+

files and images

26.8M

CT images

Textbook Corpus

Textbook Corpus for LLM Pre-Training and Reasoning

2.5B+ words from 38K+ textbooks is an InfoBay corpus for enterprise AI teams that need traceable, expert-curated textbook training data. Licensed textbook corpus spanning 15 languages, 5K+ subjects, and interwoven visuals for contextual model learning.

38K+

books

2.5B+

words

languages

Q&A

Reasoning-heavy question-answer data for STEM, non-STEM, multilingual training, evaluation, and instruction tuning.

Open corpus page

Coding

DSA, SQL, machine coding, low-level design, competitive mathematics, and repository-history datasets.

Open corpus page

Image

Bunnies Mode is InfoBay's image intelligence platform for production-grade vision, OCR, segmentation, VQA, grounding, and multimodal learning.

Open corpus page

Egocentric

User-centric interaction datasets for spatial reasoning, action understanding, object manipulation, and agent training.

Open corpus page