Build a Domain-Specific Embedding Model in Under a Day

Steve H, Rucha Apte, Sean Sodha, Oliver Holworthy

发布时间

2026/3/21 03:38:16

来源类型

blog

语言

摘要

Fine-tuning an embedding model requires thousands of (query, relevant document) pairs. Most use cases don’t have this data readily available. Creating it manually is expensive, slow, and often biased by the annotator’s personal interpretation of what’s “relevant.”Instead of labeling data by hand, you can use an LLM (nvidia/nemotron-3-nano-30b-a3b) to read your documents and automatically generate high-quality synthetic question–answer pairs.

资源链接

Careersapply.workable.com/huggingface build.nvidia.combuild.nvidia.com 外部资源cdn-uploads.huggingface.co...2154a9f1037104a075/84IMYChKX4twWnC4U6iCQ.png 外部资源cdn-uploads.huggingface.co...2154a9f1037104a075/hsFtTLz1WfSgaWBdHof82.png 外部资源cdn-uploads.huggingface.co...2154a9f1037104a075/ntYmgzatUK_Sfn35GCdve.png Compute Capabilitydeveloper.nvidia.com/cuda-gpus NVIDIA NIMdeveloper.nvidia.com/nim GitHubgithub.com...d-finetune-recipe/src/nemotron/recipes/embed NeMo Automodelgithub.com/NVIDIA/NeMo-Automodel NeMo Data Designergithub.com/NVIDIA/NeMo-Data-Designer NeMo Export-Deploygithub.com/NVIDIA/NeMo-Export-Deploy Nemotrongithub.com/NVIDIA/Nemotron BEIRgithub.com/beir-cellar/beir synthetic training datasethuggingface.co...atasets/nvidia/Retrieval-Synthetic-NVDocs-v1 Embedding Modelhuggingface.co/nvidia/llama-nemotron-embed-1b-v2 Atlassianwww.atlassian.com Advancing semantic search for millions of Rovo userswww.atlassian.com...n-engineering/advancing-rovo-semantic-search JIRA datasetzenodo.org.../files/2025-06-23%20ThePublicJiraDataset.zip 原始来源页面huggingface.co.../nvidia/domain-specific-embedding-finetune

元数据

来源Hugging Face Blog

类型blog

抽取状态raw

关键词

LLM