Hviske v2: Open source dansk transskription

En state-of-the-art dansk transskriptionsmodel trænet af syv.ai. Finetunet på Whisper v3 for markedsledende performance på dansk tale.

Live Demo
Klar til at optage din stemme.
Transskriptionen vises her...

Fri og åben for alle

Hviske v2 er frigivet som open source, hvilket betyder, at du frit kan downloade, bruge og modificere modellen til dine egne projekter. Vi tror på at dele fremskridt inden for AI for at fremme innovation.

Modellen er tilgængelig via Hugging Face platformen. Vær opmærksom på licensbetingelserne ved brug.

Se model på Hugging Face

Sådan kommer du i gang

Det er nemt at integrere Hviske v2 i dine Python-projekter ved hjælp af Hugging Face Transformers biblioteket.

1. Installér nødvendige pakker:

pip install transformers datasets torch accelerate

2. Kør Python koden:

import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
from datasets import load_dataset # If loading from HF datasets

# Define device and data type
device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

# Load model and processor
model_id = "syvai/hviske-v2"
model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
)
model.to(device)
processor = AutoProcessor.from_pretrained(model_id)

# Create pipeline
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    torch_dtype=torch_dtype,
    device=device,
)

# --- Example using a sample from a Hugging Face dataset ---
# dataset = load_dataset("alexandrainst/coral", split="test")
# sample_audio = dataset[0]["audio"]

# --- Example using a local audio file ---
# Ensure your audio file is in a supported format (e.g., .wav, .mp3)
# sample_audio = "path/to/your/audiofile.wav"

# Perform transcription (replace with your audio source)
# result = pipe(sample_audio)
# print(result["text"])

print("Hviske v2 pipeline klar. Erstat "sample_audio" med din lydkilde.")

Bemærk: Eksemplet viser opsætning af pipeline. Du skal erstatte `sample_audio` med stien til din egen lydfil eller data fra en anden kilde.

Resultater og benchmarks

Hviske v2 leverer state-of-the-art resultater på dansk tale-til-tekst, målt på standard benchmarks som CoRal.

Benchmark: CoRal datasæt

ModelParametreCoRal CERCoRal WER
syvai/hviske-v21540M4.7% ± 0.07%11.8% ± 0.3%
alexandrainst/roest-315315M6.6% ± 0.2%17.0% ± 0.4%
chcaa/xls-r-300m-danish-nst-cv9315M14.4% ± 0.3%36.5% ± 0.6%
mhenrichsen/hviske1540M14.2% ± 0.5%33.2% ± 0.7%
openai/whisper-large-v31540M11.4% ± 0.3%28.3% ± 0.6%

Resultaterne viser, at Hviske v2 opnår en markant lavere fejlrate (Word Error Rate - WER) sammenlignet med andre populære modeller på CoRal datasættet.

Hviske v2 er ca. 30% bedre (lavere WER) end roest-315 og ca. 64% bedre end den oprindelige Hviske v1.

Benchmark visualisering

Hviske v2 Benchmark Resultater