Proč deep learning změnil rozpoznávání obrazu a řeči
Deep Learning (DL) zásadně proměnil počítačové vidění i automatické rozpoznávání řeči (ASR). Od roku 2012 uvidíme dramatický skok v přesnosti díky konvolučním sítím (CNN), rekurentním a později transformačním architekturám (Transformers). Zásadní roli hraje schopnost učit se hierarchické reprezentace přímo z dat, efektivní využití GPU/TPU, masivních datasetů a metod sebe-řízeného učení. Následující text systematicky shrnuje architektury, tréninkové postupy, metriky, nasazení, rizika i trendy pro obraz i řeč.
Historie a milníky
- Vision: LeNet (ruční psané číslice) → AlexNet (ImageNet průlom) → VGG/ResNet (hloubka a skip connection) → EfficientNet (škálování) → Vision Transformers (ViT) a hybridy (ConvNeXt).
- Řeč: Přechod od GMM-HMM k DNN akustickým modelům → LSTM/BLSTM → CTC a Attention seq2seq → RNN-Transducer a Conformer (konvoluce + self-attention) → velké multimodální modely (audio-text).
- Učení bez dozoru: contrastive learning (SimCLR, MoCo), masked predikce (MAE pro obraz, wav2vec 2.0/Hubert pro řeč).
Architektury pro obraz: od CNN k Transformerům
- CNN: lokální receptivní pole, sdílení vah, inductive bias pro translaci. Vhodné pro klasifikaci, detekci (Faster R-CNN, YOLO, RetinaNet), segmentaci (U-Net, DeepLab).
- Transformery (ViT, Swin): patch tokenizace, self-attention, globální kontext. Lepší škálování s daty a pretréninkem; často kombinované s konvolucemi.
- Reprezentace: pro detekci/segmentaci přidáváme feature pyramid networks (FPN), pro dense úlohy dilated konvoluce a deformable attention.
Architektury pro řeč: akustika, jazyk a konec-koncový přístup
- Front-end: log-Mel spektrogramy, MFCC, případně learned front-end (SincNet, Conv front-end) z raw audia.
- CTC: Connectionist Temporal Classification pro zarovnání beze značek času; jednoduchý dekodér, vhodné pro robustnost.
- Seq2Seq s attention: akustický enkodér + attention dekodér (char/wordpiece); kvalitní při dostatku dat.
- RNN-Transducer (RNN-T): online schopnost, nízká latence, dobrý kompromis přesnost/rychlost.
- Conformer: kombinuje konvoluce (lokální závislosti) a self-attention (globální), state-of-the-art pro ASR.
- Jazykové modely: n-gram → Transformer LM (wordpiece/BPE); shallow/deep fusion s akustickým modelem pro zlepšení WER.
Sebe-řízené učení (Self-Supervised Learning, SSL)
- Obraz: MAE (maskované autoenkodéry), MoCo/SimCLR (kontrastivní), BYOL/SimSiam (bez negativních vzorků) zlepšují finetuning pro detekci/segmentaci.
- Řeč: wav2vec 2.0/Hubert učí univerzální akustické reprezentace z neoznačeného audia; zásadní pro nízko-znakové jazyky.
- Výhoda: menší závislost na anotacích, lepší doménová generalizace (šum, akcenty, různé mikrofony/kamery).
Data, augmentace a balancování
- Vision augmentace: RandomCrop/Flip, ColorJitter, Cutout/CutMix/MixUp, RandAugment/TrivialAugment. Pro detekci mosaic, multi-scale.
- Audio augmentace: SpecAugment (time/frequency masking), přidání šumu a dozvuku (RIR), rychlost/pitch shift; room simulation pro robustnost.
- Kurátorství dat: class imbalance řešit reweightingem, samplingem, focal loss; deduplikace, hard example mining.
Ztrátové funkce a cíle učení
- Klasifikace: cross-entropy, label smoothing; pro nevyváženost focal loss.
- Detekce: kombinace klasifikační (CE/focal) a regrese (L1/GIoU/DIoU/CIoU).
- Segmentace: CE + Dice/Jaccard, případně Tversky pro menšinové třídy.
- ASR: CTC loss, transducer loss, cross-entropy pro attention dekodér; kombinace multitaskem (CTC+att).
Metriky hodnocení
| Doména | Úloha | Metrika | Popis |
|---|---|---|---|
| Obraz | Klasifikace | Top-1/Top-5 | Podíl správně klasifikovaných vzorků |
| Obraz | Detekce | mAP@[.5:.95] | Průměrná přesnost přes IoU prahy a třídy |
| Obraz | Segmentace | mIoU/Dice | Průměr přes třídy, překryv masek |
| Řeč | ASR | WER/CER | Word/Character Error Rate = (S+D+I)/N |
| Řeč | Keyword spotting | ROC-AUC, F1 | Trade-off mezi TPR/FPR |
Tréninkové techniky a škálování
- Optimalizace: AdamW, LAMB, cosine decay, warmup; gradient clipping pro stabilitu.
- Regularizace: dropout, stochastic depth, weight decay, label smoothing.
- Škálování: data/model/pipeline parallelism, mixed precision (FP16/BF16), ZeRO/FS sharding; checkpointing.
- Hyperparam tuning: bayesovská optimalizace, ASHA (pruning), population based training.
Nasazení na edge a v reálném čase
- Optimalizace: kvantizace (post-training/aware), prořezávání (pruning), distilace znalostí; export ONNX/TensorRT/CoreML.
- Latence: streaming ASR (RNN-T/Conformer streaming), causal attention; vizuální modely s early exit.
- Energetika: rozdělení mezi edge a cloud (split computing), adaptive bitrate pro video, sparsity.
Pipeline rozpoznávání obrazu
- Acquisition (kamery, kam. parametry, HDR, stabilizace) + privacy masking.
- Předzpracování: resize, normalizace, augmentace; u videa odšumění a detekce scén.
- Inference: klasifikace/detekce/segmentace; postprocessing (NMS, tracking Multi-Object, kalibrace skóre).
- Výstup: metriky, vizualizace overlay, API (REST/gRPC), eventy.
Pipeline ASR a hlasová analytika
- Audio I/O: VAD (Voice Activity Detection), AEC (potlačení ozvěny), AGC (automatická úroveň).
- Feature extrakce: log-Mel, frame stacking, normalizace (CMVN).
- Model: CTC/Transducer/Attention (Conformer); jazykový model ve fusion.
- Dekódování: beam search, tokenizace (BPE), hotword boosting.
- Postprocessing: interpunkce, normalizace čísel a zkratek, diarizace (pyannote x-vectors).
MLOps a provozní excelence
- DataOps: verze dat (DVC/LakeFS), datové kontrakty, drift monitoring (covariate/prior).
- Trénink: reproducibilita (seed, determinismus), feature store, artefaktový registr (model registry).
- Nasazení: canary/blue-green, A/B testy, shadow inference; feature flags.
- Monitoring: SLI (latence, WER, mAP), concept drift, data quality; alerting a auto-rollback.
Robustnost, bezpečnost a etika
- Doménová robustnost: test-time augmentation, batch norm adaptation, few-shot adaptace.
- Adverzariální odolnost: adversarial training, input sanitization, certifikované obrany pro bezpečnostně kritické aplikace.
- Bias a fairness: audit napříč demografiemi (WER podle akcentu/pohlaví), re-weighting, sběr reprezentativních dat.
- Soukromí: anonymizace obrazu/hlasu, federated learning, differential privacy.
- Compliance: logování rozhodnutí, vysvětlitelnost (saliency, SHAP), správa souhlasů.
Multimodální učení: obraz × řeč × text
- Audio-Visual Speech Recognition (AVSR): fúze rtů (lip-reading) a audia pro robustnost v šumu.
- Vision-Language: CLIP/ALIGN (kontrastivní pretrénink) → zlepšený zero-shot pro klasifikaci a vyhledávání.
- Multimodální transkripce a titulkování: spojení ASR s detekcí scén a OCR pro kompletní popis videa.
Příklady doménových aplikací
- Průmysl: vizuální inspekce (detekce defektů), prediktivní údržba s akustickou diagnostikou.
- Zdravotnictví: segmentace lézí, ASR pro diktování zpráv s terminologickým jazykovým modelem.
- Automotive: vnímání scény (detekce/segmentace), hlasové ovládání v kabině s nízkou latencí.
- Bezpečnost: diarizace a keyword spotting, eticky omezené identifikační systémy s privacy-by-design.
Výběr modelu a provozní kompromisy
| Kritérium | Obraz – příklad | Řeč – příklad | Dopad |
|---|---|---|---|
| Přesnost | ViT-L/14 vs. ResNet-50 | Conformer-L vs. RNN-T small | Vyšší přesnost = vyšší nároky na trénink/stroj |
| Latence | YOLOv8n (edge) | Streaming RNN-T | Nutné optimalizace (INT8, TensorRT) |
| Data náročnost | SSL MAE + finetune | wav2vec 2.0 + jazykový LM | Šetří anotace, vyžaduje pretrénink |
| Interpretovatelnost | Grad-CAM pro CNN | Attention váhy, fonémové zarovnání | Audit, ladění a compliance |
Checklist pro produkční nasazení
- Máte vyvážená a kurátorovaná data (výkonnost podle domén/akcentů/tříd)?
- Je pipeline deklarativní (IaC + MLOps), s automatickými testy a CI/CD?
- Proběhl test robustnosti (šum, low-light, pohyb, OOD vstupy)?
- Běží monitoring SLI/SLO (latence, WER/mAP, dostupnost) a alerty?
- Jsou pokryty bezpečnost (SBOM, podpisy modelů), privacy a fairness audity?
- Plán na roll-back, canary a testy DR pro modelové služby?
Trendy a budoucnost
- Foundation/Frontier multimodální modely s cross-task generalizací a instruction tuningem.
- Self-supervised + few-shot adaptace do nových domén, continual learning bez zapomínání.
- On-device AI s akcelerátory (NPU), kvantizace na 4–8 bit bez výrazné ztráty kvality.
- Neurální kodeky a discrete units (HuBERT k-means) pro efektivní audio reprezentaci a TTS/ASR symbiózu.
Závěr
Deep Learning sjednotil rozpoznávání obrazu i řeči pod společné principy: silné reprezentace, škálovatelné architektury a datově řízené učení. Úspěch v praxi stojí na kvalitní datové logistice, správně zvolených metrikách, MLOps disciplíně a zodpovědném přístupu k bezpečnosti a soukromí. Kombinací sebe-řízeného pretréninku, vhodných architektur (ViT/Conformer) a produkčních optimalizací (kvantizace, distilace) lze dosáhnout špičkové přesnosti i v náročných podmínkách a udržet latenci i náklady pod kontrolou.
