
Overview
Estimasi kedalaman berbasis stereo (stereo depth estimation) merupakan komponen penting dalam berbagai aplikasi:
- robotika industri
- autonomous navigation
- AR/VR
- inspeksi berbasis 3D
Dengan menggunakan dua kamera, sistem stereo mampu menghasilkan peta kedalaman (depth map) yang merepresentasikan jarak objek dalam suatu scene.
Namun dalam praktiknya, pendekatan klasik seperti Semi-Global Block Matching (SGBM) memiliki keterbatasan, terutama pada kondisi:
- permukaan tanpa tekstur
- pencahayaan rendah
- objek reflektif
Akibatnya, sering muncul:
- noise tinggi
- area kosong (missing depth)
- ketidakakuratan data
Untuk mengatasi ini, pendekatan berbasis deep learning mulai digunakan untuk meningkatkan kualitas depth estimation secara signifikan.
Tantangan dalam Stereo Depth Estimation
Metode stereo tradisional bekerja dengan mencocokkan piksel antara dua gambar.
Namun metode ini sangat bergantung pada:
- tekstur permukaan
- kontras visual
- kondisi pencahayaan
Masalah umum yang sering terjadi:
⚠️ Permukaan reflektif atau low-texture
➡️ sulit ditemukan pasangan piksel
➡️ menghasilkan depth yang tidak akurat
⚠️ Noise & missing data
➡️ terutama di area datar atau gelap
⚠️ Edge artifacts
➡️ objek bisa “hilang” atau blur di depth map
⚠️ Occlusion
➡️ objek tertutup tidak bisa dihitung depth-nya dengan benar
👉 Ini menjadi bottleneck besar untuk aplikasi industri yang butuh presisi tinggi
Pendekatan Deep Learning untuk Stereo Vision
Untuk meningkatkan akurasi, ada dua pendekatan utama:
1. Hybrid Deep Learning (Refinement Model)
Pendekatan ini:
- menggunakan hasil SGBM sebagai input awal
- lalu diperbaiki menggunakan neural network
Cara kerja:
- input:
- gambar stereo (RGB kiri & kanan)
- disparity map dari SGBM
- neural network melakukan:
- smoothing noise
- memperbaiki edge
- mengisi missing depth
Keunggulan:
- lebih ringan secara komputasi
- cocok untuk real-time system
Keterbatasan:
- masih bergantung pada kualitas SGBM awal
2. End-to-End Deep Learning (Full Depth Estimation)
Pendekatan ini:
- langsung menghitung depth dari gambar stereo
- tanpa bergantung pada metode klasik
Contoh metode:
- Selective Stereo
- FoundationStereo
Keunggulan:
- akurasi tinggi
- depth map lebih smooth dan lengkap
Keterbatasan:
- komputasi lebih berat
- butuh GPU kuat
Arsitektur & Cara Kerja Model
Dalam pendekatan hybrid:
- menggunakan encoder–decoder CNN
- menggabungkan:
- informasi RGB
- disparity awal
Tujuannya:
- meningkatkan konsistensi spasial
- mengurangi mismatch
Dalam pendekatan end-to-end:
- memanfaatkan multi-scale feature extraction
- memisahkan:
- high-frequency (detail)
- low-frequency (struktur)
👉 menghasilkan depth map yang lebih stabil dan detail
Performa & Perbandingan Metode
Hasil pengujian menunjukkan:
🔹 SGBM (On-board)
- cepat
- tetapi banyak noise
- coverage terbatas
🔹 SGBM + Neural Refinement
- coverage meningkat signifikan
- noise berkurang
- masih cukup real-time
🔹 End-to-End DL (Selective Stereo)
- akurasi tertinggi
- depth paling lengkap
- latency lebih tinggi
👉 trade-off utama:
akurasi vs performa real-time
Panduan Pemilihan Metode (Praktis)
Gunakan pendekatan berikut:
🔧 Real-time + resource terbatas
➡️ SGBM + Neural Refinement
🔧 Balanced system (akurasi + performa)
➡️ Hybrid DL
🔧 High precision (inspection / robotics advanced)
➡️ End-to-End DL
Pertimbangan Implementasi Tambahan
Beberapa hal penting yang sering overlooked:
📏 Minimum disparity
- menentukan kemampuan melihat objek dekat
⚙️ ROI tuning
- penting untuk optimasi performa
💻 Hardware constraint
- DL butuh GPU (misalnya NVIDIA RTX / Jetson)
🔍 Fine-tuning model
- beberapa model perlu training ulang sesuai use-case
Aplikasi Industri Nyata
Teknologi ini digunakan dalam:
- robot warehouse (navigation & picking)
- autonomous vehicle
- 3D inspection system
- bin picking & object detection
- smart manufacturing
👉 semua membutuhkan depth yang akurat & stabil
Kesimpulan
Deep learning telah membawa peningkatan besar dalam stereo depth estimation.
Dengan pendekatan yang tepat:
- sistem menjadi lebih akurat
- noise berkurang drastis
- coverage depth meningkat
Namun, pemilihan metode tetap harus mempertimbangkan:
👉 kebutuhan akurasi
👉 kemampuan hardware
👉 kebutuhan real-time
Dalam banyak sistem industri modern, kombinasi hybrid DL menjadi sweet spot antara performa dan akurasi.
