Overview

Estimasi kedalaman berbasis stereo (stereo depth estimation) merupakan komponen penting dalam berbagai aplikasi:

robotika industri
autonomous navigation
AR/VR
inspeksi berbasis 3D

Dengan menggunakan dua kamera, sistem stereo mampu menghasilkan peta kedalaman (depth map) yang merepresentasikan jarak objek dalam suatu scene.

Namun dalam praktiknya, pendekatan klasik seperti Semi-Global Block Matching (SGBM) memiliki keterbatasan, terutama pada kondisi:

permukaan tanpa tekstur
pencahayaan rendah
objek reflektif

Akibatnya, sering muncul:

noise tinggi
area kosong (missing depth)
ketidakakuratan data

Untuk mengatasi ini, pendekatan berbasis deep learning mulai digunakan untuk meningkatkan kualitas depth estimation secara signifikan.

Tantangan dalam Stereo Depth Estimation

https://images.openai.com/static-rsc-4/AeLym1UFbxdTZIV_SAHyfw0yTrFbKs4WybFc0dMb3gmZiOPpRCCEnO8rFaZSsHgYl1PzjEx-nsJ2G5C_lmzM3JqcvBXsnmjsB-U3516vr8gDd4gM58RwtphtrnYUPMu3oQG2KKXeYOVMv-5DB4kHOXrgVKC3CExfwI28m3Rj3bexHTRPWPL9NTj9kfvs_WS0?purpose=fullsize

Metode stereo tradisional bekerja dengan mencocokkan piksel antara dua gambar.

Namun metode ini sangat bergantung pada:

tekstur permukaan
kontras visual
kondisi pencahayaan

Masalah umum yang sering terjadi:

⚠️ Permukaan reflektif atau low-texture

➡️ sulit ditemukan pasangan piksel
➡️ menghasilkan depth yang tidak akurat

⚠️ Noise & missing data

➡️ terutama di area datar atau gelap

⚠️ Edge artifacts

➡️ objek bisa “hilang” atau blur di depth map

⚠️ Occlusion

➡️ objek tertutup tidak bisa dihitung depth-nya dengan benar

👉 Ini menjadi bottleneck besar untuk aplikasi industri yang butuh presisi tinggi

Pendekatan Deep Learning untuk Stereo Vision

Untuk meningkatkan akurasi, ada dua pendekatan utama:

1. Hybrid Deep Learning (Refinement Model)

Pendekatan ini:

menggunakan hasil SGBM sebagai input awal
lalu diperbaiki menggunakan neural network

Cara kerja:

input:
- gambar stereo (RGB kiri & kanan)
- disparity map dari SGBM
neural network melakukan:
- smoothing noise
- memperbaiki edge
- mengisi missing depth

Keunggulan:

lebih ringan secara komputasi
cocok untuk real-time system

Keterbatasan:

masih bergantung pada kualitas SGBM awal

2. End-to-End Deep Learning (Full Depth Estimation)

https://images.openai.com/static-rsc-4/R74wjBegZgsGJ4q2HpISvIwmIWyFwNVSpy39EK-T0JdKrTAPfuzEnv45HMdrB4DOemIxjOpVj6ABTOZssEKgdWYPhyvjRmzfzDOAxTSA062jnPJ3ls-D12CNradsfdQktCQHxkmzQZ4kBP-Bba9o7FG46yRrci7mcaL5LDk2mS8uiHwWcuTcd7kUVdKyoU2C?purpose=fullsize

Pendekatan ini:

langsung menghitung depth dari gambar stereo
tanpa bergantung pada metode klasik

Contoh metode:

Selective Stereo
FoundationStereo

Keunggulan:

akurasi tinggi
depth map lebih smooth dan lengkap

Keterbatasan:

komputasi lebih berat
butuh GPU kuat

Arsitektur & Cara Kerja Model

Dalam pendekatan hybrid:

menggunakan encoder–decoder CNN
menggabungkan:
- informasi RGB
- disparity awal

Tujuannya:

meningkatkan konsistensi spasial
mengurangi mismatch

Dalam pendekatan end-to-end:

memanfaatkan multi-scale feature extraction
memisahkan:
- high-frequency (detail)
- low-frequency (struktur)

👉 menghasilkan depth map yang lebih stabil dan detail

Performa & Perbandingan Metode

https://images.openai.com/static-rsc-4/BrHmrhPfm0eh28uFS1oxX_WRGKfv-ukkPPHK_OomE3PoW2b4rVJgFVo0cM_nQ0a1tkxPwINfvHmCUxkwlBZwcDAc0MHwAVDKncOO7J9GuqFNJ36_Wqi9k_AmR66jNKJCL_Tm3nyf7cMyp5oFWrVYD0ohwPrbhRddsI0NHyiACqMKysoSBDN6-PAUGozOF92I?purpose=fullsize

Hasil pengujian menunjukkan:

🔹 SGBM (On-board)

cepat
tetapi banyak noise
coverage terbatas

🔹 SGBM + Neural Refinement

coverage meningkat signifikan
noise berkurang
masih cukup real-time

🔹 End-to-End DL (Selective Stereo)

akurasi tertinggi
depth paling lengkap
latency lebih tinggi

👉 trade-off utama:
akurasi vs performa real-time

Panduan Pemilihan Metode (Praktis)

Gunakan pendekatan berikut:

🔧 Real-time + resource terbatas

➡️ SGBM + Neural Refinement

🔧 Balanced system (akurasi + performa)

➡️ Hybrid DL

🔧 High precision (inspection / robotics advanced)

➡️ End-to-End DL

Pertimbangan Implementasi Tambahan

Beberapa hal penting yang sering overlooked:

📏 Minimum disparity

menentukan kemampuan melihat objek dekat

⚙️ ROI tuning

penting untuk optimasi performa

💻 Hardware constraint

DL butuh GPU (misalnya NVIDIA RTX / Jetson)

🔍 Fine-tuning model

beberapa model perlu training ulang sesuai use-case

Aplikasi Industri Nyata

Teknologi ini digunakan dalam:

robot warehouse (navigation & picking)
autonomous vehicle
3D inspection system
bin picking & object detection
smart manufacturing

👉 semua membutuhkan depth yang akurat & stabil

Kesimpulan

Deep learning telah membawa peningkatan besar dalam stereo depth estimation.

Dengan pendekatan yang tepat:

sistem menjadi lebih akurat
noise berkurang drastis
coverage depth meningkat

Namun, pemilihan metode tetap harus mempertimbangkan:

👉 kebutuhan akurasi
👉 kemampuan hardware
👉 kebutuhan real-time

Dalam banyak sistem industri modern, kombinasi hybrid DL menjadi sweet spot antara performa dan akurasi.