Meningkatkan Estimasi Kedalaman Stereo dengan Deep Learning untuk Machine Vision Industri

Overview

Estimasi kedalaman berbasis stereo (stereo depth estimation) merupakan komponen penting dalam berbagai aplikasi:

  • robotika industri
  • autonomous navigation
  • AR/VR
  • inspeksi berbasis 3D

Dengan menggunakan dua kamera, sistem stereo mampu menghasilkan peta kedalaman (depth map) yang merepresentasikan jarak objek dalam suatu scene.

Namun dalam praktiknya, pendekatan klasik seperti Semi-Global Block Matching (SGBM) memiliki keterbatasan, terutama pada kondisi:

  • permukaan tanpa tekstur
  • pencahayaan rendah
  • objek reflektif

Akibatnya, sering muncul:

  • noise tinggi
  • area kosong (missing depth)
  • ketidakakuratan data

Untuk mengatasi ini, pendekatan berbasis deep learning mulai digunakan untuk meningkatkan kualitas depth estimation secara signifikan.


Tantangan dalam Stereo Depth Estimation

https://images.openai.com/static-rsc-4/AeLym1UFbxdTZIV_SAHyfw0yTrFbKs4WybFc0dMb3gmZiOPpRCCEnO8rFaZSsHgYl1PzjEx-nsJ2G5C_lmzM3JqcvBXsnmjsB-U3516vr8gDd4gM58RwtphtrnYUPMu3oQG2KKXeYOVMv-5DB4kHOXrgVKC3CExfwI28m3Rj3bexHTRPWPL9NTj9kfvs_WS0?purpose=fullsize

Metode stereo tradisional bekerja dengan mencocokkan piksel antara dua gambar.

Namun metode ini sangat bergantung pada:

  • tekstur permukaan
  • kontras visual
  • kondisi pencahayaan

Masalah umum yang sering terjadi:

⚠️ Permukaan reflektif atau low-texture

➡️ sulit ditemukan pasangan piksel
➡️ menghasilkan depth yang tidak akurat

⚠️ Noise & missing data

➡️ terutama di area datar atau gelap

⚠️ Edge artifacts

➡️ objek bisa “hilang” atau blur di depth map

⚠️ Occlusion

➡️ objek tertutup tidak bisa dihitung depth-nya dengan benar

👉 Ini menjadi bottleneck besar untuk aplikasi industri yang butuh presisi tinggi


Pendekatan Deep Learning untuk Stereo Vision

Untuk meningkatkan akurasi, ada dua pendekatan utama:


1. Hybrid Deep Learning (Refinement Model)

Pendekatan ini:

  • menggunakan hasil SGBM sebagai input awal
  • lalu diperbaiki menggunakan neural network

Cara kerja:

  • input:
    • gambar stereo (RGB kiri & kanan)
    • disparity map dari SGBM
  • neural network melakukan:
    • smoothing noise
    • memperbaiki edge
    • mengisi missing depth

Keunggulan:

  • lebih ringan secara komputasi
  • cocok untuk real-time system

Keterbatasan:

  • masih bergantung pada kualitas SGBM awal

2. End-to-End Deep Learning (Full Depth Estimation)

https://images.openai.com/static-rsc-4/R74wjBegZgsGJ4q2HpISvIwmIWyFwNVSpy39EK-T0JdKrTAPfuzEnv45HMdrB4DOemIxjOpVj6ABTOZssEKgdWYPhyvjRmzfzDOAxTSA062jnPJ3ls-D12CNradsfdQktCQHxkmzQZ4kBP-Bba9o7FG46yRrci7mcaL5LDk2mS8uiHwWcuTcd7kUVdKyoU2C?purpose=fullsize

Pendekatan ini:

  • langsung menghitung depth dari gambar stereo
  • tanpa bergantung pada metode klasik

Contoh metode:

  • Selective Stereo
  • FoundationStereo

Keunggulan:

  • akurasi tinggi
  • depth map lebih smooth dan lengkap

Keterbatasan:

  • komputasi lebih berat
  • butuh GPU kuat

Arsitektur & Cara Kerja Model

Dalam pendekatan hybrid:

  • menggunakan encoder–decoder CNN
  • menggabungkan:
    • informasi RGB
    • disparity awal

Tujuannya:

  • meningkatkan konsistensi spasial
  • mengurangi mismatch

Dalam pendekatan end-to-end:

  • memanfaatkan multi-scale feature extraction
  • memisahkan:
    • high-frequency (detail)
    • low-frequency (struktur)

👉 menghasilkan depth map yang lebih stabil dan detail


Performa & Perbandingan Metode

https://images.openai.com/static-rsc-4/BrHmrhPfm0eh28uFS1oxX_WRGKfv-ukkPPHK_OomE3PoW2b4rVJgFVo0cM_nQ0a1tkxPwINfvHmCUxkwlBZwcDAc0MHwAVDKncOO7J9GuqFNJ36_Wqi9k_AmR66jNKJCL_Tm3nyf7cMyp5oFWrVYD0ohwPrbhRddsI0NHyiACqMKysoSBDN6-PAUGozOF92I?purpose=fullsize

Hasil pengujian menunjukkan:

🔹 SGBM (On-board)

  • cepat
  • tetapi banyak noise
  • coverage terbatas

🔹 SGBM + Neural Refinement

  • coverage meningkat signifikan
  • noise berkurang
  • masih cukup real-time

🔹 End-to-End DL (Selective Stereo)

  • akurasi tertinggi
  • depth paling lengkap
  • latency lebih tinggi

👉 trade-off utama:
akurasi vs performa real-time


Panduan Pemilihan Metode (Praktis)

Gunakan pendekatan berikut:

🔧 Real-time + resource terbatas

➡️ SGBM + Neural Refinement

🔧 Balanced system (akurasi + performa)

➡️ Hybrid DL

🔧 High precision (inspection / robotics advanced)

➡️ End-to-End DL


Pertimbangan Implementasi Tambahan

Beberapa hal penting yang sering overlooked:

📏 Minimum disparity

  • menentukan kemampuan melihat objek dekat

⚙️ ROI tuning

  • penting untuk optimasi performa

💻 Hardware constraint

  • DL butuh GPU (misalnya NVIDIA RTX / Jetson)

🔍 Fine-tuning model

  • beberapa model perlu training ulang sesuai use-case

Aplikasi Industri Nyata

Teknologi ini digunakan dalam:

  • robot warehouse (navigation & picking)
  • autonomous vehicle
  • 3D inspection system
  • bin picking & object detection
  • smart manufacturing

👉 semua membutuhkan depth yang akurat & stabil


Kesimpulan

Deep learning telah membawa peningkatan besar dalam stereo depth estimation.

Dengan pendekatan yang tepat:

  • sistem menjadi lebih akurat
  • noise berkurang drastis
  • coverage depth meningkat

Namun, pemilihan metode tetap harus mempertimbangkan:

👉 kebutuhan akurasi
👉 kemampuan hardware
👉 kebutuhan real-time

Dalam banyak sistem industri modern, kombinasi hybrid DL menjadi sweet spot antara performa dan akurasi.