Problem
camera stream 두 개를 받아 stitch하고, scene understanding을 붙이고, 다시 ROS 2 topic으로 publish하는 end-to-end perception 흐름을 하나의 실행 가능한 시스템으로 만드는 것이 목표였다.
Context
단순 모델 inference가 아니라 sensor input, stitching, segmentation, publish, visualization까지 이어지는 전체 pipeline이 필요했다. README 기준으로 15–20 FPS 수준의 end-to-end 흐름과 reproducible docker 실행 경로가 정리돼 있다.
My role
실시간 perception 파이프라인을 reader-facing하게 정리하고, 어떤 구성요소가 왜 필요한지 설명 가능한 형태로 묶는 역할을 했다.
What it proves
- vision model을 단독으로 돌리는 것이 아니라 실제 runtime pipeline 안에 넣을 수 있다
- perception을 physical-world task와 연결하는 감각이 있다
- 설치/실행/검증까지 포함한 시스템화 능력이 있다
What was built
- ROS 2 node 위에 dual RealSense subscribe → homography stitching → Mask2Former segmentation → publish 흐름 구성
- GPU/CPU 모두 돌릴 수 있는 실행 경로와 dockerized setup 정리
- topic 구조, architecture, performance footprint를 README에 명시
Constraints
- real-time에 가까운 처리 속도 필요
- camera geometry가 고정된 환경에서 stitching 안정성 확보
- host 환경 의존도를 줄이는 reproducible setup 필요
How it was verified
- README에 GPU/CPU 성능 지표 명시
- rosbag 기반 처리량과 성공률 공개
- stitched / segmented output 저장 구조와 video export 흐름 포함