# naver/dust3r

**Attribution required: if you use, quote, or summarise this content, you must credit and link back to [awesome-repositories.com](https://awesome-repositories.com/repository/naver-dust3r).**

7,205 stars · 759 forks · Python · NOASSERTION

## Links

- GitHub: https://github.com/naver/dust3r
- Homepage: https://dust3r.europe.naverlabs.com/
- awesome-repositories: https://awesome-repositories.com/repository/naver-dust3r.md

## Description

DUSt3R is a geometric vision transformer model that predicts dense 3D pointmaps directly from one or more uncalibrated images, without requiring prior camera intrinsics, extrinsics, or known camera positions. Its core identity is an end-to-end approach to 3D reconstruction that bypasses traditional depth estimation and camera calibration pipelines, instead outputting metric-scale 3D coordinates from RGB inputs.

The model processes image pairs through a shared dual-image encoder architecture, using cross-attention feature fusion in the decoder to merge features from two images into a unified pointmap in a common coordinate frame. This transformer-based stereo matching approach directly regresses dense 3D pointmaps without explicit correspondence search, and can recover camera parameters analytically from the predicted pointmap structure. For multi-view scenarios, pairwise pointmaps are aligned into a consistent global coordinate frame via a closed-form least-squares optimization over all pairs.

The system supports uncalibrated multi-view fusion, enabling 3D reconstruction from arbitrary unordered image collections without requiring known camera poses or calibration data. It also provides camera parameter recovery, deriving pixel correspondences, relative camera poses, and absolute camera parameters directly from the predicted 3D pointmaps.

## Tags

### Artificial Intelligence & ML

- [Uncalibrated Reconstructions](https://awesome-repositories.com/f/artificial-intelligence-ml/foundation-models/3d-reconstruction/uncalibrated-reconstructions.md) — Predicts dense 3D pointmaps from uncalibrated images without requiring camera intrinsics or extrinsics. ([source](https://dust3r.europe.naverlabs.com/))
- [Uncalibrated Multi-View Fusions](https://awesome-repositories.com/f/artificial-intelligence-ml/3d-pose-reconstruction/multi-view-reconstructions/uncalibrated-multi-view-fusions.md) — Reconstructs 3D scenes from arbitrary unordered image collections without requiring known camera poses.
- [End-to-End Metric Depth Predictions](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-systems/computer-vision/object-pose-estimations/monocular-depth-estimators/metric-depth-estimators/end-to-end-metric-depth-predictions.md) — Directly outputs metric-scale 3D coordinates from RGB images, bypassing traditional depth estimation pipelines.
- [Transformer-Based Pointmap Predictors](https://awesome-repositories.com/f/artificial-intelligence-ml/pytorch-model-components/geometric-vision-tools/transformer-based-pointmap-predictors.md) — A transformer-based architecture that directly outputs 3D pointmaps from image pairs for geometric understanding.
- [Transformer-Based Stereo Matchers](https://awesome-repositories.com/f/artificial-intelligence-ml/transformer-based-stereo-matchers.md) — Uses a shared transformer encoder to process image pairs and directly regress dense 3D pointmaps.
- [Geometric Vision Pipelines](https://awesome-repositories.com/f/artificial-intelligence-ml/computer-vision-workflows/geometric-vision-pipelines.md) — Builds end-to-end 3D vision workflows combining reconstruction, alignment, and parameter extraction from raw images.
- [Cross-Attention Fusion Layers](https://awesome-repositories.com/f/artificial-intelligence-ml/encoder-decoder-architectures/encoder-combiner-architectures/cross-attention-fusion-layers.md) — Uses cross-attention layers in the decoder to merge features from two images into a unified pointmap.
- [Shared Encoder Image Pair Processors](https://awesome-repositories.com/f/artificial-intelligence-ml/transformer-encoders/dual-encoder-architectures/shared-encoder-image-pair-processors.md) — Processes two images through a shared encoder before fusing them in a decoder for joint pointmap prediction.

### Graphics & Multimedia

- [Pointmap-Based Camera Recoveries](https://awesome-repositories.com/f/graphics-multimedia/camera-intrinsic-predictions/pointmap-based-camera-recoveries.md) — Derives camera parameters analytically from predicted 3D pointmaps, enabling uncalibrated reconstruction. ([source](https://dust3r.europe.naverlabs.com/))
- [Pointmap Registrations](https://awesome-repositories.com/f/graphics-multimedia/pointmap-registrations.md) — Aligns pairwise pointmaps into a consistent world coordinate system via closed-form least-squares optimization.
- [Pairwise Pointmap Alignments](https://awesome-repositories.com/f/graphics-multimedia/single-image-3d-reconstructions/shared-coordinate-space-alignments/pairwise-pointmap-alignments.md) — Aligns pairwise pointmaps from multiple images into a consistent global coordinate frame via registration. ([source](https://dust3r.europe.naverlabs.com/))
- [Uncalibrated Pointmap Predictions](https://awesome-repositories.com/f/graphics-multimedia/single-image-3d-reconstructions/uncalibrated-pointmap-predictions.md) — Predicts dense 3D pointmaps from uncalibrated images without requiring camera intrinsics or extrinsics.
- [Uncalibrated Reconstructions](https://awesome-repositories.com/f/graphics-multimedia/single-image-3d-reconstructions/uncalibrated-reconstructions.md) — Predicts dense 3D pointmaps from uncalibrated images without requiring camera intrinsics or extrinsics.