AI

비전 AI에서 자주 만나는 ‘백본(Backbone)’ 이야기

Jerrykim91 2025. 9. 29. 20:00

비전 AI를 공부하거나 개발하다 보면, 꼭 한 번은 ‘백본(Backbone)’이라는 단어를 마주치게 된다. 오늘은 이 백본이 무엇이고, 왜 중요한지 한 번 정리해보고자 한다.

백본은 이미지의 특징을 추출하는 딥러닝 신경망의 중심 부분이다.
사람의 척추가 우리 몸을 지탱해주듯, 백본은 AI 모델에서 가장 중요한 뼈대 역할을 한다.
이미지 분류, 객체 탐지 등 다양한 비전 작업의 첫 출발점이기도 하다.

최근의 딥러닝 모델들은 대규모 이미지 데이터셋에서 미리 학습(프리트레이닝)된 백본을 불러와 활용하는 경우가 많다. 이렇게 하면 학습 시간을 크게 줄이고, 성능도 한층 높일 수 있다.
또, 전이학습(Transfer Learning) 덕분에 이미 잘 훈련된 백본을 다양한 작업에 적용하는 것도 가능해졌다.

백본의 역할은 이미지를 입력받아 피처 맵(Feature Map)이라는 ‘특징 요약본’을 만들어내는 것이다.
백본의 초반부에서는 점, 선, 모서리처럼 단순한 특징을 뽑아내고,
중간쯤 가면 이런 정보들이 합쳐져서 질감, 패턴, 부분적인 객체 같은 더 복잡한 특징으로 발전한다.
마지막에 가까워질수록 전체 객체의 형태나 의미론적인 정보까지도 잘 포착하게 된다.

이렇게 뽑아낸 피처 맵은
객체 감지, 이미지 분할, 분류 등 다양한 헤드(Head)로 전달돼서
실제 예측이나 분류 등 최종 작업에 활용된다.
여기서 백본이 얼마나 ‘센스 있게’ 특징을 추출하느냐에 따라,
모델 전체의 성능이 크게 좌우된다.

백본으로 가장 널리 쓰이는 모델들은
VGG, ResNet, EfficientNet, MobileNet 등이 있다.
각각의 특징은 아래와 같다.

  • VGG: 깊고 단순한 구조가 특징이지만, 파라미터가 많아서 무겁다.
  • ResNet: 잔차 연결(Residual Connection)로 깊은 네트워크도 학습이 잘 되도록 만든 모델로, 요즘 가장 널리 사용된다.
  • EfficientNet: 신경망 구조 탐색(NAS)을 통해 효율적으로 깊이, 너비, 해상도를 조절해, 계산량은 적으면서도 성능이 우수하다.
  • MobileNet: 연산이 가벼워 모바일·임베디드 기기에서도 쓸 수 있게 만든 모델로, 깊이별 분리 합성곱을 사용해 속도를 높였다.
[입력 이미지]
      │
      ▼
  ┌────────────┐
  │  백본      │    ← 이미지 특징 추출 (여러 Conv, C3, ResNet 등)
  └────────────┘
      │
      ▼
  [Neck/Head로 전달]

여기까지가 백본의 역할이다.
그렇다면 ‘헤드(Head)’란 무엇일까?
백본과 헤드는 어떤 관계일까?

백본이 ‘무엇이 있는지’를 빠르고 똑똑하게 파악해 준다면,
헤드는 ‘그걸 가지고 뭘 할지’를 결정한다.
예를 들어, 객체 감지(Object Detection)에서는
백본이 뽑아낸 피처맵을 바탕으로
헤드가 각 픽셀에 어떤 객체가 있는지,
또는 어디에 위치하는지(바운딩 박스, 클래스 등)를 최종적으로 예측한다.
YOLO 모델을 예로 들면,
백본은 이미지를 보고 중요한 정보를 뽑아내고,
헤드는 그 정보를 받아 ‘여긴 자동차, 여긴 사람!’이라고 알려주는 것이다.
(넥(Neck)은 백본과 헤드를 연결해주는, 중간 가공 파트라고 보면 된다.)

여기서 한 가지 헷갈릴 수 있는 점이 있다.
딥러닝을 처음 접하면 흔히 ‘입력층–은닉층–출력층’이라는 개념을 배운다.
그런데 ‘백본–넥–헤드’라는 말도 자주 보이는데,
이 둘은 어떻게 다를까?


ANN과 백본의 관계, 그리고 딥러닝 구조의 관점

ANN(인공신경망)은 입력층, 은닉층, 출력층으로 나뉘는 아주 넓은 개념이다.
텍스트, 이미지, 음성 등 다양한 데이터를 처리할 수 있고,
그 구조도 다양하다.

여기서 백본은,
이 넓은 ANN 중에서 이미지 특징 추출에 특화된 부분을 의미한다.
즉, ANN 전체를 인간의 ‘뇌’라고 한다면,
백본은 그중에서도 ‘시각 피질(눈의 정보를 처리하는 영역)’에 해당한다고 볼 수 있다.

요즘 딥러닝 비전 모델들은
모델의 역할과 구조에 따라 백본–넥–헤드라는 용어로 세분화해 설명한다.

  • 백본(Backbone)은 이미지의 중요한 특징을 뽑아내는 등뼈 역할,
  • 넥(Neck)은 이 특징들을 가공·조합해주는 목 역할,
  • 헤드(Head)는 실제 예측·분류·감지 등의 결과를 내놓는 머리 역할을 한다.

“입력층–은닉층–출력층”과 “백본–넥–헤드”의 차이, 실제 예시로

혹시 이 두 개념이 어떻게 다른지 헷갈린다면, 회사나 프로젝트 팀을 비유로 떠올려 보자.

입력층–은닉층–출력층
팀 전체의 작업 흐름을 아주 일반적으로 설명하는 것이다.

  • 입력층은 ‘자료를 받는 파트’,
  • 은닉층은 ‘자료를 분석하고 처리하는 파트’,
  • 출력층은 ‘최종 결과물을 만드는 파트’라고 할 수 있다.
#  '들어와서', '처리되고', '나가는' 모든 신경망에 적용되는 선형적인(Linear) 구조
+----------------+
|  입력층(Input) |  <-- 외부 데이터(이미지 픽셀, 텍스트 등)
+----------------+
        |
        ▼
+----------------+
|                |
|  은닉층(Hidden)|  <-- 여러 층으로 구성된 복잡한 계산 과정
|                |
+----------------+
        |
        ▼
+----------------+
|  출력층(Output)|  <-- 최종 결과(고양이, 자동차, 텍스트)
+----------------+

반면, 백본–넥–헤드
이런 흐름 속에서 각 파트가 실제로 어떤 기능을 하는지,
좀 더 구체적으로 나누어 설명하는 방식이다.

  • 백본은 핵심 분석팀으로, 들어온 자료(이미지)에서 선·모서리·질감 등 중요한 특징을 빠짐없이 뽑아낸다.
  • 은 이 특징들을 적절히 가공하고 통합해,
    다음 파트가 쓰기 좋게 정리해준다.
  • 헤드는 이 가공된 정보를 활용해
    ‘이건 자동차, 저건 사람!’처럼
    우리가 원하는 실제 결과를 내놓는다.
# '특징 추출', '정보 통합', '최종 예측' -> 기능적인 역할
# 객체 감지 모델과 같은 복잡한 컴퓨터 비전 모델에서 사용

                          (최종 결과 예측)
                    +--------------------+
             +----->|      헤드(Head)    |  <-- 객체 위치, 종류 예측
             |      +--------------------+
             |
+------------+------+
|     넥(Neck)      |  <-- 특징 정보를 모아 가공
+------------+------+
             ^
             |
+------------+----------+
|                       |
|   백본(Backbone)      |  <-- 이미지의 특징을 추출하는 핵심 뼈대
|                       |
+-----------------------+
            ^
            |
(원본 이미지)

핵심적으로
‘입력층–은닉층–출력층’은 딥러닝 모델의 기본 데이터 흐름을 설명하는 개념이고,
‘백본–넥–헤드’는 특히 이미지 처리(비전) 분야에서
각 파트의 역할과 기능을 더 구체적으로 나눈 용어라고 보면 된다.


결국, 백본은 비전 AI 모델의 든든한 등뼈이자
이미지에서 가장 중요한 정보를 똑똑하게 뽑아내는 핵심 부품이다.
이 글이 백본의 개념과 역할, 그리고 전체 구조 속에서의 의미를 이해하는 데 도움이 되었기를 바란다.


더 궁금한 점이나,
다음에 다뤄줬으면 하는 주제가 있다면 언제든 댓글로 남겨 주세요!

 

Reference.

[이론]

  1. [KR] 인공지능(AI) & 머신러닝(ML) 사전 → https://wikidocs.net/202612

Image by Robert Anderson from Pixabay