Tech Trail

Multimodal Models and Computer Vision (다양한 데이터 유형을 통한 멀티모달 딥러닝) 본문

AI/Computer Vision

Multimodal Models and Computer Vision (다양한 데이터 유형을 통한 멀티모달 딥러닝)

_밍지_ 2024. 3. 26. 19:00
728x90
반응형
SMALL

최근 몇 년 동안 기계 학습 분야는 이미지 인식에서 자연어 처리에 이르기까지 다양한 문제 유형에서 상당한 발전을 이루었습니다.

그러나 이러한 모델의 대부분은 이미지, 텍스트 또는 음성과 같은 단일 양식의 데이터에서 작동합니다. 반면, 실제 데이터는 이미지 및 텍스트, 비디오 및 오디오 또는 여러 소스의 센서 데이터와 같은 여러 양식에서 제공되는 경우가 많습니다.

이 문제를 해결하기 위해 연구원들은 여러 양식의 데이터를 처리할 수 있는 멀티모달 머신러닝 모델을 개발하여 지능형 시스템의 새로운 가능성을 열었습니다.

이번 게시물에서는 멀티모달 머신러닝의 챌린지들을 살펴보고, 멀티모달 컴퓨터 비전 문제를 해결하는 데 사용되는 다양한 아키텍처와 기술에 살펴볼게요.

 

What is Multimodal Deep Learning?

 

멀티모달 딥러닝은 딥러닝의 하위 집합으로, 텍스트, 이미지, 비디오, 오디오, 센서 데이터 등 여러 양식의 데이터를 융합하고 분석하는 작업을 다룹니다. 멀티모달 딥러닝은 다양한 모달리티의 강점을 결합하여 데이터를 보다 완벽하게 표현함으로써 다양한 기계 학습 작업에서 더 나은 성능을 제공합니다.

전통적으로 기계 학습 모델은 이미지 분류 또는 음성 인식과 같은 단일 양식의 데이터에서 작동하도록 설계되었습니다. 그러나 현실 세계에서는 데이터가 여러 소스와 양식에서 오는 경우가 많기 때문에 분석하기가 더 복잡하고 어렵습니다. 멀티모달 딥러닝은 다양한 양식의 정보를 통합하여 보다 정확하고 유용한 모델을 생성함으로써 이러한 문제를 극복하는 것을 목표로 합니다.

 

What is the Goal of Multimodal Deep Learning?

 

멀티모달 딥러닝의 주요 목표는 서로 다른 양식의 보완 정보를 효과적으로 캡처할 수 있는 공유 표현 공간( shared representation space)을 만드는 것입니다. 그런 다음 이 공유 표현을 사용하여 이미지 캡션, 음성 인식 및 자연어 처리와 같은 다양한 작업을 수행할 수 있습니다.

멀티모달 딥러닝 모델은 일반적으로 여러 신경망으로 구성되며, 각 신경망은 특정 양식 분석에 특화되어 있습니다. 그런 다음 이러한 네트워크의 출력은 초기 융합, 후기 융합 또는 하이브리드 융합과 같은 다양한 융합 기술을 사용하여 결합되어 데이터의 공동 표현을 생성합니다.

초기 융합은 서로 다른 양식의 원시 데이터를 단일 입력 벡터로 연결하고 네트워크에 공급하는 것을 포함합니다. 반면, 후기 융합은 각 양식에 대해 별도의 신경망을 훈련시킨 다음 이후 단계에서 출력을 결합하는 것을 포함합니다. 하이브리드 융합은 초기 융합과 후기 융합의 요소를 결합하여 보다 유연하고 적응력 있는 모델을 만듭니다.

 

How Does Multimodal Learning Work?

 

멀티모달 딥러닝 모델은 일반적으로 각 입력 모달리티를 개별적으로 처리하는 여러 개의 유니모달 신경망으로 구성됩니다. 예를 들어, 시청각 모델에는 두 개의 유니모달 네트워크가 있을 수 있는데, 하나는 오디오용이고 다른 하나는 시각적 데이터용입니다. 각 형식의 이러한 개별 처리를 인코딩이라고 합니다.

유니모달 인코딩이 완료되면 각 모달리티에서 추출된 정보를 통합하거나 융합해야 합니다. 간단한 연결에서 주의 메커니즘에 이르기까지 여러 가지 융합 기술을 사용할 수 있습니다. 멀티모달 데이터 융합은 이러한 모델의 성공에 중요한 요소입니다. 마지막으로, "결정" 신경망은 융합된 인코딩된 정보를 받아들이고 당면한 작업에 대해 훈련됩니다.

일반적으로 멀티모달 아키텍처는 다음 세 부분으로 구성됩니다.

  1. 유니모달 엔코더는 개별 모달리티를 인코딩합니다. 일반적으로 각 입력 형식에 대해 하나씩입니다.
  2. 인코딩 단계에서 각 입력 양식에서 추출된 특징을 결합하는 융합 네트워크입니다.
  3. 융합된 데이터를 받아들이고 예측을 수행하는 분류자입니다.

Pictured: 일반적인 멀티모달 워크플로우. 여기에는 다양한 입력 양식을 독립적으로 인코딩하기 위해 여러 개의 단봉 신경망(이 경우 3개)이 포함됩니다. 추출된 특징은 융합 모듈을 사용하여 결합됩니다. 마지막으로, 융합된 특징은 예측을 수행하기 위해 분류 네트워크에 공급됩니다.

 

Encoding Stage

 

인코더는 각 모달리티의 입력 데이터에서 특징을 추출하고 이를 모델의 후속 계층에서 처리할 수 있는 공통 표현으로 변환합니다. 인코더는 일반적으로 비선형 변환을 사용하여 입력 데이터에서 점점 더 추상적인 특징을 추출하는 여러 계층의 신경망으로 구성됩니다.

인코더에 대한 입력은 이미지, 오디오 및 텍스트와 같은 여러 형식의 데이터로 구성될 수 있으며, 일반적으로 별도로 처리됩니다. 각 모달리티에는 입력 데이터를 기능 벡터 집합으로 변환하는 자체 인코더가 있습니다. 그런 다음 각 인코더의 출력은 각 양식에서 관련 정보를 캡처하는 단일 표현으로 결합됩니다.

개별 인코더의 출력을 결합하는 데 널리 사용되는 한 가지 방법은 출력을 단일 벡터로 결합하는 것입니다. 또 다른 접근법은 주의 메커니즘을 사용하여 당면한 작업과의 관련성에 따라 각 양식의 기여도를 평가하는 것입니다.

인코더의 전반적인 목표는 여러 모달리티의 입력 데이터 간의 기본 구조와 관계를 캡처하여 모델이 이 다중 모드 입력을 기반으로 보다 정확한 예측을 수행하거나 새 출력을 생성할 수 있도록 하는 것입니다.

 

Fusion Module

 

fusion 모듈은 다양한 양식(예: 텍스트, 이미지, 오디오)의 정보를 분류, 회귀 또는 생성과 같은 다운스트림 작업에 사용할 수 있는 단일 표현으로 결합합니다. 융합 모듈은 특정 아키텍처와 당면한 작업에 따라 다양한 형태를 취할 수 있습니다.

한 가지 일반적인 접근 방식은 훈련 중에 가중치를 학습하는 양식 기능의 가중 합계를 사용하는 것입니다. 또 다른 접근 방식은 양식의 특징을 연결하고 신경망을 통해 전달하여 공동 표현을 학습하는 것입니다.

어떤 경우에는 주의 메커니즘을 사용하여 각 시간 단계에서 어떤 양식에 주의를 기울여야 하는지 학습할 수 있습니다.

특정 구현에 관계없이 fusion 모듈의 목표는 다양한 양식에서 보완 정보를 캡처하고 다운스트림 작업에 대한 보다 강력하고 유익한 표현을 만드는 것입니다. 이는 시각 및 청각 신호를 결합하면 성능을 크게 향상시킬 수 있는 비디오 분석과 같은 응용 분야에서 특히 중요합니다.

 

Classification

 

분류 모듈은 융합 모듈에서 생성된 조인트 표현을 가져와서 예측 또는 결정을 내리는 데 사용합니다. 분류 모듈에서 사용되는 특정 아키텍처 및 접근 방식은 처리 중인 데이터의 작업 및 유형에 따라 달라질 수 있습니다.

많은 경우, 분류 모듈은 신경망의 형태를 취하며, 여기서 조인트 표현은 최종 예측이 이루어지기 전에 하나 이상의 완전히 연결된 계층을 통과합니다. 이러한 계층에는 비선형 활성화함수, 드롭아웃 및 과적합을 방지하고 일반화 성능을 개선하는 데 도움이 되는 기타 기법이 포함될 수 있습니다.

분류 모듈의 출력은 현재 진행 중인 특정 작업에 따라 달라집니다. 예를 들어 다중 모드 감정 분석 작업에서 출력은 텍스트 및 이미지 입력이 양수인지 부정인지를 나타내는 이진 결정입니다. 다중 모드 이미지 캡션 작업에서 출력은 이미지의 내용을 설명하는 문장일 수 있습니다.

분류 모듈은 일반적으로 지도 학습 접근 방식을 사용하여 학습되며, 입력 양식과 해당 레이블 또는 대상은 모델의 매개 변수를 최적화하는 데 사용됩니다. 이 최적화는 확률적 경사하강법 또는 그 변형과 같은 기울기 기반 최적화 방법을 사용하여 수행되는 경우가 많습니다.

검토에서 분류 모듈은 융합 모듈에서 생성된 공동 표현을 가져와서 정보에 입각한 의사 결정 또는 예측을 내리는 데 사용함으로써 다중 모드 딥러닝에서 중요한 역할을 합니다.

 

Multimodal Learning in Computer Vision

 

최근 몇 년 동안 멀티모달 학습은 이미지, 텍스트 및 음성과 같은 여러 양식의 정보를 결합하여 복잡한 컴퓨터 비전 작업을 처리하는 유망한 접근 방식으로 부상했습니다.

이 접근 방식은 다음과 같은 여러 영역에서 상당한 진전을 이루었습니다.

  1. 시각적 질문 답변
  2. 텍스트-이미지 생성 그리고
  3. 시각적 추론을 위한 자연어

 

이제 특히, 컴퓨터 비전 분야에서 멀티모달 아키텍처의 세 가지 인기 있는 용도인 VQA(Visual Question Answering), Text-to-Image Generation 및 NLVR(Natural Language for Visual Reasoning)의 작동 방식에 대해 자세히 살펴보겠습니다.

Visual Question Answering (VQA)

 

시각적 질문 답변(VQA)은 자연어를 사용하여 이미지나 비디오와 같은 시각적 입력을 기반으로 질문에 답변하는 것을 포함합니다. VQA는 컴퓨터 비전과 자연어 처리에 대한 깊은 이해가 필요한 어려운 작업입니다.

최근 몇 년 동안 VQA는 딥 러닝 기술 및 아키텍처, 특히 트랜스포머 아키텍처의 사용으로 인해 상당한 발전을 이루었습니다. 트랜스포머 아키텍처는 원래 언어 처리 작업을 위해 도입되었으며 VQA에서 큰 성공을 거두었습니다.

VQA의 가장 성공적인 모델 중 하나는 2022년 Google Research에서 개발한PaLI(Pathways Language and Image model) 모델입니다. PaLI 아키텍처는 이미지 처리를 위한 대용량 ViT 구성 요소와 함께 인코더-디코더 트랜스포머 모델을 사용합니다.

 

PaLI 모델 아키텍처

 

Text-to-Image Generation

 

텍스트-이미지 생성에서 기계 학습 모델은 텍스트 설명을 기반으로 이미지를 생성하도록 학습됩니다. 목표는 자연어를 이해하고 이러한 이해를 사용하여 입력 텍스트의 의미를 정확하게 나타내는 시각적 콘텐츠를 생성할 수 있는 시스템을 만드는 것입니다.

가장 최근의 성공적인 두 가지 모델은DALL-E와Stable Diffusion입니다.

DALL-E는 OpenAI에서 개발한 텍스트-이미지 생성 모델로, 트랜스포머 기반 언어 모델과 생성형 신경망 아키텍처의 조합을 사용합니다. 모델은 텍스트 설명을 가져와서 설명을 충족하는 이미지를 생성합니다. DALL-E는 하프로 만든 달팽이, 데이지 밭의 붉은 나무 캥거루 콜라주와 같이 복잡하고 창의적인 이미지를 다양하게 생성할 수 있습니다.

DALL-E의 주요 혁신 중 하나는 개별 잠재 공간을 사용하여 모델이 생성된 이미지의 보다 구조화되고 제어 가능한 표현을 학습할 수 있도록 하는 것입니다. DALL-E는 이미지-텍스트 쌍의 대규모 데이터 세트에서 훈련되며 모델은 Gumbel-Softmax 트릭이라는 VAE 손실 함수의 변형을 사용하여 최적화됩니다.

Stable Diffusion 아키텍처는 텍스트 프롬프트를 기반으로 고품질 이미지를 생성하는 최신 기술입니다. 안정 확산은 초기 이미지에 노이즈를 반복적으로 추가한 다음 점진적으로 노이즈를 제거하는 확산 과정을 사용합니다.

 

 

노이즈 수준과 반복 횟수를 제어함으로써 Stable Diffusion은 입력 텍스트 프롬프트와 일치하는 다양한 고품질 이미지를 생성할 수 있습니다.

Stable Diffusion의 핵심 혁신은 안정적이고 다양한 이미지 생성을 가능하게 하는 확산 공정의 사용입니다. 또한 확산은 대비 손실 함수를 사용하여 생성된 이미지가 다양하고 서로 구별되도록 합니다. Diffusion은 텍스트-이미지 생성에서 인상적인 결과를 달성했으며 입력 텍스트 프롬프트와 거의 일치하는 고품질 이미지를 생성할 수 있습니다.

 

Language for Visual Reasoning (NLVR)

 

NLVR(Natural Language for Visual Reasoning)은 시각적 장면에 대한 자연어 설명을 이해하고 추론하는 모델의 능력을 평가하는 것을 목표로 합니다. 이 작업에서는 모델에 장면에 대한 텍스트 설명과 두 개의 해당 이미지가 제공되며, 그 중 하나는 설명과 일치하고 다른 하나는 일치하지 않습니다. 모델의 목적은 주어진 텍스트 설명과 일치하는 올바른 이미지를 식별하는 것입니다.

NLVR은 모델이 복잡한 언어 구조를 이해하고 올바른 결정을 내리기 위해 시각적 정보에 대해 추론해야 합니다. 이 작업에는 공간 관계 이해, 물체와 그 속성 인식, 자연어의 의미 이해와 같은 다양한 과제가 포함됩니다.

NLVR 작업에 대한 최신 정보는 BEiT-3에 의해 도달합니다. ImageNet 및 Conceptual Captions와 같은 자연 이미지 및 텍스트의 대규모 데이터 세트에 대해 사전 학습된 변환기 기반 모델입니다.

 

NLVR 작업을 위한 BEiT-3 아키텍처

 

BEiT-3는 자연어와 시각 정보를 모두 처리하도록 설계되었으며 복잡한 언어 구조와 시각적 장면에 대해 추론할 수 있습니다.

BEiT-3의 아키텍처는 BERT 및 GPT와 같은 다른 트랜스포머 기반 모델의 아키텍처와 유사하지만 시각적 데이터를 처리하기 위해 몇 가지 수정 사항이 있습니다. 이 모델은 인코더와 디코더로 구성되며, 여기서 인코더는 시각적 입력과 텍스트 입력을 모두 받아들이고 디코더는 출력을 생성합니다.

 

Challenges Building Multimodal Model Architectures

 

멀티모달 딥 러닝은 이미지 및 음성 인식과 같은 복잡한 데이터 분석 작업에 접근하는 방식에 혁명을 일으켰습니다. 그러나 여러 양식의 데이터로 작업하는 것은 최적의 성능을 달성하기 위해 해결해야 하는 고유한 문제를 제기합니다.

 

Alignment

 

정렬은 서로 다른 형식의 데이터가 시간, 공간 또는 기타 관련 차원에서 동기화되거나 정렬되도록 하는 프로세스입니다. 모달리티 간의 정렬이 부족하면 일관되지 않거나 불완전한 표현이 발생할 수 있으며, 이는 모델의 성능에 부정적인 영향을 미칠 수 있습니다.

정렬은 양식이 서로 다른 시간 또는 다른 소스에서 획득되는 시나리오에서 특히 어려울 수 있습니다. 정렬이 해결하기 어려운 상황의 대표적인 예는 비디오 분석입니다. 오디오를 시각 정보와 정렬하는 것은 데이터 수집 프로세스로 인해 발생하는 대기 시간으로 인해 어려울 수 있습니다. 마찬가지로 음성 인식에서 오디오를 해당 전사와 맞추는 것은 말하기 속도, 억양 및 배경 소음의 변화로 인해 어려울 수 있습니다.

다중 모드 기계 학습 모델의 정렬 문제를 해결하기 위해 몇 가지 기술이 제안되었습니다. 예를 들어, 시간 정렬 방법을 사용하여 모달리티 간의 시간 오프셋을 추정하여 시간에 따라 데이터를 정렬할 수 있습니다. 공간 정렬 방법은 서로 다른 양식에서 해당 포인트 또는 피처를 식별하여 공간에서 데이터를 정렬하는 데 사용할 수 있습니다.

또한 어텐션 메커니즘과 같은 딥러닝 기술을 사용하여 모델 학습 프로세스 중에 데이터를 자동으로 정렬할 수 있습니다. 그러나 각 정렬 기술에는 장단점이 있으며 정렬 방법의 선택은 특정 문제와 데이터의 특성에 따라 다릅니다.

 

Co-learning

 

공동 학습은 모델의 성능을 개선하기 위해 여러 양식에서 공동으로 학습하는 것을 포함합니다. 공동 학습에서 모델은 서로 다른 형식 간의 상관 관계 및 종속성을 통해 학습하며, 이를 통해 기본 데이터를 보다 강력하고 정확하게 표현할 수 있습니다.

공동 학습은 다양한 양식의 데이터의 이질성과 가변성을 처리할 수 있는 모델을 설계하는 동시에 여러 양식에서 공유할 수 있는 관련 정보를 식별해야 합니다. 이것은 도전적인 일입니다. 또한 공동 학습은 한 양식에서 학습하는 것이 다른 양식에서 모델의 성능에 부정적인 영향을 미치는 음의 전이 문제로 이어질 수 있습니다.

다중 모드 기계 학습 모델의 공동 학습 문제를 해결하기 위해 몇 가지 기술이 제안되었습니다. 한 가지 접근 방식은 DCCA(Deep Canonical Correlation Analysis) 또는 CDML(Cross-Modal Deep Metric Learning)과 같은 공동 표현 학습 방법을 사용하는 것으로, 이는 양식 간의 상관 관계를 캡처하는 공유 표현을 학습하는 것을 목표로 합니다. 또 다른 접근 방식은 모델의 리소스를 가장 유용한 양식이나 기능에 동적으로 할당할 수 있는 주의 메커니즘을 사용하는 것입니다.

공동 학습은 멀티모달 기계 학습에서 여전히 활발한 연구 영역이며, 누락된 양식을 처리하는 방법 또는 이전 지식을 학습 프로세스에 통합하는 방법과 같이 해결해야 할 많은 미해결 질문과 과제가 있습니다.

 

Translation

 

번역에는 데이터를 한 양식이나 언어에서 다른 양식이나 언어로 변환하는 작업이 포함됩니다. 예를 들어 음성을 텍스트로, 텍스트를 음성으로 또는 이미지를 텍스트로 번역합니다.

번역이 필요한 다중 모드 기계 학습 모델은 원본 언어와 대상 언어 또는 형식 간의 구조, 구문 및 의미 체계의 차이를 고려해야 합니다. 또한 다양한 억양 또는 방언과 같은 입력 데이터의 가변성을 처리하고 입력 컨텍스트에 적응할 수 있어야 합니다.

다중 모드 기계 학습 모델의 번역 문제를 해결하기 위한 몇 가지 접근 방식이 있습니다. 한 가지 일반적인 접근 방식은 한 언어에서 다른 언어로 텍스트를 번역하는 데 큰 성공을 거둔 신경망 기계 번역(NMT) 모델을 사용하는 것입니다. NMT 모델은 쌍을 이루는 오디오-텍스트 데이터에 대한 학습을 통해 음성을 텍스트로 또는 그 반대로 번역하는 데 사용할 수도 있습니다. 또 다른 접근 방식은 이미지-텍스트 또는 음성-텍스트 번역과 같이 한 양식에서 다른 양식으로 데이터를 매핑하는 방법을 학습할 수 있는 다중 모드 모델을 사용하는 것입니다.

그러나 양식이나 언어 간에 번역하는 것은 어려운 작업입니다. 번역 모델의 성능은 학습 데이터의 품질과 크기, 작업의 복잡성 및 컴퓨팅 리소스의 가용성에 따라 크게 달라집니다.

 

Fusion

 

융합은 의사 결정이나 예측을 내리기 위해 서로 다른 양식의 정보를 결합하는 것을 포함합니다. 데이터를 융합하는 방법에는 초기 융합, 후기 융합, 하이브리드 융합 등 여러 가지가 있습니다.

초기 융합에는 입력 수준에서 서로 다른 양식의 원시 데이터를 결합하는 작업이 포함됩니다. 이 접근 방식에서는 데이터를 정렬하고 사전 처리해야 하며, 이는 데이터 형식, 해상도 및 크기의 차이로 인해 어려울 수 있습니다.

반면에 후기 융합은 각 양식을 개별적으로 처리한 다음 이후 단계에서 출력을 결합하는 것을 포함합니다. 이 접근 방식은 데이터 형식 및 형식의 차이에 대해 더 강력할 수 있지만 중요한 정보가 손실될 수도 있습니다.

하이브리드 융합은 초기 및 후기 융합 접근 방식의 조합으로, 일부 양식은 입력 수준에서 융합되고 다른 양식은 이후 단계에서 융합됩니다.

적절한 융합 방법을 선택하는 것은 멀티모달 기계 학습 모델의 성공에 매우 중요합니다. 융합 방법은 특정 문제와 데이터의 특성에 맞게 조정되어야 합니다. 또한 융합 방법은 각 양식에서 가장 관련성이 높은 정보를 보존하고 노이즈 또는 관련 없는 정보의 유입을 방지하도록 설계되어야 합니다.

 

Conclusion

 

멀티모달 딥러닝은 컴퓨터 비전 및 기타 인공 지능 영역을 발전시킬 수 있는 큰 잠재력을 가진 흥미롭고 빠르게 진화하는 분야입니다.

시각, 텍스트 및 청각 정보를 포함한 여러 양식의 통합을 통해 다중 모드 학습을 통해 기계는 한때 인간에게만 가능했던 방식으로 주변 세계를 인식하고 해석할 수 있습니다.

이 게시물에서는 컴퓨터 비전에서 멀티모달 학습의 세 가지 주요 응용 프로그램인 시각적 질문 답변, 텍스트-이미지 생성 및 시각적 추론을 위한 자연어를 강조했습니다.

많은 양의 학습 데이터가 필요하고 여러 양식의 정보를 융합하기 어렵다는 등 멀티모달 학습과 관련된 문제가 있지만, 최근 딥 러닝 모델의 발전으로 다양한 작업에서 성능이 크게 향상되었습니다.

 

 

위 글은 Petru Potrimba의 글을 기반으로 작성하였습니다.

728x90
반응형
LIST