본문 바로가기

AI Feed
Tech & Product/AI, 더 쉽게

엄청 큰 AI 모델은 수많은 데이터를 어떻게 학습하고 처리할까요?

공부할 게 너무 많아요 선생님...

안녕하세요, 에디터 SA입니다. 인공지능(AI) 모델의 학습 및 운영 효율성을 높이기 위한 다양한 기술을, AI 피드에서 많이 설명해 왔었는데요. 오늘은 모델 페럴리즘과 데이터 페럴리즘에 대해 이야기해 보려 합니다. 모델 페럴리즘(Model Parallelism)과 데이터 페럴리즘(Data Parallelism)은 AI 학습과 운영 효율성을 높이는 데에 주로 쓰이는 기술이자 접근 방식입니다. 두 접근 방식은 대규모 모델과 데이터 세트를 효과적으로 다루기 위한 방법인데요. 모델의 크기와 데이터 세트의 특성에 따라 적절한 방식을 선택함으로써 학습 효율성을 크게 향상시킬 수 있습니다.

 

 

 

[ 대규모 모델의 분산 학습에는 모델 페럴리즘 ]

모델 페럴리즘은 대규모 신경망 모델을 여러 장치에 걸쳐 분산하여 학습하는 방법입니다. 이는 주로 단일 장치의 메모리 한계를 초과하는 매우 큰 모델에 적합합니다. 모델의 서로 다른 부분이 여러 장치에 분산되며, 각 장치는 전체 데이터 세트를 사용하여 모델의 일부분을 처리합니다. 하지만 각 장치 간에 중간 결과를 전송해야 하므로 통신 오버헤드가 발생할 수 있습니다.

모델 페럴리즘은 주로 레이어 분할과 파이프라인 페럴리즘을 통해 구현되는데요. 레이어? 파이프라인? 새로운 개념이 나오니 조금 당황스러우실 수 있겠습니다만, 차근차근 이해해 보면 어렵지 않은 개념입니다. 레이어 분할은 모델의 레이어를 여러 장치에 분산시켜 각 장치가 모델의 일부 레이어만 학습하는 방식입니다. 예를 들어, 자연어 처리 모델인 GPT-3은 1750억 개의 파라미터를 가지고 있어 단일 GPU에 모두 적재하기 어렵습니다. 이를 해결하기 위해 모델의 각 레이어를 여러 GPU에 분산시켜 병렬로 학습을 진행합니다.

파이프라인 페럴리즘은 모델의 순차적인 레이어를 여러 장치에 분산시키고, 각 장치가 순차적으로 데이터를 처리하는 방식입니다. 여러 장치가 병렬로, 동시에 일해서 모델의 각 부분이 동시에 처리되는 것이니 당연히 학습 속도가 빨라지겠지요?

 

 

 

[ 복제와 동기화, 장단점이 확실한 데이터 페럴리즘 ]

너도 공부하고 나도 공부하고 너도 처리하고 나도 처리하고

데이터 페럴리즘은 동일한 모델의 복제본을 여러 장치에 배포하고, 각 장치가 다른 데이터 배치를 처리하는 방식입니다. 즉, 단일 장치의 메모리 및 처리 능력에 의존하지 않는 방식인데요. 주로 대규모 데이터 세트를 처리할 때 사용됩니다. 데이터 페럴리즘은 동기화 방식과 비동기화 방식으로 구현됩니다.

동기화 방식은 모든 장치가 동시에 데이터를 처리하고 그레이디언트를 공유하여 모델 파라미터를 업데이트하는 방식입니다. 동기화는 늘 그렇듯 통신을 기반으로 하게 되기 때문에, 대규모 데이터셋을 계속 처리하다 보면 통신 오버헤드가 발생할 수 있습니다. 반면 비동기화 방식은 각 장치가 독립적으로 데이터를 처리하고, 그레이디언트를 비동기적으로 공유하는 방식입니다. 독립적이니 장치 간의 통신 오버헤드를 줄일 수 있긴 하지만, 모델 파라미터가 일관되지 않을 수 있습니다. 파라미터의 일관성은 모델 사용 시의 정확도에도 영향을 줄 테니, 어쩐지 ‘동기화’는 피할 수 없는 선택이 되는 것 같습니다.

모델 파라미터 동기화가 필요하며, 통신 오버헤드가 발생할 수 있다는 점을 고려하면, 데이터 페럴리즘은 모델 크기가 상대적으로 작을 때 유리하다는 결론이 나옵니다. 또한 데이터 양이 증가할 때 효과적인데요. 예를 들어, 이미지 인식 분야에서 ResNet과 같은 이미지 인식 모델은 데이터 페럴리즘을 통해 대규모 이미지 데이터 세트를 여러 장치에 분산하여 처리합니다. 추천 시스템 분야에서는 대규모 사용자 데이터와 아이템 데이터가 필요한 추천 시스템이 데이터 페럴리즘을 통해 병렬로 데이터를 처리하여 추천 모델을 학습합니다.

 

이전에 인공신경망에 대해서 AI 피드에서 설명해 드린 적이 있었는데요. 그 글에서 TEN 로고를 인식하는 경우를 예시로 들었던 것, 기억하시나요? 데이터 페럴리즘은 이 인식 과정에서 일어나는 일들을 여러 장치가 분산하여 맡아 처리하는 것이라 이해하시면, 좀 더 쉽게 이해가 가능하실 것 같습니다.

👉 머신러닝, 딥러닝을 인간의 뇌 이미지로 표현하는 이유! 인공신경망과 노드

 

 

 

[ LLM이나 LMM에서 어떤 역할을 하길래 중요한 건가요? ]

서론에서부터 말씀드린 대로, 모델 페럴리즘과 데이터 페럴리즘은 대규모 AI 모델 학습에서 중요한 역할을 합니다. 예를 들어, BERT와 같은 대형 NLP (Natural Language Processing, 자연어 처리) 모델이 모델 페럴리즘을 통해 학습됩니다. 엄청나게 많은 텍스트 데이터를 학습하는 LLM을 상상해 보세요. 모델의 각 레이어를 여러 장치에 분산하여 병렬로 처리하는 방식으로 모델 페럴리즘이 가진 장점을 취할 필요가 있음을 발견하실 수 있을 거예요.

데이터 페럴리즘의 경우로 바꿔서 예를 들어볼까요? 앞서 예시로 이야기했던 이미지 인식 분야에서는 ResNet과 같은 이미지 인식 모델이 데이터 페럴리즘을 통해 대규모 이미지 데이터 세트를 여러 장치에 분산하여 처리합니다. 추천 시스템 분야에서는 대규모 사용자 데이터와 아이템 데이터가 필요한 추천 시스템이 데이터 페럴리즘을 통해 병렬로 데이터를 처리하여 추천 모델을 학습합니다. 그러니까, 모델의 크기와 데이터 세트의 특성에 따라 적절한 방식을 선택함으로써 학습 효율성을 크게 향상시킬 수 있는 것입니다.

 

 

 

모델 페럴리즘과 데이터 페럴리즘에 대해서 알아보았습니다. 대부분의 접근 방식이 그러하듯, 상황과 조건에 맞는 접근 방식들이 존재하는 것이라 어느 쪽이 더 올드 패션이라거나, 우월을 가리기는 어렵다고 하겠습니다. 어쨌든 각각 활용하거나 혼용하여 효율을 찾을 수 있는 방향인 것이고, 새로운 접근 방식이 제시되기 전까지는 모델 페럴리즘과 데이터 페럴리즘을 기반으로 한 모델의 학습과 배포 방식이 주류일 것으로 보이네요.

깊이 들어가면 어려운 분야이고, 이 두 가지 접근 방식을 주제로 한 연구 주제나 논문도 많이 있는데요. AI를 더 쉽게 이해하고 싶으신, 에디터 SA와 같은 ‘AI린이’라면 이 정도의 개념을 이해하기만 해도 충분하다고 말씀드리고 싶어요. 관심이 있다면, 관련된 내용을 더 찾아보셔도 좋을 것 같습니다. 두 접근 방식에 대해 더 자세한 내용을 이해하시게 되면 에디터 SA에게도 꼭 알려주세요!