본문 바로가기

AI Feed
TEN Story/TEN의 움직임

[Q&A] 'NVIDIA HyperScale AI 인프라 환경과 쿠버네티스 기반 AI 개발 및 운영 환경 구축'을 주제로 한 웨비나 Q&A 정리

4월 5일 화요일에 열린 AI 인프라 환경 구축과 쿠버네티스 기반 AI 개발/운영 플랫폼 AI Pub 을 소개하는 웨비나에 주신 질문을 정리한 포스트입니다.

 

Q1. NAS가 아닌 HDFS나 Object Storage도 연계하여 관리 가능한가요?

NAS의 경우 저희 플랫폼과 연동된 부분이 많기 때문에 훨씬 편한 사용성을 기반으로 쓰실 수 있습니다. HDFS나 object storage의 경우 컨테이너를 받으면 기존에 쓰시던 방법대로 해당 스토리지에 접근해서 쓰시면 되며 저희 플랫폼에서 연동하여 제공하는 기능은 현재 따로 있지 않습니다. 

 

Q2. 기업에서 AI 모델 프러덕션을 운영하는 과정에서 비용을 획기적으로 절감하려는 경우 중점적으로 검토하야 할 사항들은 무엇인가요?

기존의 인프라에 비해서 GPU 자체가 비싸기 때문에 딥러닝 서비스를 프로덕션 레벨로 운영하기 위해서는 투자를 더 할 수 밖에 없습니다. 다만, 기존의 방법들로는 GPU를 효율적으로 이용할 수 있는 도구들이 많지 않습니다. 그래서 대부분의 기업들이 GPU를 방만하게 이용하고 이에 대한 비용을 감내하고 있는 실정입니다. 그래서 저희는 성능을 보장하면서도 최소의 GPU를 사용할 수 있는 제품들을 서비스하고 있습니다. 

 

Q3.  사용자 개발 환경을 이미지 형태로 관리할 때, 드라이버나 환경설정은 또 어떻게 처리할 수 있는지 궁금합니다.

드라이버나 환경설정의 경우 모두 이미지 안에서 관리를 할 수 있는게 도커의 장점입니다. 생각하고 계시는 거의 모든 설정들이 이미지 레벨에서 커버가 가능합니다.

 

Q4.  자율 주행 관련하여 사진 정보를 사용하여 Training 하는 작업을 진행하고 있습니다. Training하는 협력사들이 저희 인프라에 VPN으로 연결하여 작업하고 있는데, 이런 환경을 쿠버네티스 기반하에서 운영 할 때도 효과가 있을까요?

VPN은 붙는 네트워크의 경로가 다른 것이기 때문에 쿠버네티스 기반으로 운영을 하실 수 있습니다. 각각의 협력사들이 얼마나 많은 GPU를 어떻게 사용하고 있는지 등의 관리를 위해서는 도입하시면 큰 효과를 보실 수 있을거라 생각합니다. 

 

Q5.  강제회수의 기능은 사람이 모니터링 하면서 수동 관리해야 하는지 자동화도 가능한지 궁금합니다.

강제 회수 기능은 관리자가 개입해서 수동 관리해야합니다. 사용자가 다양하고 다양한 사용 행태가 있는 만큼 자동화해서 강제로 뺏는 행위는 아주 조심스럽게 다뤄야 하는 문제입니다. 

 

Q6.  TEN Coaster와 AI Pub를 on-premise에서 구축 및 운영할 때 GPU와 같은 하드웨어 부분에 어떤 최저 조건이 있는지 궁금합니다.

GPU의 경우 Geforce 계열은 저희가 적용이 되지 않습니다. 그 외의 엔비디아 GPU라면 적용이 가능합니다. 

 

Q7.  k8s의 사용시 인스턴스의 종료/재시작시 리소스의 할당은 사용하던 리소스를 그대로 사용할 수 있나요, 아니면 처음부터 다시 스케쥴러에 들어가서 새로 할당 받는 형식인가요?

사용하던 리소스를 그대로 사용할 수 없습니다. 다시 신청해서 스케줄러를 통해 다시 할당 받아야 합니다. 

 

Q8.  쿠버네티스 시스템은 AWS나 Azure 같은 public cloud에서도 운영할 수도 있고 on-premise에서도 운영할 수 있으며 public cloud와 on-premise 사이의 이전도 자유로운 것으로 알고 있습니다. TEN Coaster와 TEN AI Pub이 쿠버네티스 기반이니까 on-premise와 public cloud 중 어느 쪽에서도 운영 가능하고 둘 사이의 이전도 자유로울 수 있을 것 같은데 실제로 어떠신지 궁금합니다.

말씀하신대로 저희 서비스는 쿠버네티스가 올라가는 어떤 인프라 위에도 올라갈 수 있습니다. 해당 인프라 간 이전 관련해서는 저희가 백업 및 복제 서비스를 따로 연동하였습니다. 다음 웨비나를 참고해 주시면 도움이 되실 것 같습니다.

웨비나 영상 보기>

 

Q9.  쿠버네티스 기반 말고 VM기반으로도 AI를 연계해서 서비스도 제공이 가능한가요? 혹시 K8s와 VM 둘다 병행해야하는 경우가 있을수 있나요?

VM 기반이라고 하더라도 VM 위에 쿠버네티스가 올라가야 저희 서비스가 적용이 가능합니다. 고객사 중에서는 병행해서 둘 다 적용하여 쓰고 계시는 고객사도 있습니다. 

 

Q10.  기존 쿠버네티스 를 사용하면 유저를 생성하고 그 유저에서 모든 리소스 접근 제한에 대한 정책을 따라 관리해야 하는 번거로움이 있는데 Ten 솔루션을 사용하면 이런 유저에 대한 정책을 좀 편리하게 할 수있는 방안과 보안을 강화하는 방안도 있는지 궁금합니다.

coaster에 저희가 직접 개발한 유저 별 리소스 접근 제한 정책을 관리할 수 있는 기능이 있습니다. 해당 기능을 Group이라는 기능으로 제공하고 있습니다. 

 

Q11.  Task를 k8s의 Pod 단위로 실행 가능한지요? 아울러 V100 * 3장 기준으로 전체 ML 파이프라인(데이터 수집, 모델생성, 결과서빙) 소요시간은 어느정도 되는지 궁금합니다.

Pod 단위로 실행 가능합니다. 기본적으로 쿠버네티스에서 되는 기능들이 가능하고 거기에 저희 기능들을 추가로 이용하는거라고 생각하시면 됩니다. 예시로 들어주신 V100 하드웨어와 관련하여 어떤 모델을 쓰시느냐, 혹은 데이터가 얼마나 있으시냐에 따라 천차만별인 사항이라 소요시간이 어떻게 된다라고 말씀드리긴 어려울 것 같습니다. 

 

Q12. Block 기반으로 GPU를 컨테이너에 할당할 경우의 장점은 무었인가요?

제품 레벨로 가면 AI 서비스는 계속 GPU를 점유하고 있게 됩니다. 이 GPU는 비싸기 때문에 컴팩트하게 써야지만 원가를 낮출 수 있습니다. 그렇기 때문에 블록으로 나눠서 꼭 필요한 만큼만 AI 서비스에 할당하기 위해서는 블록 기술을 도입해야합니다. 그리고 GPU에 적당히 서비스를 몇 개 올리면 하나의 GPU를 공유하기 때문에 서비스 간 서로 영향을 미쳐 안정성이 떨어집니다. 각각의 서비스는 격리된 GPU 자원을 써야합니다.   

 

Q13.  저런 블록의 갯수나 그 크기는 어떻게 결정되나요?

블록의 개수는 항상 100개이며, 블록의 크기는 GPU를 100개로 나누기 때문에 GPU의 타입에 따라서 결정됩니다.

 

Q14.*** 혹시, CMD기반의 GUI 만 제공되는건가요?

AI Pub의 경우 쿠버네티스를 모르시는 분들이 서비스를 관리할 수 있는 웹UI 도구들을 제공하고 있습니다. Coaster는 쿠버네티스를 확장한 명령어들로 동작하기 때문에 해당 서비스는 command line interface에서만 동작합니다. 

 

Q15.  GPU역시 CPU처럼 Context switching이 일어날 수 있나요? 있다면 성능의 문제가 없다면 Flexibility 문제가 있을 것 같은데요.

GPU도 CPU 처럼 context switching이 일어납니다. 그래서 하나의 GPU에 여러 개의 서비스를 다수 올리면 올릴수록 해당 오버헤드가 점점 더 커집니다. 하지만 저희는 분할이 된 GPU들을 서비스에 할당하는 방식이라 context switching이 일어나지 않습니다. 

 

Q16. AI pub플랫폼은 온프레미스 서버에서도 퍼블릭 클라우드 환경이 제공하는 서비스를 경험할 수 있나요?

AI Pub 플랫폼은 클라우드와 온프레미스 모두 동작합니다. 오히려 저희는 온프레미스에 더 집중한 플랫폼입니다. 클라우드 서비스들에서는 그들 고유의 MLOps 관련 도구들을 제공하지만, 온프레미스로 구성하게 되면 아무것도 없는 상태에서 바닥부터 구현을 하셔야만 합니다. 그렇기 때문에 저희 서비스를 도입하시면 클라우드 서비스와 같이 바로 인공지능을 기업에 도입하실 수 있습니다.  

 

Q17. 장애 발생시 대비책이나, 장애조치와 관련하여 어떤 안정성을 제공해 주시는지는지요? 이상징후 발생시 운영자 알림도 어떤 방식인지 궁금합니다.

마스터 관리 서버가 죽은 경우는 바로 inactive 상태였던 마스터 서버가 이어받아서 HA를 지원합니다. 서비스가 죽은 경우는 이를 인지하고 바로 다른 서버에 같은 서비스를 자동으로 띄워 줍니다. 이런 모든 사항들은 운영자에게 서비스 UI나 메일 또는 슬랙으로 알람을 줍니다. 

 

Q18.  AI COASTER에서 GPU 1개의 utilization과 memory를 1% 단위로 분할하는 기능을 MIG 기능이 없는 GPU 하드웨어에서도 활용할 수 있나요?

네, MIG 기능이 없어도 Geforce 계열이 아닌 GPU라면 분할이 가능합니다. 

 

Q19.  혹, 로드밸런싱 기능도 구성하여 사용가능한가요 ?

로드밸런싱 기능은 저희 플랫폼에서 제공해 드리고 있습니다. 따로 구현하실 필요 없이 간단하게 저희 인터페이스를 통해 서비스를 운영하실 수 있습니다. 

 

Q20. 기업에서 Clustered GPU System을 기업의 상황에 맞게 최적으로 인프라환경을 구현하는 방법에 대해서 질문드립니다

기업의 상황이라는게 정말로 다양합니다. AI 인프라를 구성하는 요소도 그 만큼 다양하기 때문에 컨설팅을 통해 구성하셔야만 돈을 중복으로 혹은 추가 비용 없이 구성하실 수 있습니다. 

 

Q21. 쿠버네티스는 확장성과 효율성이 좋은 플랫폼으로 향후 IT인프라의 표준이 될 것이란 의견이 많은데요. 이런 신개념 환경에서 데이터 보호는 어떻게 구현되는지 궁금합니다. 1. 플랫폼 버전 업그레이드나 마이그레이션시 발생할 수 있는 S/W적인 오류나 사고가 발생할 때 긴급대응 방안이 있는지요? 2. 플랫폼 담당자 부재시에 발생할 수 있는 긴급상황에 대해선 어떻게 대응할 수 있나요? 3. 각종 랜섬웨어나 해킹 공격에 대한 대응 솔루션은 어떻게 되는지요?

저희가 다른 웨비나를 통해서 데이터 보호 및 마이그레이션에 대한 관리 솔루션에 대한 설명을 드렸습니다. 참조해주시면 좋겠습니다.
웨비나 영상 보기>
긴급상황의 경우 메일이나 슬랙으로 알람을 담당자에게 하기 때문에 부재시에 연락이 갑니다.
해킹 공격에 대한 대응을 저희 플랫폼에서 지원하지는 않습니다. 일반적인 IT 보안 프로그램을 도입을 권장합니다.

 

Q22.  GPU를 Multitenance의 형식으로 나누면 분명 많은 fragmentation 이 생길텐데, 이는 어떻게 방지하나요?

말씀하신 상황을 방지하기 위해서 GPU를 100분할하며, 유틸과 메모리 모두 100분할한 단위로만 할당을 합니다. 

 

Q23.  쿠버네티스로 되어있는 컨테이너도 AI 이용하여 자동 스케일IN,OUT 처리가 가능한가요 ?

저희 AI Pub 플랫폼에 등록된 컨테이너라면 자동 scale-in/out 처리가 가능합니다. 하지만 저희 플랫폼을 통하지 않고 따로 쿠버네티스에만 만들어 놓은 컨테이너는 저희가 인식하지 않기 때문에 해당하는 컨테이너는 scale-in/out되지 않습니다. 

 

Q24.  필요한 만큼이란 것이 예측이 힘들 것 같은데, 어떤 방식으로 할당에 대한 예측을 하나요? 그리고 각각의 스케듈링 알고리듬은 어떻게 되나요?

예상 트레픽과 테스트 데이터를 기반으로 GPU 블록을 변경해가면서 적정 GPU 블록을 찾을 수 있습니다. 스케줄링 알고리즘은 고려하는 펙터가 많다보니 복잡해서 서면으로 말씀드리긴 어렵습니다. k8s의 기본 스케줄링 방식과 많이 다르지 않기 때문에 해당 문서를 참조하시면 좋겠습니다.

 

Q25. AI pub에서 비 개발자도 서비스 생성,업데이트,롤백이 가능한가요?

AI Pub의 경우 쿠버네티스를 모르시는 분들이 서비스를 관리할 수 있는 웹UI 도구들을 제공하고 있습니다. 그래서 말씀하신 내용들은 가능합니다. 

 

Q26.  Kubernetes의 기본 스케줄러는 FIFO 방식으로 작동하면서 중간에 긴급하게 JOB을 할당해서 서비스가 하기가 어려운데 Ten 솔루션은 중간 중간에 긴급한 job을 우선처리하도록 우선순위 변경도 가능한 것인가요? 이때 스토리지 사용에 대한 서비스도 함께 지원을 하는지 궁금합니다.

저희의 플랫폼은 스케줄러를 따로 개발하여 가지고 있습니다. 그래서 우선 순위를 자유롭게 지정할 수 있는 수단을 제공하고 있습니다. 스토리지 사용은 NAS를 사용한다면 각각의 Job에 mount되는 스토리지 볼륨을 지정할 수 있어 해당 서비스도 함께 지원하고 있습니다. 스토리지 관련한 기능은 다음의 저희의 웨비나를 참조해보시면 좋겠습니다.
웨비나 영상 보기>

 

Q27.  K8S기반 AI/ML 서비스의 개발 및 운영 환경을 효율적으로 구축하면, 그 이전과 이후의 차이가 비교가능한 자료가 있을까요?

MLOps 플랫폼을 도입했을 때의 차이점을 말씀하시는 것 같습니다. 한 두명의 개발자가 서버 하나 놓고 쓰시는거라면 그렇게 큰 차이는 없을지도 모릅니다. 하지만 개발자와 서버가 많아지고 개발/운영하는 인공지능 서비스가 많아질수록 MLOps 플랫폼을 도입 혹은 직접 구축하지 않으시면 관리가 안되기 때문에 서비스가 불가능하신 시점이 오게 됩니다. 

 

Q28.  NVIDIA GPU의 경우 1개 GPU 대상의 프로그램을 그대로 멀티 GPU 환경에서 실행시 소스코드 수정이 필요한건가요? 그리고 물리 서버의 제약 없이 여러 물리 서버에 장착된 GPU를 동시에 사용하는 것도 가능한건가요?

그대로 실행하기는 어렵고 약간의 수정이 필요합니다. Horovod나 MPI run, NCCL 등의 키워드로 검색을 해보시면 multi-GPU 학습을 위한 다양한 방법을 파이토치나 텐서플로에서 지원하고 있으니 해당 부분을 통해서 GPU를 동시에 학습할 수 있습니다. 저희 플랫폼에서는 GPU 자원을 컨테이너로 잡아서 쓸 수 있는 형태로 제공하는 것 까지 도와드리고 있습니다. 

 

Q29. 기존의 k8s 플랫폼을 사용 중이라면 함께 구성 사용 가능한가요?

네, 기존에 k8s 플랫폼을 사용하고 계시다면 해당 기능들을 그대로 유지한 채 저희 서비스를 확장해서 쓰실 수 있게 구성되어 있습니다. 타 MLOps 업체들의 경우 k8s를 추상화한 기능들을 제공하기 때문에 k8s 레벨의 기본적인 기능들을 쓸 수 없는 경우가 많습니다.  

 

Q30.  기업에서 엣지컴퓨팅 방식으로 솔루션을 구축하려고할때, NVIDIA HyperScale AI 인프라는 다수의 엣지로 인한 A/S 등 운용 관리적인 측면에서 부담이 되는 요소를 어떻게 보완하여 지원해주시나요?

엣지 컴퓨팅 관련하여 데이터 센터와 연동된 시나리오를 지원하기 위한 서비스를 준비하고 있습니다. 데이터 센터에서 학습한 모델을 각각의 엣지에 배포 및 업데이트 하고 이를 관리하는 솔루션인데요. 아직은 공개할만큼의 서비스가 만들어진 상태는 아닙니다. 계속 관심가져주시면 출시할 때 도움드릴 수 있을 것 같습니다. 

 

Q31.  고객 편의성 증가는 거의 대부분의 성능에 대한 어느정도의 저하를 감수해야 하는데, opptimized된 코드에 비해 어느정도의 성능을 보이는 지 궁금합니다.

optimized된 코드와 저희 솔루션은 비교 대상이 아니라 최적화를 위해서는 두 과정이 병렬적으로 충족 되어야 합니다. Optimized된 코드가 있다고 하더라도 기본적인 쿠버네티스를 이용하면 꼭 필요한 만큼 GPU 리소스를 써서 도커 컨테이너를 띄울 방법이 없습니다. 즉, optimized 된 만큼 적은 양의 리소스만 잡아서 도커 컨테이너를 잡을 수 있도록 해주는 것이 저의 플랫폼의 역할이라고 할 수 있겠습니다. 

 

Q32. 대규모 GPU System 환경을 활용하여 AI/ML 학습과 개발 기간을 획기적으로 줄이고 동시에 비용까지 절감하려는 경우 중요하게 고려하고 점검해야 할 요소들은 무엇인가요?

multi-GPU로 학습을 하시게 된다면 통신이 매우 큰 영향을 미치며 병목이 됩니다. 그래서 네트웍과 관련된 장비 구성을 제대로 하는 것이 필요하고, 장비를 사셨다고 하더라도 이를 쓸 수 있도록 돕는 자동화된 도구들이 필요합니다. 예를 들면 AI Pub에서는 GPU간 컨테이너에 기본적으로 infiniband를 잡을 수 있는 방법을 제공하여 GPU direct 통신 방법을 지원해드리고 있습니다. 

 

Q33.  다양한 마이그레이션 시나리오 대응이 가능한 백업 솔루션을 도입한다면 운영과정에서 발생할 수 있는 리스크를 최소화하여 쿠버네티스 플랫폼의 안정성을 더욱 높일수 있을지요?

마이그레이션 시나리오를 위해서 저희는 NetApp의 Astra라는 솔루션과 연동되어 운영이 가능합니다. 연동이 되는 시나리오에 대한 웨비나를 따로 준비하였습니다. 보시면 많은 도움이 되시리라 생각합니다.
웨비나 영상 보기>

 

Q34.  AI/ML 서비스 운영환경 구축관련 최근 이슈와 해결사례가 궁금합니다.

인공지능 서비스를 개발했지만 운영단으로 넘어가지 못한 기업이 있으셨습니다. 기존의 IT 운영 인력으로는 운영이 안되다보니 모델 개발자가 운영 업무에 투입되었지만 많은 트레픽을 견디지 못해 막막한 상황에서 저희 플랫폼을 도입하셨습니다. 모델 개발자는 다시 본업으로 돌아갈 수 있었고 같은 서비스를 운영해도 GPU 자원을 1/10로 아껴서 서비스 원가 비용도 절감하여 지금도 큰 문제 없이 사업을 진행하고 계십니다.

 

Q35.기존의 k8s 플랫폼을 사용 중이라면 함께 구성 사용 가능한가요?

네, 기존에 k8s 플랫폼을 사용하고 계시다면 해당 기능들을 그대로 유지한 채 저희 서비스를 확장해서 쓰실 수 있게 구성되어 있습니다. 타 MLOps 업체들의 경우 k8s를 추상화한 기능들을 제공하기 때문에 k8s 레벨의 기본적인 기능들을 쓸 수 없는 경우가 많습니다.  

 

Q36.  AI개발을 활용 시에 정형화된 프로세스에 대한 있는 그대로의 개발만 가능한가요? 아니면 사람이 캐치하지 못한 프로그램 이슈나 개선을 제안할 수 있는지요?

MLOps라는 것이 매우 방대한 분야입니다. 저희가 집중하는 것은 AI 전용 인프라를 구성하고 이를 효과적으로 utilize할 수 있는 방안을 제공하는 것에 집중하고 있습니다. 프로그램 이슈나 개선을 제안하는 기능까지는 지원하고 있지 않습니다. 

 

Q37. Coaster의 경우 GPU스케쥴링등에 대한 최적화 자료가 있을까요?

간단한 실험 자료는 저희 회사 블로그에 참고하실만한 글이 있습니다. 다음의 링크이며, 더 궁금한 점이 있으시면 언제든지 문의를 부탁드립니다.

https://ten1010.tistory.com/entry/GPU%EC%9D%98-%ED%9A%A8%EC%9C%A8%EC%9D%84-%EA%B7%B9%EB%8C%80%ED%99%94-%ED%95%98%EB%8A%94-%EC%86%94%EB%A3%A8%EC%85%98-Coaster

 

Q38.  AI Pub에서 GPU 개수를 유연하게 바로 변경 가능하게하고. 포탈 UI 기능과 VM 내 CLI로도 제공하고 있는지 궁금합니다

GPU 개수는 유연하게 바로 변경이 불가합니다. 만약 변경하고 싶다면 기존에 받았던 환경을 삭제하고 다시 신청하는 방식으로 가능합니다. 저희 서비스는 CLI 인터페이스인 coaster라는 제품과 포탈 UI로 제공하는 AI Pub이라는 제품이 있습니다. 그래서 고객이 가진 전문성에 따라서 선택하여 사용하시면 됩니다. 

 

Q39.  AI를 구축 및 활용을 하기 위해선 무엇보다 광범위한 데이터 수집, 처리, 학습, 검증, 활용 등의 과정에서 고가의 시스템을 갖추지 않고서는 적용하기가 어려운게 사실인데 그런 점에서 TEN 솔루션은 이런 모든 AI MLOPS 라이프 사이클을 모두 포함하는 것인지 궁금합니다.

MLOps라는 것이 매우 방대한 분야입니다. 저희가 집중하는 것은 AI 전용 인프라를 구성하고 이를 효과적으로 utilize할 수 있는 방안을 제공하는 것에 집중하고 있습니다. 좋은 모델을 만들기 위해 experiment를 관리하고 hyper-parameter를 최적화 하는 작업은 오픈 소스나 다른 MLOps 도구를 만드는 회사들에서 지원하고 있는 것들이 많으니 그쪽으로도 함께 구성하시면 빠르게 전체 MLOps 플랫폼을 구성하실 수 있습니다.  

 

Q40.  운영/관리자적입장에서 운영하고자 하는 기관에 비용을 절감하여 효과적인 성능을 발휘할수 있도록 AI환경을 구현을 하기를 위한다면 어떤분야부터 검토를 시작해야 할까요?

인프라 구성부터 검토를 시작하시면 됩니다. 그리고나서 그 인프라의 구성요소를 사용할 수 있는 다양한 소프트웨어를 조합하여 플랫폼 형태로 구성하시는 단계로 진행하시면 됩니다. 이는 직접 진행하시면 상당히 많은 시간과 비용, 시행착오를 거치셔야 합니다. 그래서 구축하시기 전이라면 저희 플랫폼 도입을 검토하시는걸 추천드리고 싶습니다. 

 

Q41. AI Pub에서 사용자의 할당된 workspace는 어떤 방식의 접속으로 사용되는가요? 그리고 컨테이너 할당의 우선순위는 조절가능한가요?

workspace는 기본적으로 ssh를 통해 접속하시면 됩니다. 일반적인 리눅스 서버에 접속하는 방식입니다. 그 외에 주피터 노트북 같은 인터페이스도 링크를 제공합니다. 컨테이너 할당의 경우 저희가 따로 스케줄러를 개발하였기 때문에 우선순위를 조절이 가능합니다. 급한 용무의 경우 우선 순위 변경을 통해 먼저 리소스를 할당할 수 있습니다. 

 

Q42. AI/ML 서비스 운영환경을 효율적으로 관리하고 미터링할 수 있는 환경을 구축할 수 있는 방안에 대해서 질문드립니다

운영 환경 관리를 위해 각각의 인공지능 서비스를 최적의 GPU 자원으로 생성할 수 있는 방안을 제공하며, 이를 업데이트, 삭제, 롤백하는 기능 등을 UI로 제공합니다. 그리고 서비스들의 상태를 모니터링하여 쉽게 운영할 수 있는 방법 또한 제공하고 있습니다.

 

Q43.  컨테이너 할당시 우선 순위를 지정할 수 있는지요? 먼저 할당받을 수 있다면 좋을텐데요...

저희의 플랫폼은 스케줄러를 따로 개발하여 가지고 있습니다. 그래서 우선 순위를 자유롭게 지정할 수 있는 수단을 제공하고 있습니다.

 

Q44. 대부분의 AI솔루션이 모델을 개발하는데 중점을 두고 있어 기업의 기관계 시스템과 연계에는 부족한 면이 많아서 AI적용시 어려움이 많은데 NVIDIA HyperScale AI 솔루션 적용시 차이점은 어떤것이며, 이런 적용의 문제는 어떤 방식으로 극복한것인지 궁금합니다

말씀하신대로 타사 MLOps 도구들의 대부분은 모델을 개발하는데 중점을 두고 있습니다. 하지만 이 부분은 데이터 사이언티스트들 마다 그리고 개발하는 방식에 따라 다양한 거버넌스를 가지고 있기 때문에 연계가 어려운 느낌이 드셨을 것 같습니다. 저희는 개발 프로세스에 직접적으로 관여하기 보다는 이를 도커 이미지라는 수단을 통해서 개발자들에게는 자율성을 부여하고 그 이후의 AI 인프라를 할당하고 오케스트레이션 하는 부분을 담당해서 AI 적용이 더 쉽게 가능할 수 있게 돕는 서비스를 제공하고 있습니다. 

 

Q45.  엔비디아의 HyperScale AI 인프라환경 도입이 경쟁사 제품이나 자체 구축에 비해 갖는 차별적인 강점은 무엇인지요?

경쟁사 제품이나 자체 구축을 하시면 인프라 업체에서는 GPU 서버만 구매를 하시게 될 텐데요. AI 인프라에는 GPU 서버 뿐만 아니라 다양한 종류의 네트워크와 데이터 저장소 그리고 이를 컨트롤 하는 마스터 서버 등을 구성하셔야 합니다. 전체적인 구성요소를 알고 적당한 티어의 하드웨어를 구매하셔야 하는데 이를 고려하지 않고 구매하면 추후 비용이 계속 들어갑니다. 그리고 이를 사용할 수 있게 해주는 소프트웨어들을 모두 직접 인테그래이션하시는데 큰 비용을 투자하셔야 됩니다.

 

Q46.  CPU기반 AI/ML과 GPU기반 AI/ML 구성 및 설계 시, 작업 분야와 업무 효율, 비용 등을 고려하여 어떤 중요 차이점이 있는지 궁금합니다

GPU로 학습한 것을 CPU 기반으로 돌게 만드려면 모델을 개발할 때마다 최적화 작업을 매번 해줘야만 합니다. 이는 인력과 시간을 상당히 많이 투자해야 하는 작업입니다. 그리고 이런 최적화를 할 수 있는 인력이 지금의 인력시장에서는 매우 희소합니다. 그렇기 때문에 GPU를 얼마나 더 효율적으로 이용할 것인지를 고민하는 것이 비용적으로도 시간적으로도 더 간단한 방법입니다. 

 

Q47.  그런데 AI에 대한 이해 없이 어떻게 운영단에서 최적화가 가능하죠? 그건 불가능 할 것 같은데.

AI에 대한 최적화는 당연히 데이터 사이언티스트가 담당해야 합니다. 다만 운영자들의 경우 전달 받은 모델에 대한 최적의 GPU를 할당해서 서비스를 운영해야합니다. 이 부분에서 플랫폼의 도움을 통해 최적의 GPU 자원으로 운영을 할 수 있는 도구를 제공하고 있습니다. 현재는 GPU에 감으로 서비스를 몇 개정도 올려서 배포하고 있는 수준이며 이렇게 되면 상당한 비용을 GPU 서버에 부담해야 할 뿐만 아니라 서비스 안정성도 떨어집니다. 

 

Q48.  MLOps 확장성을 고려할때, GPU 및 CPU 활용률을 극대화하고 오케스트레이션, 메트릭, 자동 확장을 위해 Kubernetes와 통합이 가능한지 궁금합니다.

저희가 제공하는 플랫폼은 모두 쿠버네티스를 기반으로 하고 있습니다. 그리고 특히 중요한 점은 기존에 쿠버네티스를 쓰시고 계시다면 해당 사용 경험은 그대로 유지한 채 저희 서비스를 추가로 이용할 수 있다는 것입니다. 

 

Q49. AI 환경에 최적화된 액셀러레이터처럼 단일 소켓에서 다중소켓 노드, GPU, FPGA 및 기타 옵션에 이르기까지 새로운 니즈에 따라 유연하게 사용할 수 있는지 궁금합니다

현재는 엔비디아에서 제공하는 Geforce 계열이 아닌 GPU와 그에 연결되는 하드웨어들만 지원하고 있습니다. 추후에는 더 다양한 옵션을 제공하기 위해서 말씀하신 내용들을 도입하여 고객들이 더 적은 비용으로도 높은 효율을 낼 수 있는 방안을 제공해드리기 위해 노력하고 있습니다. 

 

Q50. 인공지능 인프라환경을 구축한 이후에 운영 배포를 하는 데 발생하는 애로사항이나 문제점을 신속하고 원활하게 해결할 수 있는 방법은 무엇인가요?

해당 문제점을 운영자가 계속 따라가면서 공부하고 해결하기는 상당히 어려운 시점입니다. 그렇기 때문에 전문가가 구축한 플랫폼을 도입하고 운영을 하는 것이 기업의 입장에서 빠르게 ROI를 달성할 수 있는 방법이라고 할 수 있겠습니다.  

 

Q51.  MLOps 환경은 특징량 추출 -> 모델의 학습 -> 모델의 예측 -> 최종결과 출력 이라는 각각의 파이프라인에서 품질의 지속적인 유지/개선하면서 전체적인 한개의 파이프라인으로 운용할수 있도록 환경의 구축이 중요한데, 이러한 부분을 효과적으로 지원하는 도구가 별도로 있는지 궁금합니다.

MLOps라는 것이 매우 방대한 분야입니다. 저희가 집중하는 것은 AI 전용 인프라를 구성하고 이를 효과적으로 utilize할 수 있는 방안을 제공하는 것에 집중하고 있습니다. 좋은 모델을 만들기 위해 experiment를 관리하고 hyper-parameter를 최적화 하는 작업은 오픈 소스나 다른 MLOps 도구를 만드는 회사들에서 지원하고 있는 것들이 많으니 그쪽으로도 함께 구성하시면 빠르게 전체 MLOps 플랫폼을 구성하실 수 있습니다.  

 

Q52. 쿠버를 사용해서 관리할때 복잡성이 더 증가할수도 있는데 이 부분에 대해서 어떤 관리 체계를 가지면 좋을까요? 또, AI 관련해서 효율적인 시스템은 어떤게 있을까요?

MSA로 서비스를 구성하게 되면 그 많은 서비스들을 도커를 도입하지 않으시면 관리가 불가능할 정도로 많아지게 됩니다. 그래서 쿠버네티스를 사용하는게 필수라고 생각합니다. 그리고 그 도커들에 GPU와 같은 비싼 자원들을 할당하기 위해서는 저희 플랫폼의 도움을 얻으시면 쉽고 빠르게 구축이 가능합니다.  

 

Q53. Hyperscale AI Computing 지원 모델 유형은 어떻게 되는지요? 모델 유형에 따른 중요 구분 요소는 무엇인지요?

모델이라고 말씀하신게 인공지능 모델이라는 가정하에 답변을 드립니다. 저희 서비스는 모델 유형에 따른 지원사항이 다른 점이 없습니다. 파이토치나 텐서플로와 같은 프레임워크도 모두 지원하는 플랫폼입니다. 도커 이미지만 만드실 수 있다면 별다른 제한사항 없이 사용할 수 있습니다. 

 

Q54.  MLOps 를 위한 NVIDIA의 가속 컴퓨팅 솔루션을 사용하여 프로덕션 환경에서 AI 모델의 배포를 간소화할 수 있는 방안이 있는지 궁금합니다.

데이터 사이언티스트가 모델만 개발하고 그 산출물을 바로 저희 플랫폼에 등록하면 해당하는 모델을 운영할 수 있습니다. 운영을 위한 쿠버네티스 기반 도구들이 제공되기 때문에 고객은 직접 인력과 시간, 비용을 들이지 않아도 바로 운영을 할 수 있습니다. 

 

Q55.  AI 데이터 센터와 MLOps 계층 구성 시 중요 설계 사항은 무엇인지요? 사이언티스트들이 외부 소스 및 내부 데이터레이크에서 데이터 활용과 관련하여 중요 사항은 무엇인지요?

MLOps라는 것이 매우 방대한 분야입니다. 저희가 집중하는 것은 AI 전용 인프라를 구성하고 이를 효과적으로 utilize할 수 있는 방안을 제공하는 것에 집중하고 있습니다. 좋은 모델을 만들기 위해 experiment를 관리하고 hyper-parameter를 최적화 하는 작업은 오픈 소스나 다른 MLOps 도구를 만드는 회사들에서 지원하고 있는 것들이 많으니 그쪽으로도 함께 구성하시면 빠르게 전체 MLOps 플랫폼을 구성하실 수 있습니다.  

 

Q56.  이런 플랫폼이 MLOps를 시작하는 장벽을 낮춰주는 것은 틀림 없는 것 같으나, 이를 통해서 문제점에 대해 얼마나 잘 예측할 수 있는냐는 또 다른 것 같은데 좋은 모델을 만드는데도 도움을 줄 수 있는 것인가요?

MLOps라는 것이 매우 방대한 분야입니다. 저희가 집중하는 것은 AI 전용 인프라를 구성하고 이를 효과적으로 utilize할 수 있는 방안을 제공하는 것에 집중하고 있습니다. 좋은 모델을 만들기 위해 experiment를 관리하고 hyper-parameter를 최적화 하는 작업은 오픈 소스나 다른 MLOps 도구를 만드는 회사들에서 지원하고 있는 것들이 많으니 그쪽으로도 함께 구성하시면 빠르게 전체 MLOps 플랫폼을 구성하실 수 있습니다.  

 

Q57. 기업에서 NVIDIA HyperScale AI 인프라 환경을 구축하는 것이 타사 솔루션을 구축하는 것보다 더 효과적인 이유에 대해서 질문드립니다

AI에 가장 비싸고 중요한 자원은 GPU입니다. GPU를 얼마만큼 효율적으로 쓸 수 있는 도구가 쿠버네티스와 연동되어 지원하는지를 보시는게 비용 절감에 큰 영향을 미칩니다. 

 

Q58.  MLOps 도입 시 라이센스 및 유지보수 비용 뿐만 아니라 교육에도 많은 시간과 비용이 필요해 보이는데요 이런 부분을 얼마나 효과적으로 지원이 가능하신지 궁금합니다

이번 웨비나를 통해 저희 서비스를 보셨다면, AI Pub의 경우 간단한 사용 경험을 제공하여 생각보다 사용하기 어렵지 않습니다. 그리고 coaster의 경우 쿠버네티스를 아시는 분이라면 정말 쉽고 간단하게 쓸 수 있습니다. 만약 교육이 필요하시면 충분히 지원도 가능하니 참고 부탁드립니다.

 

Q59. GPU간 통신방식이 성능(데이터대역)에 영향을 크게 미친다고 들었습니다. 복수 GPU 사용의 최적화는 어떻게처리하는지요? 벤더가 제공하는 Toolkit 또는 프레임워크가 존재할까요? 아니면 각 Site나 use case에 최적화 작업이 필요한 것일까요? 감사합니다.

multi-GPU로 학습을 하시게 된다면 통신이 매우 큰 영향을 미치며 병목이 됩니다. 그렇기 때문에 AI Pub에서는 infiniband를 통해서 통신 할 수 있는 방법을 지원해드리고 있습니다. 최적화의 경우 학습 모델에 따라 매우 다른 접근 방법이 필요하기 때문에 해당 모델을 학습하는 데이터 사이언티스트가 담당해야 합니다. 

 

Q60. 쿠버네티스를 기반으로 AI 개발 및 구축시 가장 고려해야할 사항은 무엇이며, 구축 및 운영상 비용 절감 요소는 무엇이 있습니까?

AI에 가장 비싸고 중요한 자원은 GPU입니다. GPU를 얼마만큼 효율적으로 쓸 수 있는 도구가 쿠버네티스와 연동되어 지원하는지를 보시는게 비용 절감에 큰 영향을 미칩니다. 

 

Q61.  고화질의 CCTV를 구축해 AI를 응용한 지능형 교통흐름분석을 NVIDIA HyperScale AI 인프라 솔루션으로 적용하려면 기존에 운용중인 인프라와의 연동은 어떻게 하면 좋을까요?

기존에 운영하고 계시는 분석 서비스 중에서 GPU를 사용하는 서비스만 따로 떼서 HyperScale AI 인프라로 구성하시면 됩니다. GPU를 사용하지 않는 서비스들은 지금 있는 인프라에서 그대로 운용하셔도 됩니다. 이렇게 구현하기 위해서는 전체 서비스가 micro service architecture 로 구현되어 있는지의 여부가 중요하겠습니다. 

 

Q62. 대규모 GPU 자원 활용에 대한 동적 지원을 가상화 기술로 자원 배분 시 동시에 최대 효율을 배정하여 병렬 운영이 되는지요? 아니면 최대 자원 필요하는 용량부터 지원 후 재 배정하도록 하는지요?

질문 주신 내용은 스케줄링 방법에 따른 차이라고 할 수 있습니다. 저희는 동시에 최대 효율을 배정하는 방법과 최대 자원 용량부터 우선 지원하는 방법 두 가지 모두를 지원합니다. 사용하시는 고객이 필요한 정책에 따라서 스케줄러를 조정할 수 있습니다. 

 

Q63. 쿠버네티스를 기반으로 AI 개발과 운영 환경을 구축하는 것이 다른 오픈소스보다 더 유익하고 효율적인 지에 대해서 문의드립니다

쿠버네티스와 비슷한 오픈소스들이 있으나 도커를 도입한 기업들 중 80퍼센트 이상이 쿠버네티스를 사용하고 있습니다. 이는 AI가 포함되지 않은 일반 IT 서비스에서도 전세계의 많은 사람들이 쓰고 있기 때문에 그만큼 문제 해결이나 기능면에서 가장 안정성 있는 도구라고 말씀드릴 수 있습니다. 

 

Q64.  데이터 사이언스와 AI를 발전시키려면 조직은 클라우드 및 데이터센터에서 엣지에 이르는 GPU 기반 시스템을 최적화하는 작업이 필요할 것 같은데, 빠르고 쉽게 이용할 수 있는 도구가 있는지 궁금합니다.

현재는 클라우드와 데이터센터에 적용하는 최적화 툴을 제공하고 있으며, 이번 웨비나를 통해 어느 정도 설명이 되었으리라 생각합니다. 추후 엣지에도 연동되는 서비스를 제공할 예정입니다. 

 

Q65.  AI 모델 프러덕션 운영 시의 비용 절감은 아무리 싸게 한다해도 AI는 상대적으로 비싼 GPU 기반으로 해야 효율적일텐데 성능을 보장하면서 비용절감이 가능한가요?

기존의 인프라에 비해서 GPU 자체가 비싸기 때문에 딥러닝 서비스를 프로덕션 레벨로 운영하기 위해서는 투자를 더 할 수 밖에 없습니다. 다만, 기존의 방법들로는 GPU를 효율적으로 이용할 수 있는 도구들이 많지 않습니다. 그래서 대부분의 기업들이 GPU를 방만하게 이용하고 이에 대한 비용을 감내하고 있는 실정입니다. 그래서 저희는 성능을 보장하면서도 최소의 GPU를 사용할 수 있는 제품들을 서비스하고 있습니다. 

 

Q66.  쿠버네티스 기반의 환경구축시 인프라측면에서 주요 고려사항은 무엇인가요?

쿠버네티스는 따로 인프라 측면에서 제약 사항이 되는 건 없습니다. 다만, 쿠버네티스의 워크로드를 관리하는 마스터서버를 따로 두는 것을 추천합니다. 그리고 이렇게 마스터서버를 따로 두면 마스터서버만 따로 HA를 구성할 수 있기 때문에 안정성을 담보하는 전체 구성을 할 수 있습니다.