본문 바로가기

AI Feed

Ten

AI 인프라를 읽고, 판단하고, 대응하는 모니터링 시스템 🖥️AI 인프라 운영은일반 서버 인프라 관리보다 훨씬 까다롭습니다. 모델 학습과 추론이 동시에 진행되기도 하고,GPU·CPU·스토리지·네트워크 자원이 여러 사용자와 서비스에 실시간으로 공유되기 때문입니다.​문제는, 이렇게 복잡하게 얽힌 환경에서 단순 수치 모니터링만으로는상황을 정확히 파악하기 어렵다는 것입니다.GPU 사용률이 80%라고 해서 성능이 잘 나오고 있다고 단정할 수 없고, 반대로 사용률이 낮다고 해서 여유 있다고 보장할 수도 없습니다.​예를 들어,• 특정 모델이 GPU 메모리를 과도하게 점유해 다른 작업에 영향을 주는 경우• 네트워크 병목으로 학습 속도가 급격히 떨어지는 경우• 일부 노드만 비정상적으로 과부하가 걸리는 경우• 이 모든 문제는 실시간 상태를 다각도로 모니터링하지 않으면 놓치기 ..
GPU가 부족한 게 아니라, 운영이 잘못된 걸지도 모릅니다 “GPU가 부족해서 늘 학습 작업이 밀려요”▼정말 GPU가 부족한 걸까요, 아니면 리소스 운영 방식이 문제일까요?많은 AI 운영팀에서 공통적으로 겪는 문제들이 있습니다.• GPU는 남아있는데도 대기열은 계속 늘어나고• 프로젝트마다 자원이 충돌하고• 어디에서 낭비가 일어나는지 파악이 어렵습니다그런데 자세히 보면,하드웨어 스펙보다 더 중요한 건‘운영 전략’이라는 걸 알 수 있습니다. ✅ GPU를 더 똑똑하게 쓰는3가지 운영 전략 ➊ 사용자/팀 단위 자원 할당 정책 수립누구에게, 얼마만큼, 언제까지→ 이 기준 없이 GPU를 운용하면 ‘점유’는 되지만 ‘활용’되진 않습니다.💡 자원 사용권한을 사용자·팀·프로젝트 단위로 나누고,사용 종료 시 자동 회수되도록 설정하세요. ➋ 우선순위 기반 스케줄링실시간 요청 ..
아는 사람은 다 안다는 AI피드, 인기 많은 AI 콘텐츠 5가지는? 안녕하세요, 에디터 SA입니다. 여러분은 AI 피드를 언제부터, 또 어떻게 찾아주셨나요? AI 피드는 AI 인프라 전문 기업 TEN이, AI 정보 채널의 필요성을 깨닫고 누구보다 빠르게 운영하기 시작한 AI 전문 채널입니다. 때는 2023년, AI가 화제의 중심에 자리 잡고 있는데도 관련된 정보를 읽기 쉽고 재미있게 잘 정리한 채널을 찾기가 쉽지 않았거든요. AI가 일상을 이롭게 만들기를 바라면서 다양한 시도를 해오고 있었던 TEN은, 일단 여러분에게 있어 AI가 그리 어렵지 않고, 무섭지 않은 존재임을 알려드릴 필요가 있다고 생각했습니다.그렇게, AI와 함께 AI 피드도 덩달아 많은 관심을 받게 된 지 어언 1년이 넘는 시간이 흘렀습니다. 그동안 여러분께서 도움이 된다고 느끼고, 그 관심을 열렬히 표현..
우리나라의 AI 산업은 지금 어떻냐고요? 열심히 달리는 중! 요새 AI 산업 내에서 무슨 일이 일어나고 있는지 알게 될 때마다, 놀랍고 신기하다는 생각이 끊이지 않는데요. 더 나은 성능의 AI 인프라 요소들, GPU나 패브릭(케이블)이 등장하고, 전보다 더 똑똑해진 AI 모델이 등장하는 게 쉬운 일은 아닐 텐데도, 관련 소식들이 연이어 들려오고 있으니까요. 오죽하면 일주일만 AI 소식을 멀리해도 긴 시간 관심을 끊었던 것처럼 많은 것이 바뀌어 있곤 합니다.한편으로는 이런 느낌도 받습니다. 내용을 다 훑어보기도 전에, 어느 기업의 근황인지 알 것 같다, 싶은 느낌이요. 내가 아는 그 유명한 글로벌 테크 기업들 중 한 곳에서 했겠지… 하는 생각으로 각종 기사를 읽어 보고, AI 피드의 콘텐츠를 읽고 계시지는 않은가요? 에디터 SA는 종종, 그렇거든요. 워낙 자주 접하..
AI Pub 개발자가 소개하는: Kubernetes Admission Controller 안녕하세요, 에디터 TN입니다. 이번 달 [AI, 더 깊게] 에서는 AI Pub의 기반이 되는 쿠버네티스에 대해 알아보겠습니다. TEN에서 제공하는 AI Pub은 쿠버네티스(Kubernetes) 기반 플랫폼입니다. AI의 라이프사이클을 기준으로, AI Pub Dev는 개발과 학습, AI Pub Ops는 배포 및 운영에 초점이 맞춰져 있습니다.AI Pub Dev는 클라우드 및 온프레미스 클러스터에서 다수의 AI 연구자가 GPU 자원을 활용하고 관리 및 모니터링할 수 있는 플랫폼입니다. AI 워크로드의 오케스트레이션과 팀 및 클러스터 전반의 하드웨어 리소스 관리 및 가상화를 자동화하며, GPU 오케스트레이션 기능을 통해 GPU를 더욱 효율적으로 사용할 수 있습니다.AI Pub Ops는 AI 서비스를 생성, ..
AI Pub 개발자가 소개하는: 디자인 시스템과 스토리북 안녕하세요. 에디터 TN입니다. 어떤 프로젝트를 시작하게 되면, 가장 먼저 하는 일은 그 프로젝트의 ‘기획’일 것입니다. 이 과정에서 만들고자 하는 솔루션, 웹, 플랫폼 등에 대한 디자인 규칙도 정하게 됩니다. 프로젝트 진행 초기에는 이 디자인 규칙이 잘 반영되고, 통일성도 잘 유지됩니다. 기획 단계부터 함께한 팀 구성원들에게 프로젝트의 규칙과 의도, 내용은 상식처럼 공유되어 있을 것이기 때문이죠.하지만 시간이 지나면서 프로젝트에 새로운 팀이나 구성원이 추가되거나 내용이 다양한 플랫폼으로 확장되면, 폰트 굵기, 외곽선의 둥글기, 컬러 등 디자인 스타일에 대한 규칙이 깨지면서, 작업자에 따라 산출물이 조금씩 다른 디자인을 갖게 되는 경우가 종종 발생합니다. 이는 다음 작업의 능률을 떨어뜨리게 되고, 그 결..
주식회사 텐, 제 19회 디지털 이노베이션 大賞 수상 주식회사 텐(대표 오세진)이 최근 한국일보가 주관하고 과학기술정보통신부에서 후원하는 '2024년 제19회 디지털 이노베이션 대상'에서 IT 분야 대상을 수상했다.'2024년 제19회 디지털 이노베이션 대상'에는 총 380여 개의 기업이 지원했다. 주식회사 텐은 특허를 보유한 자체 기술력으로 개발 및 서비스하고 있는 ‘AI Pub(에이아이펍)’의 가치와 기술력을 인정받아, 수상 기업으로 최종 선정됐다. 관련 기사 보기 >주식회사 텐, 일반인도 AI 인프라 걱정 없이 개발·학습·관리 가능 “미래 산업은 AI 손에” 산업별 퍼스트 무브 경쟁 치열주식회사 텐, AI 인프라 전문 기업으로 2024 디지털 이노베이션 대상 수상 주식회사 텐, '2024 디지털 이노베이션 대상'서 IT분야 대상 수상 텐, AI 인프라..
AI 인프라 구축에 참고 자료가 있다면? '레퍼런스 아키텍처' 최근 산업 분야를 막론하고 AI 도입을 고민하고 있습니다. TEN에게 AI 인프라에 대해 문의하시는 기업들을 보면 아주 다양한 업종에서 연락을 주시는데요. AI 도입을 고민하며 이것저것 알아보다 보니, AI 인프라를 직접 구축하겠다는 결정과 함께 TEN을 알게 되었다고 하시더라고요. 맞습니다. AI 인프라를 직접 구축하는 것이 장기적인 관점에서는 좋은 결정이 될 수 있습니다. 그에 대해 TEN의 도움을 필요로 하시는 것도, 아주 좋은 타이밍이라 할 수 있겠고요.🙂AI 인프라 구축을 알아보다가 TEN에게 연락을 주시는 이유는 아주 다양합니다만, 대체로 하나의 결을 갖습니다. 바로, “어떻게 구성해야 할까?”입니다.🤔 예를 들어, GPU는 최신 사양이라고 하는 특정 모델을 구입하려고 하는데, 그것만으로는..
엔비디아의 스타트업 인수에서 AI 인프라 산업의 트렌드가 보인다! 안녕하세요, 에디터 SA입니다. 최근에는 AI 인프라 산업에서 다양한 변화를 불러올 소식들이 가득했는데요. 그중에 가장 눈에 띄는 것은 엔비디아의 스타트업 인수 소식이었습니다. 엔비디아는 AI 인프라의 핵심이라 할 수 있는 GPU를 매년 새롭게 내놓고 있는 입장에서, GPU의 성능은 물론 효율까지 챙기려는 고민을 지속해 왔는데요.🤔 최근에는 GPU 활용 효율을 높이는 솔루션, 서비스를 제공하고 있는 Run:AI를 인수했습니다. 엔비디아의 이러한 움직임은 AI 인프라에 있어 GPU의 효율이 얼마나 중요한 열쇠가 되는지를 시사합니다. TEN이 AI 인프라 문제에 집중하는 것도 같은 맥락인데요. AI 인프라는 사실상 구축이 곧 ‘시작’이라 볼 수 있습니다. 그 이후 어떻게 운용하느냐가 AI 사업화를 이끄는 ..