본문 바로가기

AI Feed

AIpub

AI Pub Dev를 사용하면 AI 개발 환경, 이렇게 달라집니다 AI Pub Dev로 AI 개발 환경, 이렇게 달라집니다AI 개발 환경을 구축하고 운영해본 경험이 있는 분이라면누구나 이런 고민을 해보셨을 겁니다. •학습 환경을 매번 다시 세팅하는 비효율•워크로드가 꼬이면 원인 찾느라 하루가 간다•협업은 늘 귀찮고, 권한 관리는 더 복잡하다 이런 문제는 GPU 인프라가 AI 개발에 최적화되어 있지 않아서 생기는 일입니다.AI Pub Dev는바로 이 지점을 해결합니다. ✅ AI Pub Dev란? AI Pub Dev는 AI 개발·학습에 최적화된 MLOps 도구입니다.복잡한 환경 설정 없이, 쉽고 빠르게 개발에 집중할 수 있도록 만들어졌습니다. 핵심 가치GPU 자원의 효율적 관리 + 개발자 편의성 + 반복 가능한 AI 실험 환경 🔍 어떻게 바뀌나요? 1️⃣ 개발 환..
하이브리드 & 멀티클러스터 AI 인프라, 한 번에 관리하려면? 흩어진 AI 인프라, 한 곳에서 통합 운영하는 방법AI 워크로드가 늘어날수록, 운영 환경은 복잡해지고 있습니다.온프렘/클라우드가 섞이고, 클러스터는 전 세계로 퍼져나가고,프로젝트마다 리소스 사용 기준이 다를 때,우리는 운영 통제권을 점점 잃고 있습니다. 🔍 AI 인프라, 왜 이렇게 복잡해졌을까?과거에는 GPU 서버 한두 대만 있으면 충분했습니다.하지만 지금은 다릅니다.✔ AI 학습은 온프렘, 추론은 클라우드✔ 서울의 온프렘 클러스터와 미국의 클라우드 리전을 함께 사용하는 구조✔ 프로젝트별로 스토리지, 네트워크, 보안정책까지 제각각※ 참고 • 온프렘(서울 IDC): 기업이 자체 보유하거나 임대한 사내 데이터센터 인프라• 클라우드 리전: AWS, GCP, Azure 등 글로벌 클라우드 사업자가 운영하는 지..
GPU가 부족한 게 아니라, 운영이 잘못된 걸지도 모릅니다 “GPU가 부족해서 늘 학습 작업이 밀려요”▼정말 GPU가 부족한 걸까요, 아니면 리소스 운영 방식이 문제일까요?많은 AI 운영팀에서 공통적으로 겪는 문제들이 있습니다.• GPU는 남아있는데도 대기열은 계속 늘어나고• 프로젝트마다 자원이 충돌하고• 어디에서 낭비가 일어나는지 파악이 어렵습니다그런데 자세히 보면,하드웨어 스펙보다 더 중요한 건‘운영 전략’이라는 걸 알 수 있습니다. ✅ GPU를 더 똑똑하게 쓰는3가지 운영 전략 ➊ 사용자/팀 단위 자원 할당 정책 수립누구에게, 얼마만큼, 언제까지→ 이 기준 없이 GPU를 운용하면 ‘점유’는 되지만 ‘활용’되진 않습니다.💡 자원 사용권한을 사용자·팀·프로젝트 단위로 나누고,사용 종료 시 자동 회수되도록 설정하세요. ➋ 우선순위 기반 스케줄링실시간 요청 ..
GPU부터 사기 전에, AI 인프라 먼저 점검해야 할 것들 “GPU 도입만 하면 AI 인프라 구축이 끝날 줄 알았어요.”→ 하지만 생각보다 성능은 안 나왔고, GPU는 놀고 있었습니다.이 이야기는 많은 AI 도입 기업들이 공통적으로 겪는 현실입니다. AI 인프라는 고가의 투자 자산입니다.하지만 단순히 장비만 확보한다고 해서 AI 서비스가 원활하게 돌아가진 않습니다.실제로는 도입 이후에 더 많은 질문들이 쏟아집니다.• GPU가 부족한데 리소스는 분명 남아 있다?• 프로젝트마다 GPU 설정이 다르고 충돌이 잦다?• 사용 현황을 모르는 상태에서 예산만 늘어난다? AI 인프라 도입 전,꼭 확인해야 할 체크리스트 5가지 ➊ 워크로드를 정확히 파악하고 있나요?AI 인프라는 쓰임새가 다릅니다.• 학습이 중심인가요? 추론이 많은가요?• 단일 모델인가요? 멀티 사용자 환경..
AI 인프라 오케스트레이션이 필요한 3가지 상황 GPU 자원, 아직도 고정 할당하고 계신가요?🧩 이런 상황, 실무에서 익숙하지 않으신가요?“GPU는 많은데 작업 대기열은 왜 줄지 않죠?”“AI 모델은 커지는데 GPU는 여전히 제자리예요.”“프로젝트가 끝나도 리소스 회수는 없어요…”이처럼 GPU 자원을 "전용처럼 고정 사용"하고 있다면,지금이 바로 AI 인프라 오케스트레이션을 고려할 시점입니다. 🔍 AI 인프라 오케스트레이션이란?**AI 인프라 오케스트레이션(AI Infrastructure Orchestration)**은AI 모델 학습 및 추론과 같은 워크로드 실행을 위한 GPU, CPU, 스토리지 등 인프라 자원을 자동으로 할당·최적화·관리하는 기술입니다.✅ 주요 기능자원 프로비저닝 및 할당→ GPU, CPU 등 자원을 필요 시점에 동적으로 배정..
"GPU 클러스터, 정말 필요한가?" 도입 전 꼭 확인해야 할 5가지 조건 왜 지금, GPU 클러스터일까?모델이 거대해지고, AI 연산량이 폭증하면서많은 기업이 "GPU 클러스터" 도입을 검토하고 있습니다.하지만 도입 이후에도 GPU 자원은 놀고 있는 경우가 많고,비싼 인프라가 제 역할을 못 하는 상황이 반복됩니다.문제는 GPU 클러스터가 아니라,"그 자원을 얼마나 유연하고 효율적으로 운영할 수 있는가"입니다. 클러스터 도입 전 꼭 확인해야 할 5가지➊ 단일 GPU 서버로 감당할 수 없는 연산량인가?대규모 모델 학습, 고해상도 비디오 처리, 분산 추론 등하루 이상 걸리는 학습이 늘고 있다면✔ "복수 서버 기반의 연산 환경"이 필요할 수 있습니다.➋ 고연산 병렬 작업이 실시간으로 처리되어야 하는가?• 팀 구성원들이 동시에 모델을 실험• 테스트/서빙/학습이 모두 병..
AI 워크로드 운영을 자동화하는 AI Pub(에이아이펍)의 5가지 활용 전략 GPU 인프라, 더 똑똑하게 운영하려면?많은 기업이 AI 모델을 학습시키기 위해 고가의 GPU 자원을 확보하지만,운영 효율은 생각보다 낮은 경우가 많습니다.학습 스케줄이 겹치거나, GPU가 유휴 상태로 방치되는 일이 반복되기 때문입니다.이러한 문제를 해결하기 위해 주식회사 텐(TEN)은 AI 워크로드에 최적화된 인프라 스케줄링 플랫폼, AI Pub을 제공합니다. AIPub의 주요 기능 5가지1. GPU 자원 분할 및 통합 스케줄링• 하나의 GPU를 100개 단위로 쪼개 여러 작업자가 동시 사용• 반대로, 대규모 학습이 필요한 경우 여러 GPU를 하나로 통합해 사용• AI Pub의 대표 기능: GPU 스케줄링 + 가상화2. 학습 워크로드 자동 스케줄링• 학습 job 등록 → AI Pub이 리소스 상황을..
AI를 도입하려면, 쿠버네티스를 꼭 알아야 한다고요? 여러분, 혹시 ‘쿠버네티스’ 아시나요? AI를 개발하고 운영하는 과정에서 쿠버네티스를 활용하시는 분들이 꽤 계신 것으로 알고 있는데요. 모르시는 분들도 제법 계신다는 이야기를 듣기도 해서, 문득 궁금해지더라고요. AI 피드를 계속 찾아주시는 분들은 ‘쿠버네티스’를 알고 계시는지 말이에요. AI 피드에서 이미 쿠버네티스에 관해 간단히 소개해 드린 적 있답니다. 쿠버네티스 툴도 함께 소개해 드렸었지요.👉 쿠버네티스, 오픈소스 도구로 더 알차게 쓰는 법!AI 개발과 운영 과정에서 쿠버네티스(Kubernetes)를 활용하는 것은 많은 이점을 제공하는데요. 쿠버네티스를 아예 모르시는 분들도 있다는 현장의 이야기를 전해 들은바, AI 인프라 전문기업으로서 TEN이 직접 쿠버네티스에 관해 설명하는 시간을 만들면 좋..
주식회사 텐, 제 19회 디지털 이노베이션 大賞 수상 주식회사 텐(대표 오세진)이 최근 한국일보가 주관하고 과학기술정보통신부에서 후원하는 '2024년 제19회 디지털 이노베이션 대상'에서 IT 분야 대상을 수상했다.'2024년 제19회 디지털 이노베이션 대상'에는 총 380여 개의 기업이 지원했다. 주식회사 텐은 특허를 보유한 자체 기술력으로 개발 및 서비스하고 있는 ‘AI Pub(에이아이펍)’의 가치와 기술력을 인정받아, 수상 기업으로 최종 선정됐다. 관련 기사 보기 >주식회사 텐, 일반인도 AI 인프라 걱정 없이 개발·학습·관리 가능 “미래 산업은 AI 손에” 산업별 퍼스트 무브 경쟁 치열주식회사 텐, AI 인프라 전문 기업으로 2024 디지털 이노베이션 대상 수상 주식회사 텐, '2024 디지털 이노베이션 대상'서 IT분야 대상 수상 텐, AI 인프라..