본문 바로가기

AI Feed
Tech & Product/AI, 더 깊게

글로벌 MLOps 및 ML 도구 분야의 플레이어들 2/2

2달여 사이에 MLOps 대 유행이 시작이라도 된 것인지 MLOps 솔루션 사업을 공표한 국내 스타트업들이 부쩍 눈에 띄는 것 같습니다.
지난번에 이어 ‘글로벌 MLOps 플레이어’들에 대해 알아보겠습니다.

지난 글에서는 MLOps 도구가 지원하는 ML 생애주기 별 기능을 설명했습니다. 지난글 보기↗
이번 글에서는 글로벌 플레이어들이 그들의 제품으로 ML 생애주기 별로 어떠한 태스크를 지원하는 지 정리해 보고자 합니다.

주로 2013년 ~ 2014년에 창업한 이들은 최근 몇 년간 막대한 펀딩을 유치한 것으로도 유명한데요, 우리보다 약 4~5년은 앞서 사업을 시작한 이들의 발자취를 통해 우리나라 MLOps 스타트업의 미래를 가늠해 볼 수도 있을 것 같습니다.

MLOps 춘추 전국 시대라는 표현에 걸맞게 2021년은 MLOps 마켓 리서치 자료가 쏟아지기 시작했습니다. (중요한 차트나 지표는 하나도 안보여주고 자료 목차로 궁금증만 잔뜩 일으키는 그런 리포트요 ㅎㅎ)

문헌과 기사에서 여러번 언급되는 MLOps 기업들을 선정하여 이들이 지원하는 MLOps 기능과 그들이 유치한 투자 규모를 알아보았습니다. MLOps가 지원하는 ML 라이프사이클의 4 카테고리 DataManagement / Modeling / Continuous Deployment / Computing Management를 기억해 주세요~


글로벌 대표 MLOps 스타트업

  • Databricks
  • H2Oai
  • Iguazio
  • Allegroai
  • Valohai
  • Dataiku
  • Domino
  • DataRobot

 

Databricks 

2021년 8월 시리즈 H로 약 1조 9천억원($1.6 Billion)을 투자받고 45.5조의 기업가치를 인정 받았다고 합니다. (o_o)
Databricks의 솔루션은 ML 라이프사이클의 4 카테고리중 Data Management / Modeling / Computing Managementfmf 를 지원한다고 하네요. 주요 서비스는 다음과 같습니다. 

DataManagement / 데이터 탐색, 관리, 생성을 위한 모든 ML중심 업무

  • Data Exploration and management: 데이터를 탐색, 관리, 저장 그리고 구성 관련 지원
  • Data version control: 데이터의 버전 컨트롤 지원

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Notebook / ML code management: 노트북이나 ML 운영을 탐색, 관리, 저장 지원
  • Data processing and visualization: 대용량 데이터 분석을 위한 전용 데이터 처리와 시각화 파이프라인 제공
  • Model training: ML: 모델을 학습하기 위한 전용 기능과 파이프라인 제공
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Computing & Resources / 컴퓨팅과 자원 관리와 관련된 모든 활동 및 기능

  • Environment management: 개발 환경 관리 기능 제공
  • Resource allocation: 컴퓨팅 자원, 스토리지 볼륨 등 서로 다른 자원을 관리할 수 있도록 지원

 

Iguazio 

2020년 1월 벤처라운드로 약 287억원($24 Million)을 투자 받았습니다. 2017년에는 시리즈 B로 약 396억원($33 Million) 투자 유치의 기록이 있네요. 
Iguazio는 Modeling / Continuous deployment 단계를 지원한다고 합니다. 

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Data processing and visualization: 대용량 데이터 분석을 위한 전용 데이터 처리와 시각화 파이프라인 제공
  • Feature engineering: 전용 피처 엔지니어링 및 저장 지원
  • Model training: ML 모델을 학습하기 위한 전용 기능과 파이프라인 제공
  • Experiment tracking: 모델 학습에서 측정항목을 추적, 비교 및 기록하는 방법을 제공
  • Auto ML: 아키텍처, 데이터 및 하이퍼파라미터를 기반으로 이상적인 모델 구성을 자동화 하는 프로세스 - 모델 최적화의 진화된 방법이지만 항상 적용 가능한 것은 아님.
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Feature transformation: 새로운 데이터가 수집되면 모델이 학습했던 인풋 데이터의 형식으로 변환되어야 함, 추론 중에도 모델 학습과 유사한 프로세스를 지원
  • Monitoring: 데이터 분포 혹은 컴퓨팅 성능의 편차가 비즈니스 로직에 직접적 영향을 주듯 모델 성능 모니터링도 매우 중요
  • Model deployment and serving: 모델 배포 기능을 통합하는 도구

 

Allegro AI 

2018년 시리즈 A로 약 130억원($11 Million)을 투자 받았습니다. 우리나라에서도 드물게 백 억원대 시리즈 A가 진행 되기도 하지만 이번 조사를 통해 느끼는 점은 역시 '미국의 투자규모는 남다르다!' 입니다. 
Allegro AI는 Data management / Modeling / Continuous Deployment / Computing Management 단계를 지원한다고 합니다. 

Data Management / 데이터를 탐색, 관리 그리고 생성을 위한 모든 ML 중심 업무

  • Data exploration and management: 데이터를 탐색, 관리, 저장 그리고 구성 관련 지원
  • Data version control: 데이터의 버전 컨트롤 지원 - 이는 모델의 성능을 좌우하는 구성요소로써 매우 중요하며, 데이터의 변경과 거버넌스 검토가 핵심입니다.

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Data processing and visualization: 대용량 데이터 분석을 위한 전용 데이터 처리와 시각화 파이프라인 제공
  • Experiment tracking: 모델 학습에서 측정항목을 추적, 비교 및 기록하는 방법을 제공
  • Model / Hyperparameter optimization: 모델의 하이퍼파라미터를 최적으로 구성할 수 있도록 검색할 수 있는 도구
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Model deployment and serving: 모델 배포 기능을 통합하는 도구

Computing & Resources / 컴퓨팅과 자원 관리와 관련된 모든 활동 및 기능

  • Resource allocation: 컴퓨팅 자원, 스토리지 볼륨 등 서로 다른 자원을 관리할 수 있도록 지원
  • Environment management: 개발 환경 관리 기능 제공

 

Valohai

2018년 Pre-Seed 약 21억원($1.8 Million)을 투자 받았습니다. Seed도 아니고 Pre-Seed로.. (o_o)
Valohai는 Data management / Modeling / Continuous Deployment / Computing Management를 지원한다고 하네요.

Data Management / 데이터를 탐색, 관리 그리고 생성을 위한 모든 ML 중심 업무

  • Data streaming: 방대한 양의 데이터를 데이터 파이프라인에 직접적으로 로드하기 위한 데이터 스트리밍 지원

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Notebook / ML code management: 개발자의 노트북이나 ML 운영을 탐색, 관리, 저장 지원
  • Data processing and visualization: 대용량 데이터 분석을 위한 전용 데이터 처리와 시각화 파이프라인 제공
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Monitoring: 데이터 분포 혹은 컴퓨팅 성능의 편차가 비즈니스 로직에 직접적 영향을 주듯 모델 성능 모니터링도 매우 중요
  • Model deployment and serving: 모델 배포 기능을 통합하는 도구

Computing & Resources / 컴퓨팅과 자원 관리와 관련된 모든 활동 및 기능

  • Resource allocation: 컴퓨팅 자원, 스토리지 볼륨 등 서로 다른 자원을 관리할 수 있도록 지원

 

Dataiku

2021년 8월 시리즈 E 약 4797억원($400 Million)을 투자 받았으며 5조 5억원의 가치를 인정받았다고 합니다.
Valohai는 Data management / Modeling / Continuous Deployment / Computing Management를 지원한다고 하네요.

Data Management / 데이터를 탐색, 관리 그리고 생성을 위한 모든 ML 중심 업무

  • Data version control: 데이터의 버전 컨트롤 지원 - 이는 모델의 성능을 좌우하는 구성요소로써 매우 중요하며, 데이터의 변경과 거버넌스 검토가 핵심입니다.

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Notebook / ML code management: 개발자의 노트북이나 ML 운영을 탐색, 관리, 저장 지원
  • Data processing and visualization: 대용량 데이터 분석을 위한 전용 데이터 처리와 시각화 파이프라인 제공
  • Feature engineering: 전용 피처 엔지니어링 및 저장 지원
  • Model training: ML 모델을 학습하기 위한 전용 기능과 파이프라인 제공
  • Experiment tracking: 모델 학습에서 측정항목을 추적, 비교 및 기록하는 방법을 제공
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Data flow management: 추론 중 데이터 플로우를 자동화 하고 관리 가능하게 해주며 모델의 성능과 안정성 이슈를 측정
  • Feature transformation: 새로운 데이터가 수집되면 모델이 학습했던 인풋 데이터의 형식으로 변환되어야 함, 추론 중에도 모델 학습과 유사한 프로세스를 지원
  • Monitoring: 데이터 분포 혹은 컴퓨팅 성능의 편차가 비즈니스 로직에 직접적 영향을 주듯 모델 성능 모니터링도 매우 중요
  • Model deployment and serving: 모델 배포 기능을 통합하는 도구

Computing & Resources / 컴퓨팅과 자원 관리와 관련된 모든 활동 및 기능

  • Resource allocation: 컴퓨팅 자원, 스토리지 볼륨 등 서로 다른 자원을 관리할 수 있도록 지원

 

Domino

Domino Data Lab은 2021년 10 시리즈 F 약 119억원($100 Million)을 투자 받았다고 합니다. 내용을 보시면 느끼시겠지만 미국의 스타트업들은 시리즈 D 혹은 E 이후의 펀딩이 제법 있는 모양이에요. 이들은 상장을 언제 하는 걸까요?
Domino는 Modeling / Continuous Deployment를 지원한다고 합니다. 

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Notebook / ML code management: 개발자의 노트북이나 ML 운영을 탐색, 관리, 저장 지원
  • Model training: ML 모델을 학습하기 위한 전용 기능과 파이프라인 제공
  • Experiment tracking: 모델 학습에서 측정항목을 추적, 비교 및 기록하는 방법을 제공
  • Model management: 모델 저장, 아티팩트 관리 및 모델 버전 관리를 포함한 관리 도구

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Monitoring: 데이터 분포 혹은 컴퓨팅 성능의 편차가 비즈니스 로직에 직접적 영향을 주듯 모델 성능 모니터링도 매우 중요
  • Model deployment and serving: 모델 배포 기능을 통합하는 도구

 

DataRobot

DataRobot은 2021년 6 시리즈 G 약 2990억원($250 Million)을 투자 받았rh 7조 5천억원의 가치를 인정받았다고 합니다.
이들은 Modeling / Continuous Deployment 단계를 지원한다고 하네요. 

Modeling / 데이터 처리 부터 학습 모델 검증까지 모든 파이프라인 관련 업무

  • Experiment tracking: 모델 학습에서 측정항목을 추적, 비교 및 기록하는 방법을 제공
  • Model / Hyperparameter optimization: 모델의 하이퍼파라미터를 최적으로 구성할 수 있도록 검색할 수 있는 도구
  • Auto ML: 아키텍처, 데이터 및 하이퍼파라미터를 기반으로 이상적인 모델 구성을 자동화 하는 프로세스 - 모델 최적화의 진화된 방법이지만 항상 적용 가능한 것은 아님.

Continuous Deployment / MLOps의 “Ops”부분에 관련된 모든 업무 – 모델 론칭, 모니터링 그리고 모델 안정화 등

  • Monitoring: 데이터 분포 혹은 컴퓨팅 성능의 편차가 비즈니스 로직에 직접적 영향을 주듯 모델 성능 모니터링도 매우 중요

 

MLOps가 지원하는 ML 라이프사이클의 범위는 방대한 것 같습니다. 위에 언급한 MLOps 회사들은 AI를 도입하고자 하는 기업에 ML 거버넌스 컨설팅 부터 AutoML, MLOps등 AI를 위한 '모든(거의)' 서비스를 제공하는 것 같았습니다. 
저희는 위의 몇몇 회사들의 창립 초기 제품부터 조사를 했던 경험이 있습니다. 그때만 해도 데이터 태깅 툴이나 몇몇 AI 모델의 최적화를 지원하는 도구였던 제품들 이었는데요...ㅎㅎ 
엄청난 규모의 펀딩을 마무리한 스타트업들이 있습니다. 올해 상장을 한다고 기사화 된 곳도 있구요. 우리나라 MLOps 스타트업도 꿈을 가져볼 만한 멋진 플레이를 하고 있는 것 같습니다.

 

인공지능 전용 온-프레미스 자원 활용과 ML 운영 솔루션이 필요하시다면