데이터브릭스, 세계 최초의 오픈소스 대형언어모델 ‘돌리 2.0’ 공개
2023년 04월 26일
트위터로 보내기페이스북으로 보내기구글플러스로 보내기
b4f86c499b034855a703188f8c06ce58_1682441989_2824.jpg
 

데이터 레이크하우스(Lakehouse) 기업 데이터브릭스(Databricks)가 자사의 글로벌 연례 행사인 ‘Data + AI World Tour’를 국내에서 처음 오프라인으로 개최했다. 이번 행사는 국내 유수의 데이터 및 AI 전문가들이 참여해 서로 인사이트를 나누고 모범사례를 공유하는 자리로, 데이터브릭스의 최신 제품과 기술 혁신 동향 등이 제시되었다. 


특히, 이번 행사에서는 데이터브릭스의 오픈소스 AI 모델 ‘돌리(Dolly)’의 업그레이드 버전인 ‘돌리 2.0’도 공개됐다. 돌리는 세계 최초의 오픈소스 명령어 추종 대형언어모델(LLM)로, 연구나 상업적 용도로 사용 가능한 명령어 학습 데이터셋을 미세 조정하여 구현됐다. 


데이터브릭스는 내부 직원들로부터 크라우드 소싱된 고품질 명령어 추종 데이터셋을 미세 조정했으며, 일루더AI(EleutherAI)의 피티아(Pythia) 모델군에 기반한 120억 개의 파라미터 언어 모델을 사용했다. 


데이터브릭스는 트레이닝 코드, 데이터 셋, 돌리 모델의 훈련된 가중치 등을 포함한 돌리 2.0의 모든 것을 상업적 용도로 사용할 수 있도록 오픈소스로 제공한다. 이를 통해, 어떤 조직이든 API 액세스 비용을 지불하거나 제3자에 데이터를 공유하지 않고도 인간과 대화가 가능한 강력한 LLM을 생성, 소유 및 커스터마이징할 수 있다. 


‘데스티네이션 레이크하우스(Destination Lakehouse)’를 주제로 열리는 Data + AI World Tour는 현대화된 데이터 스택을 구성하는 핵심 요소들은 물론, 기업들이 데이터 자산을 즉각 활용해 보다 효과적인 비즈니스 의사결정을 내리고 AI를 성공적으로 구현하도록 하는 데이터 레이크하우스를 집중 조명했다. 데이터브릭스가 개척하고, 그 혁신을 이끌어온 데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성 및 확장성을 데이터 웨어하우스의 데이터 관리 기능과 결합하여 모든 데이터에 대한 비즈니스 인텔리전스(BI)와 ML(머신러닝)을 지원하는 개방형 통합 데이터 플랫폼이다. 


장정욱 데이터브릭스 코리아 대표는 “올해 Data + AI World Tour를 한국에서 개최하게 되어 매우 기쁘다. 데이터 레이크하우스의 선구자로서, 우리는 모든 사람이 데이터와 AI에 액세스할 수 있도록 하는 데 집중하고 있다. 이번 행사는 국내 데이터 및 AI 업계 리더들이 서로 인사이트를 나누고 모범사례를 공유하며, 데이터브릭스의 제품 혁신 동향을 직접 살펴볼 수 있는 아주 유익한 자리가 되었다.”며, “특히 이번 행사에서 처음으로 데이터브릭스 코리아 고객 어워즈를 진행하여 차세대 혁신을 주도하고 있는 국내의 데이터 및 AI 팀과 업계 비전을 제시하는 리더들의 공로를 치하할 수 있게 되어 매우 뜻깊게 생각한다”고 설명했다.

그래픽 / 영상
많이 본 뉴스