Radiant Earth Foundation은 지리 공간 데이터를 제공하고 그 데이터를 분석하는 작업에 주력하는 비영리 단체입니다. 지리 공간 데이터는 지속 가능한 개발 목표(SDG) 및 기타 주요 목표 해결 임무를 지원하는 글로벌 개발 커뮤니티(GDC)에 개방돼 있습니다. Radiant Earth는 누구나 이용할 수 있는 지리공간 데이터를 집계하고 클라우드 기반 플랫폼에 접속할 수 있게 해줍니다. 또 개방형 Earth Observation (EO) 머신러닝 도구와 교육 데이터 라이브러리를 만들고, MLHub Earth 이니셔티브로 새로운 메타데이터 표준을 만들어 GDC를 지원합니다. Radiant Earth는 교육 자원을 제공해 지리 공간 및 원격 감지 과학 분야 역량 개발과 전문 지식을 지원합니다.
Radiant Earth의 최고 데이터 과학자 Hamed Alemohammad가 조직이 개방형 데이터와 아마존웹서비스(AWS)를 사용해 어떻게 글로벌 개발 커뮤니티를 지원하는지 알려 드립니다.
SDG 지원 머신러닝
전혀 가공되지 않은 EO 데이터를 지속 가능한 미래로 나아가기 위해 필요한 의사 결정을 내릴 때 도움을 주는 인사이트로 바꿉니다. SDG를 지원하는 개방형 EO 데이터 및 분석을 효과적으로 활용하기 위해서입니다. 머신러닝은 EO 데이터를 인사이트로 바꾸는 과정에서 중요한 부분을 차지하지만, 결정적인 단점 하나가 있습니다. 다양한 지리를 훈련하는 데이터 세트가 없다는 것입니다. Radiant Earth는 그 단점을 극복하기 위해 노력하고 있습니다.
교육 데이터 카탈로그 요약
훈련 데이터는 머신러닝 기법의 구성 요소로서, 결과 모델과 도구는 이를 개발하기 위해 사용되는 훈련 데이터와 같은 수준으로 우수합니다. 도시 성장과 같은 토지 커버 변화를 정확하게 감지하거나 EO로부터 농작물 유형을 정확하게 파악하는 모델을 구축하기 위해서는 훈련 데이터 세트가 필요하다. 개발자와 과학자가 예측 알고리즘을 만들 수 있을 만큼 방대하고 다양한 훈련 데이터 세트 말이죠. 훈련 데이터는 과거 사건 또는 유사한 지역에서 일어난 사건을 위성으로 관측한 것과 출력 쌍의 집합입니다. 훈련 데이터가 방대하고 다양할수록 예측 알고리즘은 패턴과 이상 징후(예: 삼림 벌채)를 더 효과적으로 파악할 수 있습니다. 문제는 기존의 지리공간 훈련 데이터 카탈로그가 글로벌 노스(Global North)에 집중돼 있다는 점입니다.
선진국은 장기 데이터 세트를 갖고 있습니다. NASA, USGS, NOAA의 인공위성에 대한 개방적인 데이터 정책과 USDA의 국립농업통계프로그램과 같은 다양한 기관에서 수집한 광범위한 지상 데이터 덕분이죠. 이 데이터가 광범위한 전문지식과 만나 식량 안보, 물 관리, 삼림 벌채와 같은 문제를 과학 기반으로 해결할 수 있게 됐습니다. 지난 10년 동안 이러한 지상 및 위성 데이터 중 많은 데이터가 EO 데이터를 활용하기 위한 훈련 데이터로서 처리되고 한 데 모였습니다.
전 세계의 다양한 크롭(cropping) 패턴. Sentinel-2 위성 이미지.
이와 반대로 Global South 국가들은 데이터가 부족합니다. 특히 SDG에 도달하려는 여정에서 어느 단계에 와 있는지를 알 수 있는 고급 데이터가 부족합니다. 머신러닝 기법은 SDG 모니터링 모델을 구축하기 위해 EO 데이터와 함께 사용할 수 있지만, 기존 교육 데이터 카탈로그는 선진국에 치우쳐져 있습니다. 그래서 머신러닝 모델이 편향되거나 잘못된 결과를 내놓게 됩니다. 세계 중 어느 한 지역에서 온 훈련 데이터를 기반으로 구축된 모델은 다른 생태계에 적용될 수 없습니다.
EO 데이터를 활용해 전 세계적으로 지속 가능한 발전을 위해 혁신하려면 먼저 기존 지상 데이터를 모아 주제별 훈련 데이터셋을 만드는 데 주력해야 합니다. 또 러신머닝 예측으로 지상 데이터의 양을 늘리고 전송 학습 방법을 활용해 주제별 훈련 데이터셋을 생성해야 합니다.
지구 관측을 위한 MLHub Earth Commons
MLHub는 머신러닝, EO를 위한 개방형 라벨 교육 데이터, 모델 및 표준의 핵심 저장소입니다. MLHub는 EO 데이터를 응용해 머신러닝으로 Global South의 문제들을 해결하는 커뮤니티를 구축하는 것이 목표입니다. Radiant Earth는 현재 MLHub Earth에서 호스팅할 두 개의 데이터 세트를 개발하고 있습니다.
첫 번째는 아프리카 주요 작물에 대한 농작물 유형 훈련 데이터셋입니다. 두 번째는 대표 지역 라벨에 대한 글로벌 토지 커버 훈련 데이터 세트입니다. 두 데이터셋은 모두 Public Dataset Program으로 AWS에서 호스팅된 10m 해상도의 유럽 우주국의 Sentinel-2 다중 스펙트럼 광학 이미지를 이용해 구축되고 있습니다.
MLHub 카탈로그는 API를 이용해 Amazon Simple Storage Service (Amazon S3) 스토리지에서 호스팅됩니다. 일반 대중도 교육 데이터 세트를 검색하고 창의적인 공통 라이선스로 접근할 수 있습니다. Radiant Earth는 Amazon Elastic Compute Cloud (Amazon EC2) 머신 클러스터를 비롯해 AWS에서 다양한 리소스로 공용 버킷에서 Sentinel-2 데이터를 읽고, 이를 처리하고, 교육 데이터 카탈로그를 만들고, MLHub 버킷에 교육 데이터를 저장합니다.
크롭 유형에 대한 샘플 교육 데이터: Sentinel-2 인공위성이 시간대에 따라 수집한 지상 데이터 크롭 유형 라벨과 다중 스펙트럼 이미지.
AWS 클라우드를 활용하면 교육 데이터 세트를 클라우드 환경에 적합하게 ML-ready 형식으로 저장할 수 있습니다. Radiant Earth는 개발자들이 오픈 소스 EO 데이터로 머신러닝 모델을 규모에 맞게 배포할 수 있도록 하고 있습니다. 머신러닝 모델을 훈련하는 데 필요한 페타바이트의 데이터 크기로, computation 환경과 밀접한 소스 데이터를 확보하는 것이 중요합니다. 그래야 AWS 클라우드를 쓸 수 있습니다.
세계에 미치는 영향
Radiant Earth는 세계 개발 커뮤니티에 투자해 힘을 실어주고 있다. 머신러닝 교육 데이터셋과 전지구적 토지 커버 및 아프리카 농작물 유형에 대한 결과 분류 모델은 EO 데이터를 다양하게 응용하는 데 도움이 되고 있습니다. 이러한 응용 작업들은 상업적 농업을 발전시키고 개발도상국의 농업 공급망 시장을 더 투명하게 만들 수 있습니다.
AWS 클라우드 크레딧과 AWS 공용 데이터셋 프로그램은 비영리 단체를 지원합니다.
원문 URL : https://aws.amazon.com/ko/blogs/publicsector/geo-diverse-open-training-data-as-a-global-public-good/
** 메가존클라우드 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.