퍼블릭 액세스 차단 구성, 의도치 않은 네트워크 노출로부터 Amazon EMR 클러스터 보호할 수 있어..

AWS 보안 그룹은 허용된 IP 주소로만 클러스터에 대한 액세스를 제어 할 수 있는 네트워크 방화벽 역할을 담당합니다. 클러스터의 애플리케이션 및 데이터를 보호하려면 보안 그룹 규칙을 올바르게 관리해야 합니다. Amazon EMR 은 애플리케이션 요구 사항에 따라 필요한 네트워크 포트, 프로토콜 및 IP 주소를 포함하는 제한적인 보안 그룹 규칙을 만드는 것이 좋습니다. AWS 계정 관리자는 다양한 방식으로 클라우드 네트워크 보안을…

Amazon에서 제공하는 EMR 마이그레이션 가이드

전 세계의 기업들은 Apache Hadoop나 Apache Spark와 같은 새로운 빅데이터 처리 및 분석 프레임워크의 중요성을 점차 깨닫고 있지만, 온프레미스 데이터 레이크 환경에서 이러한 기술을 작동시키는 것이 어렵다는 점 또한 느끼고 있습니다. 더 나아가 이들은 현재 유통 업체의 미래에 대해 우려하고 있을지도 모릅니다.   이러한 문제를 해결하기 위해 AWS는 아마존 EMR 마이그레이션 가이드(2019년 6월 처음 발행)를 소개했습니다.…

Apache Spark 및 Hadoop을 Amazon EMR로 마이그레이션하여 비용 절감하기

Apache Spark와 Hadoop은 종종 기존 접근 방식의 비용보다 훨씬 적은 비용으로 분석을 위한 데이터를 처리하는 인기 있는 프레임워크이지만, 규모가 커지면 여전히 값비싼 제안이 될 수 있습니다. 이 글은 총 소유 비용을 절감하는 동시에 직원 생산성을 향상시키는 방법에 대해 논의합니다. 이는 사내 워크로드를 Amazon EMR로 마이그레이션하고, 우수한 아키텍처 선택을 하고, 리소스 사용을 줄이도록 설계된 기능을 활용하여…

Amazon EMR의 Amazon S3에서 Apache HBase로 마이그레이션: 지침 및 모범 사례

이 글은 HDFS의 Apache HBase에서 Amazon EMR의 Amazon S3의 Apache HBase로 마이그레이션하는 방법에 대한 지침과 모범 사례를 제공합니다.   Amazon EMR의 Amazon S3에 있는 Apache HBase Amazon EMR 버전 5.2.0 이상을 사용하면 Amazon S3에서 Apache HBase를 실행할 수 있습니다. Amazon S3을 Apache HBase의 데이터 저장소로 사용하면 클러스터의 스토리지 및 컴퓨팅 노드를 분리할 수 있습니다. 따라서…

Amazon EMR의 크기 조정 및 자동 스케일링 모범 사례

Amazon EMR에서 제공하는 동적 스케일링 기능을 활용하여 비용 절감 효과를 높일 수 있습니다. 클러스터에서 노드 수를 빠르게 늘리거나 줄이는 기능은 Amazon EMR을 탄성 있게 만드는 주요 특징들입니다. 워크로드가 거의 없거나 없을 때 클러스터의 크기를 조정하여 EMR의 스케일링을 활용할 수 있습니다. 작업이 너무 느려질 경우 처리 성능을 추가하기 위해 클러스터를 확장할 수도 있습니다. 이를 통해 적은…

AWS Glue Data Catalog를 사용하여 Amazon EMR에서 Presto를 실행하기 위한 테이블 메타데이터를 손쉽게 관리하기

Amazon EMR은 Apache Spark, Apache HBase, Presto및 Apache Flink과 같은 널리 사용되는 분산 프레임워크를 사용하여 많은 고객이 빅 데이터 처리 애플리케이션을 빠르고 비용 효율적으로 구축하도록 지원합니다. Amazon EMR를 기반으로 분석 애플리케이션을 만들고 있는 조직의 경우, 데이터 자산을 자동으로 정리해야 할 필요성이 증가하고 있습니다. 데이터세트는 기하급수적으로 증가하는 경향이 있기 때문에 카탈로그 툴을 사용하는 것은 데이터 검색을…