고객센터









customer center. 월~금 : 09:00~17:00, 상담가능시간 : 09~17시 (토요일,일요일,공휴일은 휴무입니다)

입금계좌안내. 우리은행, 예금주(에스에스에이씨스탯), 계좌번호(000-00-00000)


요청하신후 문자메세지를 보내
주시면 좀더 빨리 처리됩니다.
(010-3920-3596)

home 고객센터 > BLOG

공지사항. 우리회사의 새로운 정보와 다양한 소식을 전해 드립니다.

조회수 143
제목 R에서 빅 데이터 작업을 위한 세 가지 전략
등록일 2021-08-02

 


 

 

R에서 빅 데이터를 사용하는 방법에 대해 생각하기 위한
세 가지 전략을 공유한다.

 

 


 

 

기본적으로 R은 컴퓨터 메모리에 들어갈 수 있는 데이터에서만 실행된다.
하드웨어 발전으로 인해 오늘날 많은 사용자가 이 문제를 덜 수 있게 되었다.
대부분의 노트북에는 최소 4-8Gb의 메모리가 제공되며 테라바이트의 RAM이 있는
모든 주요 클라우드 제공업체에서 인스턴스를 얻을 수 있다.
그러나 이것은 실제로 빅 데이터 라고 부를 수 있는
거의 모든 데이터 세트에 대한 실제 문제이다 .

 

 


 

 

R이 메모리 내 데이터에서 실행된다는 사실은
R에서 빅 데이터를 사용하려고 할 때 직면하는 가장 큰 문제이다.
데이터는 컴퓨터의 RAM에 맞아야 하며 1:1도 아니다.
실제로 데이터로 무언가를 하고 있기 때문에 좋은 경험 법칙은
컴퓨터에 데이터 크기의 2-3배 RAM이 필요하다는 것이다.

 

 


 

 

R에서 빅 데이터 작업을 수행할 때의 또 다른 큰 문제는 데이터가 전송된 후
실제로 데이터 처리를 수행하는 데 걸리는 시간에 비해
데이터 전송 속도가 매우 느리다는 것이다.

 

그럼에도 불구하고 R에서 빅 데이터를 사용하는 효과적인 방법이 있다.
그리고 이러한 전략은 상호 배타적인 것이 아니라 원하는 대로
결합할 수 있다는 점에 유의하는 것이 중요하다!

 


전략 1: Sample and Model

 

샘플링 및 모델링을 하려면 전체 데이터를 쉽게 다운로드할 수 있는 크기로
데이터를 다운샘플링하고 샘플에 대한 모델을 생성한다.

 

 


 


수천 또는 수십만 개의 데이터 포인트로 다운샘플링하면
통계적 유효성을 유지하면서 모델 런타임을 실현할 수 있다.

클래스 균형을 유지해야 하는 경우(또는 한 클래스를 초과/과소 샘플링해야 하는 경우)
샘플링 중에 데이터 세트를 계층화하는 것이 합리적으로 간단하다.

 

 

전략 2: Chunk and Pull

 

데이터는 분리 가능한 단위로 청크되고 각 청크는 개별적으로 당겨지고
직렬, 병렬 또는 재결합 후에 작동된다.

 

 


 


이 전략은 개념적으로 MapReduce 알고리즘과 유사하다 .
당면한 작업에 따라 청크는 기간, 지리적 단위 또는 별도의
비즈니스, 부서, 제품 또는 고객 세그먼트와 같은 논리적일 수 있다.

 


전략 3: Push Compute to Data

 

데이터는 데이터베이스에서 압축되고 압축된 데이터 세트만 데이터베이스에서 R로 이동된다.
데이터를 R로 가져오기 전에 데이터베이스에서 요약 또는 필터링을 수행하는 것만으로
상당한 속도 향상을 얻을 수 있는 경우가 많다.

 

 


 

 

경우에 따라 dbplot을 사용하여 히스토그램 및 래스터 맵을 계산하고
modeldb로 모델을 구축하고 tinypredict를 사용하여 기계 학습 모델에서
예측을 생성하는 등 더 복잡한 작업도 가능하다.

 

 

Alex Gold 글