하둡 스파크 예제

 Senast ändrad 2 augusti, 2019 kl 21:48
aug 022019
 

더 나아가기 전에 시스템에서 아파치 스파크를 시작하고 스파크 세션, 데이터 소스, RDD, 데이터 프레임 및 기타 라이브러리와 같은 스파크의 주요 개념에 익숙해보도록 하겠습니다. Spark의 계산은 실시간이며 메모리 내 계산으로 인해 대기 시간이 낮습니다. Spark는 대규모 확장성을 위해 설계되었으며 Spark 팀은 수천 개의 노드로 프로덕션 클러스터를 실행하는 시스템의 사용자를 문서화하고 여러 계산 모델을 지원합니다. 그림: 스파크 튜토리얼 – Hadoop과 Spark MLlib의 차이점은 분류, 회귀, 클러스터링, 협업 필터링 등을 위해 클러스터에서 확장하도록 설계된 다양한 알고리즘을 제공하는 기계 학습 라이브러리입니다(체크 아웃) 그 주제에 대한 자세한 내용은 기계 학습에 대한 Toptal의 기사). 이러한 알고리즘 중 일부는 일반 최소 제곱또는 k-평균 클러스터링을 사용하는 선형 회귀와 같은 스트리밍 데이터에서도 작동합니다(그리고 그 이상). 아파치 마호(Hadoop용 머신 러닝 라이브러리)는 이미 MapReduce에서 외면하고 스파크 MLlib에 힘을 합쳤습니다. 데이터 원본 API는 Spark SQL을 통해 구조화 된 데이터에 액세스하기 위한 플러그 가능한 메커니즘을 제공합니다. 데이터 소스 API는 구조화 및 반구조화 데이터를 Spark SQL에 읽고 저장하는 데 사용됩니다. 데이터 원본은 데이터를 변환하고 Spark로 끌어들이는 단순한 파이프 그 이상일 수 있습니다. 이제 ”아파치 스파크란 무엇인가?”라는 질문에 대한 답을 구해 보겠습니다. Spark와 함께 배포되는 많은 추가 예제: 연결되면 Spark는 응용 프로그램에 대한 계산을 실행하고 데이터를 저장하는 프로세스인 클러스터의 노드에서 실행기를 수집합니다. import org.apache.spark.SparkContext 가져오기 org.apache.spark.sparkContext._ 가져오기 org.apache.spark._ 대화형 분석: 미리 정의된 쿼리를 실행하여 판매 또는 생산 라인 생산성 또는 주가의 정적 대시보드를 만드는 대신, 비즈니스 분석가와 데이터 과학자는 질문을 하고 결과를 본 다음 초기 질문을 약간 변경하거나 결과를 더 자세히 드릴링하여 데이터를 탐색하려고 합니다. 이 대화형 쿼리 프로세스에는 신속하게 응답하고 적응할 수 있는 Spark와 같은 시스템이 필요합니다.

모든 구성 요소가 마스터 노드, 실행기 노드 또는 Spark의 독립 실행형 클러스터 관리자인 동일한 컴퓨터에서 로컬로 실행되는 로컬 모드에서 Spark를 실행하는 방법을 살펴보겠습니다.

Tyvärr, det är nu stängt för kommentarer här.

© 2011 Radiostyrd Bilsport Suffusion theme by Sayontan Sinha