Introduction Spark Cache and Persist are optimization techniques for iterative and interactive Spark applications to improve the performances of the jobs or applications. In
Key Point RDD.cache() cashes the RDD with the default storage level MEMORY_ONLY
DataFrame.cache() caches the DataFrame with the default storage level MEMORY_AND_DISK
The persist() method is used to store it to the user-defined storage level
On Spark UI, the Storage tab shows where partitions exist in memory or disk across the cluster.
Terms Term Meainig Application User program built on Spark. Consists of a driver program and executors on the cluster. Application jar A jar containing the user’s Spark application. In some cases users will want to create an “uber jar” containing their application along with its dependencies. The user’s jar should never include Hadoop or Spark libraries, however, these will be added at runtime. Driver program The process running the main() function of the application and creating the SparkContext Cluster manager An external service for acquiring resources on the cluster (e.
Info Partition은 RDDs나 Dataset를 구성하고 있는 최소 단위 객체입니다. 각 Partition은 서로 다른 노드에서 분산 처리됩니다. Spark에서는 하나의 최소 연산을 Task라고 표현하는데, 이 하나의 Task에서 하나의 Partition이 처리됩니다. 또한, 하나의 Task는 하나의 Core가 연산 처리합니다.
즉, 1 Core = 1 Task = 1 Partition입니다.
설정된 Partition 수에 따라 각 Partition의 크기가 결정됩니다. 그리고 이 Partition의 크기가 결국 Core 당 필요한 메모리 크기를 결정하게 됩니다.
◼️ Partition 수 → Core 수
Hogo: The worlds’s fastest framework for building static website.
Hugo https://gohugo.io/
hugo 설치 1 2 3 4 5 # Install brew ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" # download hugo brew install hugo 프로젝트 생성 1 2 3 4 5 6 7 # 프로젝트 생성 디렉터리 접근 cd development hugo new site <원하는 파일 이름> # 나의 경우 hugo new site devlog 주의 hugo version upgrade인지 대부분의 사이트에서 말하는 것과 다르게 사이트를 hugo new site를 통해 프로젝트를 생성하면 config.