첫 번째 MapReduce 프로그램은 하둡을 설치한 후 대부분의 사람들이 쓰는 단어 카운트 MapReduce 프로그램입니다. 초기화 하는 동안 작업을 설정 합니다. 예를 들어 작업을 초기화하는 동안 작업에 대한 임시 출력 디렉터리를 만듭니다. 작업 설정은 작업이 준비 상태이고 작업을 초기화한 후 별도의 작업에 의해 수행됩니다. 설치 작업이 완료되면 작업이 RUNNING 상태로 이동됩니다. 이제 여러분들은 MapReduce 프레임워크에 대한 기본적인 이해를 가지고 있습니다. MapReduce 프레임워크가 HDFS에 존재하는 거대한 데이터를 처리하기 위해 코드를 작성하는 데 어떻게 필요한지 깨달았을 것입니다. 하도프 1.x와 비교하여 하도프 2.x의 MapReduce 프레임워크에 큰 변화가 있었습니다. 이러한 변경 내용은 이 MapReduce 자습서 시리즈의 다음 블로그에서 설명합니다. 나는 바로 블로그에서 MapReduce 프로그램의 각 부분을 설명하는 다운로드 가능한 포괄적 인 가이드를 공유 할 것입니다. 이 문서에서는 Hadoop MapReduce 프레임워크의 모든 사용자 대면을 포괄적으로 설명하고 자습서 역할을 합니다.

C 메이크 파일과 마찬가지로 이 파일의 다양한 항목은 다른 대상에 대한 depncies를 지정합니다. 예를 들어 줄 23의 jar라는 대상은 그 위에 컴파일된 대상에 따라 달라집니다. 개미를 실행할 때 대상의 종속성 목록이 올라가서 첫 번째 대상에서 마지막 대상까지 각 대상을 실행한다는 점에서 유사한 방식으로 실행됩니다(이 특정 경우에 주문한 방식). Hadoop은 컴파일된 Java 코드가 포함된 jar 파일을 얻어작업을 시작합니다. 또한 일반적으로 Java 프로그램에 두 개의 명령줄 인수를 보냅니다: 입력 데이터 파일 또는 디렉터리, 감소 작업의 결과에 대 한 ouput 디렉토리. ant라는 도구를 사용하면 위의 코드에서 jar 파일을 빠르게 만들 수 있습니다. (Hadoop jar jarfilename.jar 패키지Name.ClassName PathToInputTextFile PathToOutputDirectry) 사용자는 큐에 작업을 제출합니다. 큐는 작업 컬렉션으로 시스템에서 특정 기능을 제공할 수 있도록 합니다. 예를 들어 큐는 ACL을 사용하여 작업을 제출할 수 있는 사용자를 제어합니다. 대기열은 주로 Hadoop 스케줄러에서 사용할 것으로 예상됩니다.

Hadoop이 설치, 구성 및 실행 중인지 확인합니다. 자세한 내용: 다음 링크를 클릭하여 단어 수 예제의 전체 일식 프로젝트를 다운로드합니다. 맵 단계 실행이 성공적으로 완료되면 맵 단계에서 생성된 키-값 쌍을 입력으로 가져온 다음 알파벳 순으로 정렬하는 순서대로 섞기 단계가 자동으로 실행됩니다. WordCount 예제 코드에서 셔플 단계가 실행되면 출력은 다음과 같이 표시됩니다 . 예를 들어 작업이 완료된 후 임시 출력 디렉토리를 제거합니다. 작업 정리는 작업이 끝날 때 별도의 작업에 의해 수행됩니다. 정리 작업이 완료되면 작업이 SUCCED/FAILED/KILLED로 선언됩니다. 다음은 jvm GC 로깅을 보여주는 여러 인수 및 대체 와 예제이며 암호가없는 JVM JMX 에이전트를 시작하여 jconsole 및 좋아하는 자식 메모리, 스레드를 보고 스레드 덤프를 얻을 수 있도록합니다. 또한 맵의 최대 힙 크기를 설정하고 자식 jvm을 각각 512MB 및 1024MB로 줄입니다. 또한 자식 jvm의 java.library.path에 추가 경로를 추가합니다.

이클립스에서 단어 수 코드를 실행하기 위한 것입니다. 우선, 더미 데이터가있는 input.txt 파일을 만듭니다. 테스트 목적을 위해 프로젝트 루트에 다음과 같은 텍스트가 있는 파일을 만들었습니다. 또한 코드가 컴파일할 수 있도록 최소한 다음 Hadoop jars를 추가해야 합니다. 이러한 항아리는 Hadoop 설치의 /share/hadoop 디렉토리 내에서 찾을 수 있습니다. /share/hadoop 경로에서 HDF, mapreduce 및 필요한 항아리에 대한 공통 디렉토리를 찾습니다. 빅 데이터 및 Hadoop 인증에 대한 자세한 내용을 원하시면 이 페이지 상단의 주황색 “정보 요청” 버튼을 클릭하십시오. 이 hadoop 튜토리얼은 hadoop 개발자에게 그들의 첫 번째 hadoop 기반 워드 카운트 응용 프로그램을 개발하는 실습 경험을 제공함으로써 하두 맵감소 프로그래밍의 세계에서 좋은 시작을 제공하는 것을 목표로하고있다.