본문 바로가기
출처 : http://pc.watch.impress.co.jp/docs/colum...59368.html 

NVIDIA의 "Pascal"세대의 GPU 아키텍처에서 보여 온 것은, NVIDIA GPU의 통합과 분화의 방향성이다. 현재 NVIDIA는 GPU의 제품 기능을 분화시키고 통합하려고하고있다. 구체적으로는 같은 Pascal에도 "Tesla P100 (GP100)」과 「GeForce GTX 1080 (GP104)"는 GPU의 마이크로 아키텍처도 메모리, 인터페이스 회전 등의 칩 아키텍처도 다르다. 덧붙여서, AMD는 이러한 GPU 컴퓨팅 및 그래픽 각각의 분화는별로 보이지 않는다.

 

GP100의 TPC의 구조 

GP104의 SM (Streaming Multiprocessor)의 구조

 

 한편, 이전에는 전혀 다른 아키텍처이었다 Tegra 계의 통합 GPU도 공통 아키텍처로 통합되어있다. 차세대 FinFET 프로세스 버전의 Tegra는 Pascal 아키텍처의 GPU 코어를 갖추고있다. 아키텍처의 통합과 분화의 양쪽이 진행되고있다.

 구체적으로는 GP100은 GP104에 명령 유닛 당 레지스터 파일 공유 메모리 인플 Warp 수가 강화되고 NVLink 칩 간의 인터페이스로 구현하고 HBM2 광대역 메모리를 실현한다. 한편 GP100은 GP104을 대비 "Simultaneous Multi-Projection (동시?? 테니 아스 멀티 프로젝션)」나 그래픽 선점은 GP100에는 구현되어 있지 않다.

 

Simultaneous Multi-Projection

 

 이렇게 보면 NVIDIA의 GPU는 GPU 컴퓨팅에 최적화 된 아키텍처와 그래픽에 최적화 된 아키텍처를 완만하게 분화하고있는 것으로 보인다. 무엇보다, 지금까지 NVIDIA GPU는 GPU 컴퓨팅을위한 하이 엔드 GPU와 그래픽을 주목적으로 한 하이미도루 GPU 다음의 제품 구조에 차이가있을 수 있었다.

 "Fermi"아키텍쳐의 세대에서도 최상위의 GeForce GTX 480 (GF100) 계와 미들 레인지의 GeForce GTX 460 (GF104) 계에서 SM의 GPU 내부의 연산 유닛 구성과 명령 발행 등의 아키텍처의 기본 부분 이 달랐다. 또한 Kepler 세대에서도 마지막가는 GK210되면 마이크로 아키텍처가 달랐다.

 "지금까지도 아키텍처의 차이는 있었다 .Kepler는 마지막 GK210은 몇 가지 점에서 진화하고 SM (Streaming Multiprocessor)이 다르다 .GK210은 더 레지스터 파일 공유 메모리를 제공 있는 .Fermi에서도 마찬가지로 다른 아키텍처를 채용했다 "고 NVIDIA에서 GPU 개발의 지휘를 받아 Jonah Alben 씨 (Senior Vice President, GPU Engineering, NVIDIA)는 설명한다.

 무엇보다, GK210 때는 그래픽 용 GPU는 Maxwell 아키텍처로 진화했지만, HPC 전용의 FP64 성능이 높은 GPU의 진화가 남겨진 상황에 있었다. 따라서 HPC 전용에 "Kepler 개"의 필요가있어, GK210 기반의 Tesla K80을 투입했다는 사정이 있었다.

 

GPU의 다이 크기 변천

공통 아키텍처에 통합하면서 구현 분화시키는

 Pascal 세대의 차이점은 인터페이스 등 지금까지보다 GPU에 의한 차이가 퍼지고있어 차이가있는 제품의 출시시기도 근접하게되어있는 것이다. NVIDIA GPU 전체로 보면 마이크로 아키텍처가 각각의 시장에 수정 된 칩 전체의 구조도 차이가 나오고있다.

 반면 마이크로 아키텍처의 기본은 공통화가 진행되고있어 공통 아키텍처를 구현하는 타이밍 동기화하고있다. 결과적으로, 동 세대에서는 GPU 컴퓨팅의 Tesla 그래픽 GeForce, 모바일 / 임베디드 Tegra에서 GPU 마이크로 아키텍쳐가 맞도록 제작했다.

 Alben 씨는 다음과 같이 설명한다.

 "마지막으로, NVIDIA는 하나의 공통 아키텍처 모델에 겨우 도착했다. 그러나 공통 아키텍처라고해??도 거기에서 성격이 다른 칩을 파생시키고있다. 우리는 각각의 시장을 향해 다른 제품을 개발하고있다. 코어 아키텍처는 공통이지만 균형이 다른 .FP64 (64-bit) 배정 밀도 부동 소수점 연산 유닛이나 레지스터 파일, 공유 메모리 등의 균형이다.

 Tesla는 이러한 기능을 강화한 균형이 필요로되고있다. 그러나 강화하여 자원을 소비한다. 따라서 GeForce는 다른 (이 기능을 깎은) 균형하고있다. 결과적으로, NVIDIA의 GPU는 일반적이다 부분은 유지하면서 각각의 칩은 이전보다 많은 차이를 갖게하고있다. 예를 들어, GP100의 NVLink 등이 그렇다.

 그래픽 용으로 기능을 날카롭게하는 것만은 아니다. 우리는 GPU의 컴퓨팅을 수용하고있는 것에 따라, GPU는 많은 컴퓨팅 기능을 주입왔다. 동시에 그래픽으로도 VR (Virtual Reality)과 같은 새로운 기술이 오면 이러한 시장 변화에 추종 할 멋진 아이디어를 주입하고있다. "

GP100의 전체 구성

GP104의 전체 구성

GP100은 깊은 학습을 위해 FP16를 배 성능 화

 마이크로 아키텍처면에서 매우 재미있는 것은 FP16 (16-bit 반 정밀도) 부동 소수점 연산의 구현이다. GPU 컴퓨팅을 주목적으로 한 GP100에서 FP16 (16-bit 반 정밀도) 부동 소수점 연산 성능을 배가하는 2-way SIMD (Single Instruction, Multiple Data) 형의 FP16를 구현했다. 이 기능은 GP100의 FP16의 피크 성능은 FP32 (32-bit 단 정밀도) 부동 소수점 연산의 2 배가되었다.

GP100과 GP104의 스펙 비교

GP100의 팍 크드 FP16 

 

 그러나 GP100 이후에 개발 된 것 인 GP104이 2-way 팍 크드 FP16는 구현되어 있지 않다. GP104의 FP16 성능은 FP32과 마찬가지다. 그런데 같은 2-way 팍 크드 FP16는 Tegra 계열 GPU로 구현된다. Tegra 버전 Maxwell 코어에서 구현되어 있으며, 새로운 Tegra의 Pascal 코어도 상속된다. "우리는 PX2 (Tegra 기반의 자동차 용 임베디드 보드)는 GP100의 것으로 유사한 (FP16) 명령 세트를 도입하겠다"고 NVIDIA의 Alben 씨는 말한다.

 즉, NVIDIA의 GPU 계열에서는 GPU 컴퓨팅 및 모바일 / 임베디드 시장을 위해서 지그비 제품에 팍 크드 FP16를 구현하여 FP16 성능을 향상한다. 그러나 PC 그래픽 용 분야에서는 FP16 부스트되지 않는다. 단순히 내장 → PC 그래픽 → GPU 컴퓨팅과 컴퓨팅 기능이 강화되는 것이 아니라 시장에 의해 다른 구현되고 있는지 알 수있다.

 우선, GPU 컴퓨팅의 GP100에서 팍 크드 FP16가 지원되는 것은 깊은 학습을위한 것이다. 'GP100은 깊은 학습의 훈련에 사용되는 제품이다. 따라서 딥 학습에서 중요하다 반 정밀도 부동 소수점 연산 성능을 높일 필요가 있었다 "고 Alben 씨는 말한다.

 딥 학습에서는 엄청난 콤보 류 셔널 신경망의 연산 속도를 위해 데이터의 양을 억제하는 방향으로 향하고있다. FP16도 충분한 정밀도를 얻을 수 있다는 것이 현재의 공통 인식되고 있으며, 따라서 FP16가 많이 사용되고있다. GP100은 이러한 흐름에 대응하기 위해 FP16를 배 성능을 향상했다.

 반면 PC 게임의 그래픽은 FP16는 과거의 일이되어 있으면 NVIDIA는 본다. 픽셀 파이프에서도 FP32 단정가 표준이되고 있기 때문에 비용을 들여 구현할 필요가 없다고 판단한 것 같다. "반 정밀도 부동 소수점 연산은 PC 게임에서 중요하지 않다고 판단했다. 저가형 게임 에서조차 단 정밀도 이상의 정밀도를 전제로하고 있기 때문이다 .GeForce 구현하지 않은 것은 그 때문이다"(Alben 씨).

임베디드의 Tegra도 FP16 반 정도를 강화

 그런데 모바일 및 임베디드된다고 이야기가 달라진다. 이러한 분야에서는 메모리 대역폭 및 오프 칩 인터페이스의 전력 소비를 억제하기 위해 FP16가 여전히 사용되고있다. 거기에 향한 Tegra는 "OpenGL ES에서도 낮은 정확도가 지원되는대로 FP16 성능이 필요하다고 판단했다"(Alben 씨)라고한다. 이것은 모바일 계 GPU에 공통된 인식에서 Imagination Technologies의 PowerVR Series6 (Rogue)도 처음에는 FP16의 경로를 만들어 않았지만, 현재는 FP16는 FP32의 배의 성능이다.

 또한 내장에서 FP16의 강화는 내장에 깊은 학습이 중요한 측면이있다. 깊은 학습을 통한 인식 처리에 사용되는 사례가 앞으로 늘어날 것으로 예상되기 때문이다. 딥 학습은 방대한 컴퓨팅 자원으로 행하는 「교육 (training) "페이즈에서 신경망 모델을 구축. 그 모델을 사용하여 자동차 등의 기기로 인식하는 '추론 (inference) "페이즈를 실현한다. 교육은 데이터 센터에서 행하지 만, 추론은 임베디드 디바이스에서 행한다. 추론도 나름대로의 데이터 량하므로 내장 GPU에서도 FP16 반 정도가 유효하다.

깊은 학습의 2 개의 페이즈 

 NVIDIA는 이처럼 GPU는 연산 경로의 마이크로 아키텍처도 변경하고있다. 그러나 프로그램 성에서의 호환성은 유지하고 NVIDIA는 강조한다. 예를 들어, GP100에서 FP64 (64-bit 정밀도) 부동 소수점 연산은 FP32의 2 분의 1로 높은 성능 비율이다. 이에 대해 GP104에서 FP64는 FP32의 3??2 분의 1의 성능이지만, 그래도 명령어 세트 수준의 호환성은 유지되고있다.

 FP16도 컴파일러 수준에서 유지되고있어한다. NVIDIA GPU는 SIMT (Single Instruction, Multiple Thread) 아키텍처에서 32-way의 스레드가 각각 마스크 레지스터에 의한 프레디 케이션에 의해 의사 적으로 분기하고 같이 취급 할 수있다. 그러나 팍 크드 FP16 부분은 프레디 케이션은 적용되지 않는다. 2 개의 FP16 연산은 같은 스레드의 내부된다. 스레드의 명령 스트림에서 FP16를 컴파일시에 팩하는 방법이 일반적이라고한다.

GP104에서만 추가 된 형상

 그래픽 기능은 GP100에 GP104 분들이 진행되고있다. GP104은 동시 테니 아스 멀티 프로젝션 그래픽 선점 제거 동기식 컴퓨팅 동적로드 밸런싱의 새로운 기능이 탑재되어있다. 모두 그래픽 기능을 확장 시키거나 그래픽과 컴퓨팅의 2 개의 처리를 섞어 경우에 중요하다 기능이다. 이러한 차이는 제품 시장마다 전문화이기도하지만, 개발시기의 차이도 영향을주고 있다고한다.

동시 테니 아스 멀티 프로젝션 GP104에서 처음 구현

그래픽 스타스쿠과 컴퓨팅 작업의 동적로드 밸런싱은 GP104

그래픽 선점도 GP100에없는 기능

 "동시 테니 아스 멀티 프로젝션을 GP100에서 구현되지 않은 것은 단순히 GP100 쪽이 먼저 개발 된 사정도있다. 우리는 일반적으로 GPU의 기능을 최대한 동일하게 가까이 유지하려고하고있다 그러나 동시 테니 아스 멀티 프로젝션의 경우에는 개발시기의 차이도 있고, GP100은 구현하지 못했다 "(Alben 씨).

 동시 테니 아스 멀티 프로젝션 응용 프로그램의 개발에 크게 영향을주는 기능이기 때문에 미래의 하이 엔드 GPU에서 지원되는 것으로 보인다.

 메모리도 GPU 컴퓨팅의 GP100이 HBM2 그래픽 GP104이 GDDR5X와 엇갈 렸다. 이것은 경제성 때문이다.

 "주의 할 것은 우리가 모두 (HBM 계와 GDDR 계)의 메모리 기술을 원하고 있으며, 그 모두에서 최신 기술을 사용하려고하고있는 것이다 .GDDR5X는 GDDR5의 자연적인 진화이며, 따라서 경제적으로 효율적인 메모리가되고있다. 이에 대해 HBM2은 경제성에 미치지 못하지만 최고의 메모리 대역을 실현 해주는 .HPC의 세계에서, 우리는 가능한 최고의 기술을 제공하려고하고있다. 따라서 HBM 계 메모리를 사용하고 싶다고 생각하고있다 "(Alben 씨).

 HBM 계 메모리는 DRAM 측에 실리콘 관통 비아 (TSV : Through Silicon Via) 기술이 필요하며, 이외에 GPU 다이와 DRAM 스택의 아래에 실리콘 인터 포저를 설치할 필요가있다. 어셈블리를 포함하여 제조 비용이 상대적으로 높다. GDDR5X도 구현이 어려운 기술이지만, HBM2에 비해 비용면에서 저렴하다. HBM2에서 얻을 수있는 대역폭과 저전력을 비용과 저울 걸면 하이미도루 GPU 이하의 제품은 GDDR5X에 정착했다는 것이다.

DRAM의 대역폭과 전송 속도

 인터페이스는 NVLink도 GP100 만의 기능이다. NVIDIA는 GP104에 SLI 기능을 갖게 칩 간 커넥터 SLI 브릿지도 쇄신했다. 그러나 SLI 인터페이스에 NVLink은 채용하지 않았다. Alben 씨는 "NVLink는 엄청난 칩 간의 대역폭을 얻을 수있다. 그러나 SLI 브릿지는 그 때까지의 대역은 필요로하지 않는다"고 설명한다. 물론 매우 빠른 인터페이스 NVLink 브릿지 사용한다는 것 자체가 어렵다는 사정도있다.

List of Articles
제목 글쓴이 날짜 조회 수
공지 PC/모바일을 제조/유통하는 업체 관계자분을 모십니다 file 가브리엘조 2015-12-15 2217
CPU/MB/RAM 고급형 메모리, 비싼 이유 있다? 없다? file [1] 잭팟 2016-06-18 1201
CPU/MB/RAM 세상은 넓고 SSD는 많다! 1부 미국편 file 잭팟 2016-06-18 1038
CPU/MB/RAM 지포스데이, GTX1080 한자리에 file 댄디보이 2016-06-11 1216
CPU/MB/RAM 인텔 24 코어 Xeon E7 v4 시리즈에 대해 알아보자 file the.100 2016-06-07 1987
CPU/MB/RAM 파스칼 지포스 (GeForce GTX1080)의 성능은 어느정도일까? file 잭팟 2016-05-30 1286
CPU/MB/RAM GP100과 GP104 아키텍처의 차이가 나타내는 NVIDIA GPU의 진화 file the.100 2016-05-28 1147
애플 아이튠즈 iTunes"v12.4 공개 file 토사랑 2016-05-24 973
CPU/MB/RAM 44 코어 88 스레드 Xeon 제온기반 cpu 출시 file 토사랑 2016-05-24 1406
CPU/MB/RAM 하이엔드급 지포스 GeForce GTX 1080 벤치마크 file 잭팟 2016-05-17 2375
CPU/MB/RAM 인터페이스 SSD M.2 속도차이 file 잭팟 2016-05-17 1911
샤오미, 6.4형 대화면 스마트폰 Mi Max 발표.. 가격은 20만원대 후반 file 평가단 2016-05-14 1085
버팔로, 하이 엔드 안테나 4x4 11ac 라우터 신제품 출시 file 잭팟 2016-05-02 1119
CPU/MB/RAM iOS / Android 전용 무선 핸디 스캐너 file 잭팟 2016-04-29 957
CPU/MB/RAM 최신 기법 베젤 채용 4K 액정 LG 모니터 file 잭팟 2016-04-18 1495
CPU/MB/RAM 인텔 CPU 전용 브로드웰 X99 찹셋 메인보드 (MSI) file 잭팟 2016-04-18 1308
아마존 킨들오아시스 듀얼 배터리 Kindle Oasis 정보 file 잭팟 2016-04-14 1330
CPU/MB/RAM 최신 Intel SSD가 등장, TLC 채용 "SSD 540s ' file 잭팟 2016-04-14 937
아이폰 (iPhone) 7 A10 칩셋 16nm 공정으로 시장 전략 file 잭팟 2016-04-08 1533
CPU/MB/RAM Intel, Altera의 FPGA "Arria 10 GX '를 1 패키지에 통합 한 Xeon file 잭팟 2016-04-08 1492
CPU/MB/RAM GPU 아키텍처 파스칼에 대해 알아보자 file 잭팟 2016-04-08 1353
CPU/MB/RAM 22코어 44스레드 Xeon E5-2600 v4 판매개시 file 잭팟 2016-04-04 1229
NVIDIA, 옵큘러스리프트와 Vive에 최적화 된 GeForce 드라이버 출시 364.72 file 잭팟 2016-03-30 950
CPU/MB/RAM LG, USB Type-C 기반의 27 인치 4K 액정 file 잭팟 2016-03-30 1508
픽셀 dpi 성능이 급성장하는 아이폰 SE와 아이패드 Pro 9.7 인치 file 댄디보이 2016-03-28 1378
CPU/MB/RAM 엔당 차세대 아키텍쳐 파스칼도 DX12의 핵심기능인 비동기식컴퓨트에 여전히 문제 댄디보이 2016-03-27 1131
서버에 요청 중입니다. 잠시만 기다려 주십시오...