본문 바로가기
출처링크 : http://pc.watch.impress.co.jp/docs/colum...52893.html 

TSMC의 CoWoS 기술을 사용하여 HBM2을 패키지에 통합

 NVIDIA는 지난 주 미국 산호세에서 주최 한 'GTC (GPU Technology Conference)'에서 차세대 GPU "Pascal (파스칼)"의 HBM (High Bandwidth Memory) 2에 대한 개요를 밝혔다. 메모리 대역폭은 720GB / sec (ECC Error Correcting Code)도 지원된다.

 HBM은 고성능 그래픽으로는 GDDR5의 후속 메모리 기술이다. 매우 넓은 메모리 인터페이스를 사용하여 초 광대역 메모리를 실현한다. HBM 계 메모리는 Through Silicon Via (TSV) 기술과 마이크로 범프 기술을 사용하여 DRAM 다이를 적층한다. DRAM 다이의 최하층에는 베스다이가 배치되어 베스다이와 각 DRAM 다이와 DRAM 다이 끼리는 TSV와 마이크로 범프에서 수직 연결된다.

메모리 및 패키지 "CoWoS with HBM2"고 기술되어있다

중앙 NVIDIA 로고 다이가 GPU 그 주위의 4 개의 모듈이 4 대를 막힌 HBM2 
 

 Pascal GP100는 GPU 다이 베스다이는 TSMC의 "CoWoS (Chip-On-Wafer-On-Substrate) '기술을 통해 연결된다. CoWoS는 TSV 실리콘 인터 포저를 사용하여 복수의 제 1 패키지에 통합하는 기술이다. GPU와 HBM 모듈 간의 데이터 버스는 024-bit 폭. 128-bit 폭의 채널을 8 채널 묶은 인터페이스가있다. GP100은 총 4 모듈을 연결하기위한 데이터 버스는 총 4,096-bit된다. 메모리 채널은 총 32 채널 (슈 드 메모리 채널에서 64)가된다.

SK hynix는 GTC (GPU Technology Conference) 전시장에서 HBM을 전시

 

GTC의 회장 인 San Jose McEnery Convention Center

AMD의 HBM1에 이어 NVIDIA는 2 세대 HBM2를 채용

 HBM은 AMD의 Radeon R9 Fury (Fiji)가 지난해 (2015 년) 여름에 처음으로 채용했다. Fiji가 채용 한 것은 1 세대 HBM1. 반면 NVIDIA가 GP100에서 사용하는 것은 2 세대 HBM2이다. 모두 HBM 4 모듈 사용 인터페이스는 096-bit 폭. 그러나 Fiji의 HBM1는 전송 속도가 1Gbps에서 512GB / sec의 메모리 대역 인 반면, GP100의 HBM2는 1.44Gbps에서 720GB / sec의 메모리 대역을 실현하고있다.

메모리의 전송 속도와 대역폭의 차트 
 

 Maxwell 기반의 Tesla M40 (GM200), Kepler의 Tesla K40 (GK110) 모두 GDDR5 메모리 대역폭은 288GB / sec. GP100의 메모리 대역은 2.5 배가된다. 같은 GM200에도 그래픽 용 제품의 "GeForce GTX Titan X '는 336GB / sec의 대역이므로 Tesla P100은 약 2.14 배가된다.

 그러나 HBM은 대역뿐만 아니라 대역폭 당 에너지가 작다는 장점도있다. GDDR5는 비트 당 에너지가 18 ~ 22pj (피코 모듈, pj / bit) 인 반면, HBM은 6 ~ 7pj / bit. 따라서 대역을 펼쳐도 전력은 억제된다. 즉, HBM 아니면 그냥 광대역을 일정한 전력으로 얻을 수 없다.

 

 

더 넓은 메모리 대역폭 버전의 GP100의 등장 가능성도

 HBM2는 스펙에서 2Gbps의 전송 속도까지 가능하다. 선별하면 2Gbps 이상에서도 작동 가능하다고한다. 따라서 향후 GP100 계 제품에서는 메모리 대역폭은 더 벌어 질 것으로 보인다. 지금까지의 예에서는 Tesla 시스템은 메모리의 안정적인 동작을 중시하기 때문에 GeForce 계열보다 메모리 전송 속도가 낮게 설정되어있다. GP100의 그래픽 용 GeForce 버전에서는 같은 GP100에도 메모리 전송 속도가 향상 될 수있다.

HBM 아키텍처

 HBM은 베스다이과 그 위에 적층 된 DRAM 다이로 구성된 모듈로 제공된다. DRAM 다이 스택은 2-hi (2 대), 4-hi (4 대), 8-hi (8 대)의 3 가지 종류로 제공된다. HBM2는 1 대당 2 채널 또는 4 채널. 따라서 2 채널에서 4 채널에서도 동일한 피크 대역폭을 제공한다. 8 다이 스택의 경우는 2 순위 구성된다.

 HBM1는 SK hynix 만 제조하고 다이 당 DRAM의 용량은 2G-bit이었다. 따라서 4 개의 다이를 스택하여 4-Hi 스택을 4 모듈 사용 Fiji의 메모리 용량은 4GB이었다. 반면 HBM2는 칩 당 DRAM의 표준 용량 8G-bit된다. Tesla P100은 4 개의 DRAM 다이의 4-Hi 스택을 사용하고있다. 메모리 용량은 4-Hi 스택을 4 모듈에서 16GB. 향후 등장 할 것이다, 8 대 8-Hi 스택 버전의 경우 32GB가된다. 그래픽은 이만큼의 용량은 잔인하지만 HBM2 자체는 2 대에서도 동일한 메모리 대역폭을 유지할 수있다. 8GB의 저비용 구성도 가능하다.

2G-bit의 HBM1와 8G-bit의 HBM2 용량의 차이 

실리콘 인터 포저를 사용 새로운 패키징 기술

 HBM2와 GPU는 아래의 그림과 같이 접속기에 타고있다. 그림에서 실리콘 경력과 보인 것이 그 것이다. 실리콘 경력은 TSV 기술을 사용하고 있으며, 다이는 웨이퍼 신 닝 (wafer thinning) 과정에서 박막화되어있다. 실리콘 캐리어의 윗면은 마이크로 범프로 GPU와 HBM에 밑면은 C4 범프로 기판과 연결한다.

GP100과 HBM2의 단면도

TSMC의 CoWoS 기술

 위의 단면 사진의 왼쪽이 HBM2 스택이다. 최하층의 가로로 긴 대화가 기반 로직 다이이다. 그 위에 3 층으로되어있는 것이 HBM2의 DRAM 다이. 4 층째의 DRAM 다이는 위의 스페이서와 붙어 있기 때문에 구별 할 수 없다. 스페이서에 의해 HBM의 적층 다이 수가 몇 장이라도 같은 720um 두께에 정렬된다.

Samsung 의한 스택의 단면 사진

다이 스택 수에 관계없이 스페이서에 의해 모듈의 높이가 720μm으로 가지런 히

이 단면도에서 상단의 다이가 스페이서와 접하고있는 것을 알 수있다

생산이 시작한지 얼마 안된 HBM2가 GP100의 출하량을 결정

 이번에 발표 된 Tesla P100 (GP100)는 Samsung의 HBM2을 사용하고있다. Samsung는 올해 (2016 년) 전반에서 HBM2의 양산을 시작하고있다. 그러나 신 DRAM의 양산은 일반적으로 제한된 양으로 시작하여 학습 곡선이 높아짐에 따라 볼륨을 늘려 간다. 이번에는 이외에 TSV 스태킹이기 때문에 "known good stacked die (KGSD)"의 제조 공정을 확립 해 나갈 필요도있다. 있는 JEDEC 관계자는 HBM2가 높은 볼륨에서 사용할 수있게되는 것은 2017 년에 들어 와서, 그리고 이전 말하고 있었다. Samsung가 앞당겨 양산을 진행하고 있지만 원래는 HBM2 출하량은 어느 정도 제한 될 것으로 예상된다.

 GP100를 생산하는 TSMC의 16nm FinFET 공정 자체는 이미 양산에서 어느 정도의 시간이 지났고 제조 리스크가 작다. 반면 HBM2 빠듯한 타이밍에 채용되고있다. 그래서인지 GTC의 키 노트 연설에서, NVIDIA의 Jen-Hsun Huang (젠슨 황) 씨 (Co-founder, President and CEO)의 설명도 다음과 같은 것이었다.

 "(Tesla P100의) 제조 지금 행하고있다."즉시 "출하 할 것이다. 처음에는 클라우드 용으로 제공 한 후 내년 1 분기까지는 OEM에서 출하된다."

Tesla P100은 내년 (2017 년)에서 OEM에서 제공되는

 Tesla P100은 올해 (2016 년) 가득은 한정된 고객들된다. 아마도 Tesla P100의 발목을 잡는 물질이 HBM2의 양산이다. HBM2은 2 순위에서 8-Hi 스택도 가능하지만, 32GB 메모리 버전의 GP100 보드의 제공은 내년 (2017 년)이 될 것이다.

젠슨 황 (Jen-Hsun Huang) 공동 설립자 겸 CEO)

총 32 메모리 채널을 제어하는 8 개의 메모리 컨트롤러

 HBM 표준은 각 스택마다 024-bit 인터페이스에서 128-bit 채널 8 채널 포함한다. HBM2는 128-bit의 채널을 더욱 분할하여 두 개의 스 드 채널 (pseudo channels)로 사용할 수있다. GP100은 4 개의 HBM2 스택을 사용한다. 따라서 메모리 채널 32 채널 64 슈 드 채널이된다.

 반면 GP100의 메모리 컨트롤러는 총 8 컨트롤러. 각 컨트롤러는 4 채널 또는 8 스 드 채널의 채널을 제어하게된다. 즉, 2 개의 메모리 컨트롤러 1 개 HBM2 스택을 제어하고있다. 이 구성에서 HBM2 다 메모리 채널을 효율적으로 제어 할 수 있는지 여부는 실제 칩이 나올 때까지는 아직 모르겠다.

스택 당 8 채널 / 16 슈 드 채널

2 개의 메모리 컨트롤러가 1 스택을 제어하는

ECC 프리를 실현하는 1Gbits의 엑스트라 비트를 탑재

 Tesla P100은 ECC (Error Correcting Code) 자유를 구가하고있다. 온칩 메모리 ECC는 물론, 외부 메모리의 ECC도 성능 및 용량의 페널티없이 실현할 수 있다는 뜻이다. 사실 이것도 HBM2 기능을 통해 실현되고있다.

 GDDR5는 ECC에는 비용이 필요했다. GDDR5는 ECC 지원을 위해 메모리 용량의 일부를 ECC bits에 할애해야만했다. NVIDIA에 따르면, GK110 Kepler GPU에서 12GB GDDR5 메모리의 경우 6.25 % 인 750MB를 ECC에 할애했다. GDDR5는 ECC를위한 엑스트라 다이는 탑재하지 않은 때문이다. 또한 ECC bits 액세스를 위해 메모리 대역폭도 다소 먹히는하게된다.

 그런데 HBM2은 옵션에서 ECC를 지원한다. HBM2의 DRAM 다이는 Samsung와 SK hynix 함께 표준 용량이 8Gbits이다. 그러나 모두 ECC 지원을 위해 추가 1Gbits 분의 메모리를 탑재하고있다. 따라서 ECC를 사용하더라도 8Gbit에서 용량이 깎인 없다. 기존의 DRAM처럼 ECC bits 분의 다이를 늘리는 것은 HBM 아키텍처는 어렵고, 또한 GDDR5처럼 용량을 깎는 것도 피하고 싶었다위한 것으로 보인다.

Samsung는 9Gbits 다이에 탑재하고있다

SK hynix의 HBM2 스펙. 각 다이는 1Gbits의 ECC 셀을 포함 9Gbits이 구현되어있는

NVIDIA도 12.5 %의 ECC 용량을 HBM2에 갖게라고 설명하고있다

 또한 HBM2에서는 ECC bits 액세스하여 메모리 대역폭도 깎일 수 없다. JEDEC 표준에서는 HBM2에서는 각 채널의 데이터 버스는 128-bit 폭이지만 ECC를 사용하는 경우 각 채널에 16-bit의 ECC 체크 비트 액세스 버스가 사용된다. 메인 데이터 버스는 사용하지 않으므로 데이터 대역폭은 유지된다.

 JEDEC의 HBM 규격은 원래 AMD와 SK hynix가 중심이되어 책정했다. 그러나 HBM2에서 NVIDIA와 Intel이 개발에 적극적으로 참가하고 양사가 원하는 기능을 담았다. ECC 기능도 NVIDIA가 강하게 원했던 기능이었다고한다. HBM1을 보았다 NVIDIA는 HBM2에서 채용했다. 그러나 HBM2와 Pascal 타이밍은 실제로 약간 어긋나있다. 당분간은, NVIDIA는 HBM2의 공급에 고통을 것 같다.

List of Articles
번호 제목 글쓴이 날짜 추천 수 조회 수
» NVIDIA가 차세대 GPU "Pascal"의 HBM2 아키텍처 정보 file 잭팟 2016-04-14   1718
453 노트북 배터리 수명체크 방법 WTY-BatInfo 프로그램 file 댄디보이 2016-03-30 2 2723
452 Stylus2 LG-F720L 출시했는데 코어M은 뭘까나요 file [1] 댄디보이 2016-03-13   2000
451 정보 DVI, RGB 정의 및 종류와 최대해상도에 관한 내용 file 잭팟 2016-03-13   2208
450 정보 엔비디아 파스칼 지포스 GTX1080 가격 라인업 file 릴레이 2016-03-12   2678
449 정보 GTX980과 290X의 엄청난 차이 file the.100 2016-03-11   1468
448 잡담 스마트폰 VR에 대한 생각 잭팟 2016-03-11   818
447 X5570과 i3 3220 성능 비교 file 가리엔 2016-03-09   1466
446 정보 스카이레이크 제온. '짭제온'의 명성을 이어갈 수 있을까 file 댄디보이 2016-03-07   2883
445 gtx690 듀얼 gpu 슬라이는 램이 반쪽짜리군요 [1] 굿모닝 2016-02-21   1294
444 정보 cpu 정상, 비정상 테스트 프로그램 Intel Processor Diagnostic Tool (인텔 프로세서 진단 도구) file 가브리엘조 2016-02-17 2 4533
443 정보 메인보드 Z170, H170, H110, B170, Q150, Q170 차이점은 무엇일까 가브리엘조 2016-02-12   8939
442 팬티엄 4405U 시피유 성능이 꽤 좋군요 file 댄디보이 2016-02-11   9628
441 AMD 크림슨 드라이버 사용하시는분들 꼭 읽어보세요!! [1] 라이진 2016-02-03   1314
440 정보 NVIDIA 최초의 그래픽카드 GPU 제품NV1 file 댄디보이 2016-01-30   1368
439 일반 gt730 이엠텍 ddr5 쓸만하네요.. [1] 평가단 2016-01-30   851
438 정보 E3-1280V5 부터 E3-1275V5 프로세서 제원비교하기 file [1] 평가단 2016-01-24   1819
437 잡담 드뎌 인텔 제온 E3 시리즈가 나왔군요. 호호홀 file [3] 평가단 2016-01-24   1404
436 정보 옵큘러스 리프트 터치 VR 체험관련글 (Oculus Touch) file [1] 김말이님 2016-01-24 1 1833
435 정보 2015~2016년도 CPU 쿨러 베스트 (전세계에서 극찬을 받은 7가지 제품) file [1] 가리엔 2016-01-24   2280
434 정보 샌디스크의 200GB microSDXC 카드 가격하락 file 가리엔 2016-01-24   950
433 정보 삼성 SSD 850 evo 영상 및 스펙 [1] 잭팟 2015-12-17   1035
432 정보 [나만 몰랐던 IT이야기] 내 PC 백신은 정상일까? file 잭팟 2015-11-29   1125
431 정보 스카이레이크 USB로 에즈락,기가바이트 메인보드 윈도우7 설치하는 방법 file 잭팟 2015-11-29   3679
430 정보 DDR4-4000 메모리가 출시됐네요 file [2] 가브리엘조 2015-11-08   1332
서버에 요청 중입니다. 잠시만 기다려 주십시오...