본문 바로가기
조회 수 21 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄

7nm 공정에서 밀도가 늘어난 캐시 SRAM

 

1.jpg


AMD가 7nm 공정의 APU (Accelerated Processing Unit)를 출시합니다. CPU에서 코어와 I/O를 다른 다이로 분리하는 칩렛 전략을 썼었지만, APU는 CPU 코어, GPU 코어, I/O를 하나의 다이에 통합합니다. 그 이유는 메인스트림 클라이언트/모바일의 제조 단가와 레이턴시, 전력 사용량을 감안하면 싱글 다이 외에 대안이 없어서입니다.

 

2.jpg

 

지난글에선 AMD 코어 컴플렉스의 다이 면적을 비교했습니다. CCX의 캐시 SRAM 부분을 보면 그 내용을 알 수 있습니다. CCX에는 공유 L3 캐시가 통합됩니다. L3 캐시 SRAM 부분을 비교하면 14nm 공정으로 2MB L3 캐시 슬라이스가 4제곱mm 정도의 면적을 차지합니다. PLL 같은 걸 빼고요. 반면 7nm 4MB L3는 3.6제곱mm입니다. 다이 면적당 용량은 2배 이상입니다. 

 

3.jpg

 

L3 캐시의 레이아웃이 바뀌었다는 걸 감안해서 비교해야 합니다. 14nm AMD CCX L3는 성능 위주로 설계해, L3 캐시 슬라이스 중앙에 캐시 컨트롤과 LRU(Least Recently Used) 테이블을 배치했습니다. 캐시 컨트롤 양쪽에는 각각 1MB의 캐시 SRAM 어레이가 있습니다. 1MB의 캐시 SRAM은 중앙에 태그 RAM 영역이 있으며, 위아래에 데이터 SRAM 어레이가 배치됩니다.

 

7nm L3 캐시의 구조도 기본적으로 같습니다. 캐시 제어, 데이터 경로, LRU로 보이는 유닛을 가운데에 두고, 좌우에 SRAM 어레이를 배치합니다. SRAM 어레이는 중앙에 태그 RAM으로 보이는 유닛을 두고, 그 위아래로 나뉩니다. 그러나 14nm 버전과 비교하면 7nm 버전에서 기능 유닛의 비율이 줄어들고 데이터 SRAM 어레이의 면적이 늘어났습니다.

 

4.jpg

 

순수하게 데이터 SRAM 어레이만 비교하면 14nm에서는 0.5MB의 배열이 0.62제곱mm, 7nm에선 1MB 배열이 0.66제곱mm 정도입니다. 따라서 SRAM 어레이 부분은 50% 이상 줄어들었다고 보입니다. 확실한 결과는 아니지만 3배로 SRAM 밀도가 늘어나진 않았습니다. 삼성 14nm 공정의 HD SRAM의 비트 셀 면적은 0.064제곱μm이니, 삼성에서 라이센스를 받은 글로벌 파운드리의 14nm SRAM도 비슷할 겁니다. 이에 비해 TSMC 7nm 공정 HD SRAM의 비트 셀 면적은 0.027제곱μm입니다. SRAM 비트 셀의 면적은 42%를 차지합니다.

 

14nm 버전 CCX는 PLL과 Interface module(XI), 테스트 모듈이 L3 캐시 슬라이스에 있었으나, 7nm 버전 CCX는 L3 캐시 슬라이스 중간 영역으로 옮겨간 것으로 보입니다.

 

 

제조 비용이 비싸다면 클럭 상승이 경제적인 선택 

 

이번 APU에 탑재되는 GPU 코어는 베가 아키텍처의 확장 버전입니다. CU (Compute Unit) 수는 11개가 아니라 8개입니다. 베가 아키텍처를 쓴 이유는 설계를 시작했을 당시 완성된 아키텍처가 베가라서 그런 것으로 보입니다. 베가는 기존의 GCN (Graphics Core Next) 아키텍처며, 최신 그래픽카드의 GPU인 나비는 RDNA 아키텍처로 둘 사이는 많이 다릅니다.

 

5.jpg

 

GCN 아키텍처

 

6.jpg

 

RDNA 아키텍처

 

CU 수를 기존 APU의 11개에서 8개로 줄인 이유는 간단합니다. 웨이퍼 제조 비용이 비싸서입니다. 웨이퍼 제조 비용이 싸다면 유닛 수를 늘리고 클럭을 낮추면 됩니다. 그래도 성능이 나오니까요. 유닛 수를 늘린 만큼 다이가 커져도, 저렴하게 웨이퍼를 만들어서 성능/원가 비율을 맞출 수 있습니다. 웨이퍼 제조 비용이 비싸다면 칩에 들어가는 유닛 수를 줄여 다이 크기를 줄여야 합니다. 그래야 비싼 제조 원가가 상쇄되니까요. 대신 동작 클럭을 올려 성능을 높입니다. 그러면 성능/비용의 비율을 높일 수 있습니다. 

 

실제 AMD APU의 경우 7nm GPU 코어의 클럭은 최고 1.75GHz입니다. 8개의 CU라면 GPU 컴퓨팅 성능이 1.79TFLOPS입니다. 14nm GPU 코어의 동작 클럭은 최대 1.4GHz에 유닛 수는 11개였습니다. 그럼 GPU 컴퓨팅 성능은 1.97GFLOPS가 됩니다. 7nm의 8 CU 구성은 다이 면적을 줄였어도 연산 성능은 충분하다 할 수 있겠습니다. 

 

그럼 GPU 코어가 제조 비용에 얼마나 영향을 줄까요? 이건 GPU 코어의 다이 영역에 영향을 받습니다. GPU 마이크로 아키텍처는 높은 클럭을 뽑아내기 위해, 대대적인 수정을 거쳤을 가능성이 낮습니다. AMD GPU 아키텍처에서 레이턴시 변경은 스레드 스케줄링에 영향을 주니, 파이프라인 스테이지를 바꾸기도 어렵습니다. 따라서 7nm 공정 APU에서 그래픽 클럭 향상은 순수하게 공정 기술에서 비롯된 것이라 생각됩니다. 

 

여기서 핵심은 GPU 코어 설계에 사용하는 표준 셀입니다. 작고 밀도가 높은 로직 셀을 사용하면 다이 면적은 줄어들지만 클럭도 떨어집니다. 상대적으로 큰 로직 셀을 사용하면 다이 면적은 줄어들지 않으나 동작 클럭은 올리기 쉽습니다. AMD는 7nm 그래픽카드 GPU, 내장 그래픽의 GPU 모두 클럭을 올리는데 유리한 로직 셀을 선택한 듯 합니다.

 

7.jpg

 

14nm 젠 기반 APU인 레이븐 릿지의 다이에서 4코어의 CPU CCX와 GPU의 11개 유닛의 GPU가 보입니다. GPU 코어는 파란색으로 표시한 CU 부분 외에 렌더링 백엔드와 스레드 컨트롤 캐시 등의 주변 유닛도 있으나 여기서는 잘 보이지 않습니다.

 

8.jpg

 

렌더링 백엔드의 컨트롤 유닛의 크기를 기존 GPU를 토대로 추측하면 이렇습니다. 레이븐 릿지의 다이 크기는 209제곱mm, 그 중 4코어 CPU CCX 면적은 39제곱mm, GPU 코어는 11개의 CU (Compute Unit)가 45제곱mm 정도. 렌더 백엔드나 컨트롤 등의 주변 로직과 캐시를 포함하면 60제곱mm나 그 이하로 떨어진다고 추측됩니다. CPU 코어와 GPU 코어 외의 다이 부분은 아마 110제곱mm 정도가 될 겁니다.

 

 

메모리 대역폭의 균형 때문에 확장이 제한되는 현재의 GPU 코어


그럼 7nm 공정에서는 어떻게 될까요. 만약 7nm GPU 코어가 14nm 코어 대비 50%로 영역이 줄어들고, CU가 11개에서 8로 감소한다고 가정하면 이런 추측이 가능합니다. 7nm APU 르누아르의 전체 다이 크기는 150제곱mm 미만, 4코어 CCX가 2개니까 CPU 코어 크기는 42제곱mm, GPU 코어가 8 CU 구성이니 20제곱mm를 조금 넘는다고 보입니다. 코어 부분의 면적은 전체 입에서 40% 초반 수준을 차지합니다. 14nm APU는 CPU+GPU 코어 면적이 전체의 47%였습니다.

 

150제곱mm의 다이에 이 모든 걸 넣으려면 이런 유닛 구성이 됩니다. 만약 GPU의 CU 수를 11개로 늘린다면 어떨까요? 렌더 백엔드 비율을 유지한다면 다이 크기가 150제곱mm 후반입니다. 어떻게 150제곱mm까지는 맞출 수 있습니다. 하지만 메모리 대역폭 문제가 남아 있습니다. 

 

9.jpg


11개의 CU가 1.75GHz로 구동하면 GPU 컴퓨팅 성능은 2.46TFLOPS까지 올라갑니다. 그만큼 데이터가 오가며 메모리 대역폭도 넓어야 합니다. 모바일 LPDDR4 4,266Gbps라면 대충 맞출 수 있으나 가격이 올라갑니다. GPU를 내장한 CPU의 메모리 대역폭 문제는 HBM처럼 패키지 않에 넣는 메모리의 가격이 저렴해져야 해결됩니다. 그러나 지금은 HBM의 가격이 너무 비쌉니다.

 

이게 현재 APU의 딜레마입니다. 인텔은 EMIB (Embedded Multi-die Interconnect Bridge)를 통해 HBM과 패키징 비용을 줄여 해결하려 합니다. AMD는 아직 해결책을 공개하지 않았습니다. 현재 내장 그래픽에는 이 대역폭 문제가 있어 GPU 연산 성능만 올리기 어렵습니다. 메모리 대역폭이 부족하면 데이터를 처리하지 못해, 기껏 늘린 연산 성능을 제대로 발휘하지 못합니다. 그래서 AMD가 8 CU에 머무른 것도 이해는 됩니다.

 

 

AMD가 저성능 구성을 쓰지 않은 이유

 

그럼 CPU 코어를 8개에서 4개로 줄이고, GPU 코어의 CU를 8개로 고정하면 어떻게 될까요? 이 경우 130제곱mm 정도의 다이가 나옵니다. 이쯤 되면 제조 비용을 많이 줄일 수 있으나 AMD는 이 방법을 쓰지 못합니다. 왜냐면 저가형 CPU에서 재미를 보지 못했거든요.

 

AMD가 저성능/저가형 CPU/APU를 만들면 인텔 하이엔드 제품과 경쟁하기 어렵습니다. 그럼 인텔은 하이엔드 제품을 비싸게 팔면서 AMD와 경쟁할 보급형 제품의 가격을 전략적으로 인하할 겁니다. 그럼 AMD는 고부가가치 제품을 갖추지 못한채로 보급형 제품에서도 큰 수익을 내지 못합니다. 지금 AMD는 인텔과 성능으로 경쟁하고, 여기에서 제조 비용을 절감하는 방식으로 대응하고 있습니다. 

 

그렇다면 CPU 코어를 8개가 아닌 6개로 하면 어떨까요? 이것도 불가능합니다. AMD의 CCX는 4개 CPU 코어의 클러스터에 최적화됐거든요. AMD 젠 계열 CPU 코어는 4개가 하나의 단위로 묶입니다. 그럼 2개의 CCX를 모바일 프로세서에 넣기 위해 다시 설계해야 하며, 그만큼 디자인에 시간과 노력을 소모합니다. 

 

고성능 다이와 저가형 다이의 두 가지를 만드는 방법도 있지만 이것도 어렵습니다. 현재 첨단 공정은 제조 비용이 올랐을 뿐만 아니라 설계와 마스크 비용도 치솟았습니다. 다양한 종류의 다이를 만들면 부담이 그만큼 늘어납니다. 따라서 AMD는 고성능 설계 하나만 선택했을 수밖에 없다고 보입니다. 

 

10.jpg

 

라이젠 4000의 다이  

 

 

https://pc.watch.impress.co.jp/docs/column/kaigai/1231518.html


List of Articles
번호 제목 글쓴이 조회 수
공지 자유게시판은 어떤글이든 상관없습니다. 자유롭게~ 가브리엘조 10385
인기글 오늘까지는 시원하네요 2 익명_14265813 47
인기글 건마도 중독되네요 2 익명_14259515 93
2184 구내염 미치겠습니다 new 익명_74521522 3
» 7nm 공정에 최적화 된 AMD 라이젠 4000 익명_98552156 21
2182 라이젠 프로 4000G 시리즈의 가격, 400 시리즈 칩셋에서 지원 안함 익명_34993449 21
2181 데스크탑 르누아르. AMD 라이젠 프로 4000G 시리즈 익명_32344807 32
2180 건마도 중독되네요 2 익명_14259515 93
2179 비빔국수 양념장 만드는 방법...쩝 먹고싶다 file 익명_07017713 23
2178 헬스장에서 크로스핏 file 익명_82338829 35
2177 오늘까지는 시원하네요 2 익명_14265813 47
2176 큰 삼촌 돌아가신 날 익명_87730310 57
2175 컴잘알 형님들 "3RSYS R400 화이트 강화유리" 이 케이스에 GTX960그래픽 카드 장착 가능할까요??.. 2 익명_93980968 57
2174 아이폰se2 자급제로 블랙 질렀습니다 1 익명_69574078 288
2173 금연성공...그러나 익명_72703783 23
2172 따끈따끈한 라이젠 3 3100 , 3300x 포함된 컴퓨리의 5월 신상 추천 견적 1 익명_35171440 34
2171 이젠3 3100, 라이젠3 3300X 성능, 벤치, 게임테스트 및 인텔 I3 9100F, I5 9400F 비교 1 file 익명_60119984 87
2170 인터넷에 자주보이는 동일본대지진 한국 기부금 누락의 진실에 관해서입니다. 2 file 익명_59883848 104
2169 MSI 노트북 오류질문 file 익명_13804515 37
2168 컴퓨터 견적꿀팁 1 file 익명_28305396 67
2167 저작권프리 무료BGM, 효과음사이트들 익명_78014977 134
2166 한겨울인데 발열억제도 안되는 아이피타임 공유기...쓰레기인정 2 익명_93456411 64
2165 마스크 구하기 힘드네요 2 익명_24118484 47
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 110 Next
/ 110
서버에 요청 중입니다. 잠시만 기다려 주십시오...