본문 바로가기
조회 수 53 추천 수 0 댓글 0
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
Extra Form
링크 https://pc.watch.impress.co.jp/docs/colu...36258.html

1.jpg

 

ISSCC 2020에서 AMD가 시연한 젠 2 프로세서의 액체 질소 쿨링 벤치마크.

 

AMD는 차세대 마이크로 프로세서인 젠2 CPU 코어 기술과 칩렛 기술을 반도체 회로 기술의 국제학회인 ISSCC 2020에서 발표했습니다. 2020년 2월 17일의 발표는 2개의 강연으로 구성됐는데, 우선 CPU 코어 기술을 설명하고 그 다음에 칩렛 기술을 설명했습니다. 

 

2.jpg

 

CPU 코어 기술 강연의 내용부터 보지요. 2세대 젠 마이크로 아키텍처인 젠2는 모바일, 데스크탑, 서버까지를 모두 포함합니다. 구체적으로는 노트북용 마이크로 프로세서인 라이젠 4000 시리즈, 데스크탑용 프로세서인 3세대 라이젠, HEDT용 프로세서인 3세대 라이젠 프로세서, 서버용 프로세서인 2세대 에픽이 젠2 아키텍처를 사용합니다.

 

 

7nm 세대의 FinFET 기술을 이용해 복잡한 대규모 회로를 탑재

 

3.jpg


젠2 프로세서는 7nm 공정을 처음으로 도입했습니다. TSMC의 7nm FinFET 공정으로 제조하면서 트랜지스터 밀도가 늘었습니다. 덕분에 복잡하면서도 강력한 분기 예측 장치인 TAGE를 탑재하고, 캐시 용량을 늘리고, 부동소수점 데이터 경로 폭을 2배로 확장했습니다. 모두 연산 성능 향상에 기여하는 특징입니다. SPECint_base2006로 측정한 싱글 스레드의 IPC는 젠과 비교해서 15% 정도 올랐다고 합니다.  

 

또 마이크로 프로세서를 여러 다이로 나누는 칩렛 기술을 사용했습니다. CPU 코어 다이와 I/O 다이를 여럿 사용해 1개의 마이크로 프로세서를 만듭니다. 칩렛 기술에 대해선 아래에서 다시 설명합니다. 

 

4.jpg

 

 

CPU 코어 이야기로 돌아갑시다. CPU 코어는 32KB의 명령어 캐시와 32KB의 데이터 캐시, 512KB의 L2 캐시, 마이크로 코드 저장용 ROM, 클럭/테스트 회로(CPL : Chip Pervasive Logic), 디코딩 회로, 분기 예측 회로, ALU 로드/스토어 회로 등으로 구성됩니다.

 

5.jpg


온 칩 캐시는 16MB L3 캐시를 4개의 CPU 코어가 공유합니다. 용량은 젠의 2배입니다. L3 캐시 SRAM 매크로 셀 어레이 주변에 LDO(Low Drop Out) 전압 레귤레이터를 넣어, L2와 L3 캐시 모두에 안정적으로 전원을 공급합니다.

재하고 있으며, 2 차 캐시와 L3 캐시 모두에 안정적인 전원을 공급한다.


6.jpg


1개의 CPU 코어 클러스터는 4개의 CPU 코어와 L3 캐시로 구성됩니다. 이것을 AMD는 CCX(Core Complex)라고 부릅니다.

 

7.jpg

 

이 CPU 클러스터는 1가지로 정해진 게 아니라 용도에 따라 구성을 바꿉니다. 2개의 CPU 코어로 구성된 버전과 L3 캐시를 4MB로 줄인 버전, 2개의 CCX를 하나의 실리콘 다이에 집적한 버전이 있습니다.

 

 

8.jpg


정리해 봅시다. 젠이 14nm FinFET 공정으로 제조한 반면, 젠2는 7nm FinFET로 제조 기술을 미세화했습니다. CPU 코어 클러스터 CCX가 4코어에 더블 슬레딩인건 같습니다. CCX의 실리콘 면적은 젠이 44제곱mm에 젠2는 31.3제곱mm로 0.71배로 줄었습니다. 

 

9.jpg

 

L2 캐시 용량은 512KB를 유지합니다. L3 캐시 용량은 젠의 8MB에서 젠2의 16MB로 두배가 됐습니다. 로직의 표준 셀 라이브러리는 젠이 10.5트랙이었는데 젠2는 6트랙으로 절반 수준이 됐습니다. 이건 매우 큰 변화입니다. 

 

 

낮은 표준 셀로 매크로 레이아웃 설계를 더 쉽게

 

이제 CCX의 레이아웃 설계를 봅시다. CCX 같은 고밀도/대규모 논리 회로 레이아웃은 결코 간단하지 않습니다. 가장 문제가 되는 건 여러 줄에 걸쳐있는 큰 매크로 레이아웃입니다. 규모가 큰 매크로는 전력 효율과 밀도가 우수한 레이아웃을 배치하기 어렵습니다. 

 

그래서 CCX는 로직을 설계할 때 작은 매크로를 다수 배치하는 식으로 로직을 구성했습니다. 이렇게 하면 대규모 매크로에 비해 전력 효율과 밀도는 떨어지지만 레이아웃 디자인은 매우 쉽습니다. 레이아웃 설계 부담과 시간을 줄일 수 있습니다. 표준 셀 높이를 10.5트랙에서 6트랙으로 낮추고, 제조 기술을 14nm에서 7nm로 미세화했는데도 CCX 면적이 0.71배 줄어든데 그친 것도 매크로 소형화에 들어간 부분이 적지 않아 보입니다. 

 

10.jpg

 

왼쪽이 기존 레이아웃으로 빈 공간을 쓰기 어렵습니다. 오른쪽은 이번의 레이아웃인데 매크로 규모가 작아 가득 채울 수 있었습니다. 

 


사다리 모양의 VIA로 배선 저항을 줄이고 신뢰성을 향상

 

11.jpg

 

배선 경로가 휘어지지 않도록 설게했습니다. 배선층은 무조건 평행, 인접 배선과의 연결은 수직 방향의 점퍼를 통해 이루어집니다. 

 

 

12.jpg

 

하부 층의 배선 저항을 낮추고 일렉트로 마이그레이션 수명을 확보하기 위해 상하 배선층을 연결하는 VIA를 사다리 모양으로 배치했습니다. 아래에 MX-1, MX, MX+1이 있다고 가정하면 MX-1과 MX+1은 같은 방향을 향한 평행 배선입니다. MX-1/MX+1과 MX는 다수의 Via로 연결됩니다. 이 때 MX-1은 위의 2개층과 Via 저항을 낮추고 전자 이동 수명을 늘리는데 사용합니다. 

 

 

 

소비 전력을 좌우하는 클럭 당 스위칭 용량

 

13.jpg


MOS FET의 로직 회로에 걸리는 부하는 기본적으로 정전 용량(캐패시턴스)입니다. MOS FET 스위칭에 의한 충/방전 부하 용량의 크기가 동적 전력을 결정합니다. AMD는 이를 CAC(Capacitance per Cycle)라고 부르며, CAC를 줄이는 연구도 진행 중입니다. 14nm에서 7nm로 미세화하면서 표준 셀을 10.5트랙에서 6트랙으로 낮춘 게 CAC를 줄이는 데 효과를 봤습니다. 일부 애플리케이션에서 CAC를 비교한 결과, 젠에서 젠2로 오면서 CAC가 60~70%로 줄었습니다.

 

 

클럭이 같을 때 소비 전력은 젠의 절반으로 감소

 

14.jpg

 

그리고 젠2는 클럭을 유지하면서 소비 전력을 젠의 절반으로 줄일 수 있었습니다. 클럭 구동에 필요한 전원 전압도 줄었다고 합니다. 구체적으로 얼마나 줄었는지는 말하지 않았습니다. 

 

15.jpg

 

4코어 8스레드의 클럭/전력

 

16.jpg

 

싱글코어 듀얼스레드에서 클럭과 전압

 

17.jpg

 

15W의 노트북 프로세서부터 280W의 서버 프로세서까지 커버하는 젠2 아키텍처

 

 


제조 비용 증가를 막기 위한 칩렛 기술

 

다음은 칩렛 기술의 강연입니다. 칩렛 기술은 원래 싱글 다이로 만들 수 있는 프로세서나 SoC를 여러개의 다이(칩렛)으로 나눠 서로 연결하는 기술입니다. 젠2 아키텍처의 프로세서는 서버용 에픽, HEDT 라이젠 스레드리퍼, 데스크탑용 라이젠에서 칩렛 기술을 썼습니다. CCD(CPU Compute Die 혹은 Core Complex Die)라 부르는 CPU 코어 다이와 IOD(IO Die)라는 입출력 회로 다이의 결합입니다.

 

18.jpg

 

 

CCD는 용도에 따라 다이의 수가 달라집니다. IOD는 기본적인 구성의 서버용 IOD와, 거기서 구성을 줄인 클라이언트 IOD가 있습니다. 용도별로 실리콘 다이를 설계하고 제조하는 게 아니라, 칩렛의 조합으로 다양한 용도에 맞춥니다. 이렇게 해서 실리콘 설계의 부담을 줄여줍니다. 

 

19.jpg

 

CPU 코어가 탑재된 CCD는 7nm FinFET, IOD는 14nm FinFET로 제조합니다. 둘 다 7nm를 쓰지 않은 이유는 가격 때문입니다. 250제곱mm의 다이를 45nm 공정으로 제조하는 비용이 1이라고 가정하면 14/16nm에서는 2, 즉 두 배가 됩니다. 7nm는 4, 5nm에서는 5로 증가합니다. 제조 비용의 상승을 막기 위해선 다이의 면적을 줄이거나 웨이퍼 크기를 키우는 방법밖에 없습니다. 현재 웨이퍼는 300mm며, 450mm로 늘리는 방안을 검토 중이나 실용화는 아직입니다. 그럼 남는 건 실리콘 다이 면적의 축소 뿐입니다. 

 

20.jpg

 

젠 아키텍처 기반의 라이젠 프로세서는 14nm FinFET 공정으로 만들었습니다. 실리콘 면적은 212.97제곱mm입니다. 8개의 CPU 코어와 L3 캐시가 실리콘 면적의 56%를 차지하며, 이걸 7nm로 줄이면 실리콘 면적이 대폭 줄어듭니다. 하지만 나머지 44%는 7nm로 미세화해도 회로 밀도/성능이 크게 향상되지 않습니다. 공정 미세화의 의미가 별로 없습니다.

 

21.jpg

 

그래서 8개의 CPU 코어와 L3 캐시로 구성된 CCD 칩렛으로 분할해 7nm 공정으로 제조했습니다. 위에서 설명한 CCX를 2개 탑재하고 칩렛 사이의 연결 인터페이스(SerDes 회로)와 테스트 회로를 추가한 게 CCD입니다. 그 면적은 74제곱mm로 매우 작습니다. CPU 코어와 L3 캐시가 실리콘 면적의 86%를 차지합니다. 

 


칩렛 기술에서 해결해야 할 문제: 다이 사이의 연결

 

22.jpg


칩렛 기술의 큰 문제는 다이 사이의 연결입니다. 연결 배선의 수가 엄청나며, 초고속 신호를 전송해야 합니다. 이런 문제를 잘 해결할 수 있는 방법은 실리콘 인터포저입니다. 고밀도 배선을 형성하고, 다이 사이의 거리를 줄여 빠르게 전송이 가능합니다.

 

23.jpg

 

하지만 실리콘 인터포저는 비쌉니다. AMD는 CCD를 최대 8개 쓴다고 가정하며 실리콘 인터포저를 도입하지 않았습니다. 대신 칩렛을 패키지 기판에 올리고, 다이 사이를 SerDes 링크(IFOP (Infinity Fabric On-Package)로 연결하는 방법을 썼습니다.

 

24.jpg

 

8개의 CCD와 1개의 서버 IOD를 패키징한 배선 레이아웃과 내부 블록

 

25.jpg

 

서버용 프로세서인 2세대 에픽(왼쪽)과 데스크탑 프로세서인 3세대 라이젠(오른쪽)의 패키지 레이아웃. 오른쪽은 칩렛과 기판을 연결하는 범프를 썼습니다. 14nm에서는 150μm 피치, 7nm에서는 130μm 피치의 범프를 사용합니다. 또 7nm에서는 범프에 구리 필러를 넣어 일렉트로 마이그레이션을 억제했습니다.

 

 

칩렛 기술의 제조 비용은 거대 다이의 절반 수준

 

26.jpg

 

마지막으로 칩렛 기술을 사용한 7nm 공정의 제조 비용입니다. 8개의 CCD를 탑재한 64코어의 2세대 에픽 프로세서를 제조하는데 들어가는 비용이 1이라고 가정합시다. 칩렛으로 32코어 프로세서를 만든다면 0.9가 필요하나, 단일 실리콘이라면 1.9로 2배 이상 늘어납니다. 16코어에서도 가격 차이가 2배 이하입니다. 

 

27.jpg

 

데스크탑 프로세서의 비교입니다. 2개의 CCD를 탑재한 16코어 3세대 라이젠 프로세서가 1이라면, 7nm의 거대 다이는 2배 이상 비쌉니다. 8코어 프로세서는 0.6이 되는데 거대 다이는 0.9밖에 안됩니다. 칩렛이 훨씬 쌉니다. 


하드웨어포럼

토론게시판

List of Articles
분류 제목 글쓴이 조회 수 최근 수정일
정보글 시게이트 20TB HAMR 하드디스크, 14TB 듀얼 액추에이터 하드디스크 2 file 회원_78446382 19 20.05.18
일반/잡담 AMD 라이젠 3 3300X 개인적인 의견 1 회원_43385531 54 20.05.08
일반/잡담 라이젠 7 4800H의 긱벤치 성능 file 회원_15535856 193 20.03.04
일반/잡담 i9 9900 ES(9900t ES 보다 상위) 스테핑 QQZ5 설치 후기 4 file 회원_62423225 246 20.05.18
정보글 6/7/8세대 코어 프로세서 지원 H310C 메인보드 file 회원_85616903 31 20.03.04
정보글 AMD 젠 2 CPU 코어의 실제 모습이 공개 file 회원_68061640 69 20.03.04
일반/잡담 (루머) "자체 칩 탑재 맥 온다" 애플·인텔 결별설 '솔솔' 회원_80030158 18 20.03.04
정보글 코어 i9-10980HK의 긱벤치 성능, 8코어 16스레드 구성 file 회원_39062239 87 20.03.04
일반/잡담 코어 i9-10900K, 코어 i7-10700K의 실물 사진 file 회원_25634927 88 20.03.04
정보글 암페어 알트라 80코어 N1 프로세서 file 회원_91501374 10 20.03.04
일반/잡담 지포스 RTX 슈퍼를 탑재한 노트북의 성능 file 회원_74632330 18 20.03.04
일반/잡담 최초의 USB4 컨트롤러 발표, 속도는 절반인 20Gbps file 회원_85565834 21 20.03.04
일반/잡담 이젠 5 4600H, 라이젠 7 4800H의 3D마크 성능 회원_68993253 476 20.03.04
일반/잡담 a3004ns-m 와이파이 먹통, 인터넷 끊김현상 자체적으로 해결했습니다. 회원_71486434 230 20.02.29
일반/잡담 최근 iptime 공유기 와이파이 끊김 또는 내부랜끊김 문제에 대해 회원_97034001 125 20.02.29
하드웨어팁 라이젠PC 저렴하게 맞추는 팁, 가격대 별 추천스펙 file 회원_14096484 46 20.02.24
정보글 인텔 10세대 코어 프로세서에 F 시리즈 종류에 대해 알아보자 file 회원_65546938 69 20.02.22
정보글 AMD 젠 2 프로세서의 CPU 코어와 칩렛 기술 file 회원_30957359 53 20.02.22
정보글 인텔 10코어 코멧레이크 S의 실물 사진 file 회원_82515794 54 20.02.17
정보글 코멧레이크-S CPU 상세정보 포착 file 회원_41123425 44 20.02.17
일반/잡담 긱벤치 5에서 라이젠 7 4800HS와 코어 i7-9750H 비교 file 회원_33489688 198 20.02.17
일반/잡담 B550 칩셋 메인보드 실물 등장 file 회원_84802127 62 20.02.17
일반/잡담 라이젠 7 4800U, 코어 i7-1065G7보다 더 높은 3D마크 점수 회원_39447951 63 20.02.17
일반/잡담 NVIDIA 7nm GPU는 TSMC/삼성 공동 생산 회원_52754673 17 20.02.17
일반/잡담 AMD 라이젠 4000 시리즈 모바일 프로세서와 스레드리퍼 3990X의 스펙 file 회원_76130477 54 20.02.17
정보글 AMD의 신비로운 APU, 혹시 차세대 Xbox용? file 회원_49942790 61 20.02.02
정보글 라즈베리 파이 4 32bit vs 64bit 벤치마크. file 회원_08653107 76 20.02.02
Board Pagination Prev 1 2 3 4 5 6 7 8 9 10 ... 69 Next
/ 69
서버에 요청 중입니다. 잠시만 기다려 주십시오...