본문 바로가기
728x90
반응형

IT177

[GPU / dcgmi] dcgmi 명령어로 GPU 진단 수행 안녕하세요. 이번 글에서는 GPU 서버의 GPU 디바이스를 진단하기 위해 사용하는 dcgmi 명령어를 사용하는 방법에 대해 씁니다. GPU 서버의 서비스 투입 또는 구동 전에 이 GPU 서버의 GPU 디바이스들이 정상 상태인지 확인할 필요가 있습니다. 그런 경우에 nvidia-smi를 통해서도 확인을 하지만 DCGM(Data Center GPU Manager) 유틸리티를 통해서도 추가적인 상세 진단을 할 수 있습니다. 실제 GPU 서버의 서비스 전 진단하는 프로세스 중 포함되어있는 명령어 입니다!dcgmi diag -r 3dcgmi : DCGM 명령어 도구 수행diag : GPU 진단 모드-r 3 : Level 3의 진단 모드 수행 위의 명령어를 수행하면 모든 GPU 디바이스가 정상일 경우 별다.. 2025. 4. 16.
[클라우드 / 자격증] NHN Cloud Essentials 시험 정보와 후기 / NHN Cloud 의 첫번째 클라우드 자격 인증 시험 접수방법과 난이도 안녕하세요. 이번 글에서는 NHN Cloud의 첫번째 클라우드 자격 인증 시험에 응시해서 합격했던 후기와 정보에 대해 씁니다.  1. 시험 정보[요약]시험명: NHN Cloud - Essentials응시료: 50,000응시자격: 없음유효기간: 2년학습시간: 2주난이도: 중하  NHN Cloud 의 첫번째 자격인증시험인 NHN Cloud Essential 시험을 응시하고 합격하게 되어서 시험을 준비하고 결과까지 받아온 후기에 대해 써보려합니다.  후기를 요약하자면, 다른 클라우드 서비스들의 입문 단계 시험과 난이도와 구성이 유사합니다. 예를 들어 AWS의 AWS practitioner 등급 시험과 Microsoft azure의 azure fundamentals 와 같은 선상에 놓여있습니다.저는 위의 2가지.. 2024. 12. 19.
mfc71.dll 오류 해결하기 / mfc71.dll 파일 다운로드(바이러스 절대 없음) 안녕하세요 이번 글에서는 mfc71.dll 오류가 발생했을 때,해결하는 방법과 그 해결과정에서 필요한 파일까지 다뤄보도록하겠습니다.   1. 에러 원인저는 게임 설치간에 발생했던 에러인데 단순하게 PC에 이 시스템 파일이 없어서 생기는 에러입니다. 단순하게 파일을 다운받아서 적절한 위치에 넣어주면 해결됩니다.    2. 해결방법 요즘은 거의 다 64비트 PC를 사용하니 64비트 PC를 기준으로 설명하자면 위의 디렉토리에 해당 파일을 다운받아서 넣으시면 에러는 해결이됩니다. 디렉토리 위치는 C드라이브 하위 Windows 폴더를 들어가보면 시스템 파일들이 빽빽하게 있는데 그 중에 에러를 일으키는 이름의 파일은 없는 걸 확인할 수 있습니다. 이 위치에 파일을 다운받아서 넣으면 끝납니다.      위의 파일(바.. 2024. 12. 5.
[서버 / CPU] CPU stuck error 에 대해서 1. CPU stuck error리눅스의 CPU Stuck Error는 시스템에서 CPU가 오랜 시간 동안 특정 작업이나 프로세스에 묶여 정상적으로 처리되지 못할 때 발생하는 에러이 문제는 시스템 성능 저하, 응답 지연, 또는 전체적인 시스템 중단으로 이어짐주로 커널과 관련된 문제에서 나타나지만, 여러 요인으로 인해 발생가능 2. CPU stuck error의 원인  무한 루프 (Infinite Loop): 코드나 커널 모듈에서 잘못된 루프 구조가 발생해 CPU가 탈출하지 못하는 경우.자원 고갈 (Resource Starvation): 특정 프로세스가 CPU 자원을 독점해 다른 프로세스가 실행되지 못하고 대기하는 상황.데드락 (Deadlock): 두 개 이상의 프로세스가 서로의 자원을 기다리며 교착 상태.. 2024. 11. 20.
728x90
반응형