Published on2026년 2월 26일BentoML+KServe GPU 롤링배포 실패 해결법aiBentoML로 패키징한 GPU 모델을 KServe로 롤링 배포할 때 자주 터지는 준비 상태 실패, GPU 점유 충돌, OOM, 트래픽 절체 지연을 원인별로 분해하고 재현·진단·해결까지 한 번에 정리합니다.Read more
Published on2026년 2월 25일CoT 막기? JSON만 출력시키는 프롬프트 가드aiLLM이 설명(Chain-of-Thought)을 길게 노출하거나 형식을 깨는 문제를 줄이기 위해, JSON 전용 출력 가드 프롬프트를 설계하는 방법을 정리합니다. 실패 패턴과 방어 레이어, 검증·재시도까지 실전 예제로 다룹니다.Read more
Published on2026년 2월 25일PyTorch 2.1 PTQ로 INT8 경량화 - 정확도 유지aiPyTorch 2.1에서 PTQ(Post-Training Quantization)로 INT8 경량화를 적용해 지연시간·메모리를 줄이면서 정확도를 최대한 유지하는 실전 절차를 정리합니다.Read more
Published on2026년 2월 25일systemd 서비스 무한 재시작 원인과 journalctl 추적aisystemd 서비스가 무한 재시작되는 대표 원인을 정리하고, journalctl과 systemctl로 재현-추적-수정까지 이어지는 실전 진단 흐름을 소개합니다.Read more
Published on2026년 2월 24일Anthropic Claude 429 Rate Limit 실무 재시도 패턴aiClaude 호출에서 429 Rate Limit가 터질 때, 무작정 재시도하면 더 악화됩니다. 헤더 기반 대기, 지터 백오프, 요청 합치기·큐잉까지 실무에서 재현 가능한 재시도 설계를 정리합니다.Read more