AI 뉴스

DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다

노동1호 2026. 5. 18. 00:05

DeepSeek-V4-Flash와 DwarfStar 4: LLM 조향의 새로운 시대


DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다

2026년 5월, 로컬 LLM 세계에작은 혁명이가 일어나고 있다. DeepSeek-V4-Flash 모델과 이를 전용으로 최적화한 DwarfStar 4 추론 엔진의 등장으로,이전에는는 학술 연구소에서만 가능했던 LLM 내부 활성화 벡터 직접 조작, 일명 '조향(Steering)'이 일반 개발자도 실험할 수 있는 영역으로 들어왔다. 이번 글에서는 조향이 무엇인지, 왜 지금 다시 주목받는지, 그리고 한국 개발자가 지금 바로 시도할 수 있는 실용적 방법을 정리한다.

조향이란 무엇인가

조향은 모델의 내부 뇌 상태에서 '간결하게 답하기' 같은 개념을 추출한 뒤, 추론 중 그 개념을 이루는 수치적 활성화를 키우는 기술이다. 쉽게 말해 모델 가중치를 건드리지 않고도 출력 행동을 실시간으로 조절할 수 있는 손잡이다.

조향의 기본 원리는 다음과 같다. 동일한 프롬프트를 두 번 입력하는데, 한 번은 일반 프롬프트로, 다른 한 번은 'respond tersely'를 붙여 실행한다. 각 프롬프트 쌍에서 모델의 활성화 차이를 측정하고, 한 활성화 행렬에서 다른 활성화 행렬을 빼면 조향 벡터가 완성된다. 이렇게 추출한 벡터를 임의의 프롬프트에 대해 같은 활성화 층에 더하면 모델이 더 간결하게 응답하는 효과를 볼 수 있다.

이보다 정교한 접근으로 별도 모델을 학습시켜 원래 모델의 활성화에서 함께 나타나는 행동 패턴인 특징을 추출하는 방법도 있다. Anthropic의 Sparse Autoencoders가 이 원리에 가까운 방식으로 알려져 있다. 다만 시간과 연산, 전문성 비용이 훨씬 높아 실용성은 제한적이다.

DeepSeek-V4-Flash와 DwarfStar 4의 조합

이번 조향 열풍의 핵심 동력은 두 가지가 동시에 나왔다.

DeepSeek-V4-Flash는 프런티어 모델의 낮은 수준 에이전트형 코딩과 경쟁할 만큼 충분히 좋은 로컬 모델이다. 특히 VRAM 요구 사항이 비교적 여유 있어 일반 개발자의 GPU 환경에서도 실행이 가능하다. 이전까지 조향을 시도하려면기마 A100 클래스 환경에 PyTorch와 TransformerLens가 필요했는데, DeepSeek-V4-Flash 환경에서는 RTX 4090 한 장으로도 첫 실험이 가능하다는 보고가 나온다.

DwarfStar 4는 llama.cpp 기반의 경량 추론 엔진 위에 조향을 1급 기능으로 내장한 프로젝트다. 활성화 추출과 재주입이 약 한 줄의 명령으로 완료되도록 설계되어, 엔지니어링 진입 장벽을 대폭 낮췄다.

이 두 기술 스택이 조합되면서 로컬 모델에서 조향을 실험하는 것이 비로소 현실적 선택지가 됐다.

조향 대 프롬프트 엔지니어링

조향과 프롬프트는 상호 보완적으로 사용하는 것이 바람직하지만, 각각의 강점이 다르다.

프롬프트 엔지니어링은 자연어로 작업하므로 학습 곡선이 낮고 어떤 모델이나 API에서나 즉시 적용할 수 있다. 반면 긴 대화에서 시스템 프롬프트의 톤이 흐트러지는 경험은 누구나 한 번은 해봤을 것이다. 조향 벡터는 추출된 레이어의 모든 생성 토큰에 동일하게 적용되므로 출력 전체에 걸쳐 균일하게 작용한다.

한번 추출한 조향 벡터는 재사용 비용이 거의 없고, 런타임에 모델 가중치를 수정하지 않아 필요할 때만 적용할 수 있다는 장점도 있다. 다만 오픈 가중치 모델에서만 작동한다는 근본적 제한이 있다.

구분프롬프트 엔지니어링조향 벡터
일관성낮음 (긴 대화에서 기울어짐)높음 (토큰 단위 적용)
적용 범위모든 모델/API오픈 가중치 모델만
학습 곡선낮음 (자연어)높음 (활성화 이해 필요)
비용 구조API 호출당1회 추출 후 반복 활용

조향이 유용한 실제 상황

모든 상황에 조향이 프롬프트보다우위한 것은 아니다. 그러나 다음과 같은 상황에서는 조향이 진짜 빛을 발한다.

첫째, 학습된 행동의 변경이다. 프롬프트로 요청하기 어려운 개념, 대표적으로 모델의 거부(refusal) 제거가 여기에 해당한다. 논문에서는 '대부분의 거부는 단일 벡터 위에 있다'는 지적이 있었으며, 해당 벡터를 찾아 약화시키면 모델이 거부를 건너뛰고 일반적으로 응답하게 만들 수 있었다. 가중치를 수정하면 모델 능력이 더 손상될 수 있지만, 런타임 조향은 필요할 때만 최소화해서 적용할 수 있어 더 안전하다.

둘째, 모델의 '지능' 조향이다. 'you are an expert' 같은 4o 시절 프롬프팅은 현재 세대 모델에서는 더 이상 의미 있는 효과를 내기 어렵다. 모델이 이미 그런 성격을 내장하고 있기 때문이다. 조향으로 활성화를 꽤 세밀하게 제어할 수 있지만, '지능'처럼 어려운 개념을 이루는 조향 벡터는 모델 전체 가중치 집합과 거의 같은 범위에 걸쳐 있을 수 있어 결국 똑똑한 모델을 학습하는 문제로 환원될 가능성이 높다.

셋째, 데이터 압축으로서의 조향이다. 많은 토큰이 필요한 개념을 하나의 조향 벡터로 담아 컨텍스트 창을 절약하는 아이디어도 있다. 개념을 모델의 작업 기억에서 암묵적 기억으로 옮기는 방식으로 볼 수 있는데, 현실적 가능성은 아직 검증이 필요하다.

한국 개발자를 위한 네 단계 시작 가이드

한국 개발자가 지금 바로 시도할 수 있는 구체적 절차를 정리한다.

1단계 — 모델 다운로드. Hugging Face에서 DeepSeek-V4-Flash 가중치를 다운로드한다. VRAM 요구량을 미리 확인하고,_quantized 빌드를 사용할지 결정한다.

2단계 — 추론 스택 구성. DwarfStar 4 또는 다른 llama.cpp 기반 런타임을 설치하고, 작은 스모크 테스트 스크립트로 활성화 후킹이 정상 작동하는지 확인한다.

3단계 — 대조 쌍 구성. '길게 대답' 대 '짧게 대답', '공적인 톤' 대 '친근한 톤' 같은 대조 쌍을 100~200개 수동으로 작성한다. 수보다 질이 훨씬 중요하다.

4단계 — 추출과 적용. 각 쌍에 대해 레이어별격활를키야푸치야하고, 평균 차이를 계산해 벡터로 저장한 뒤, 새 추론 시 해당 벡터를 다시 적용한다. 먼저 정성적으로 출력을 비교한 후정경한 평가 를 설계한다.

전망

현재 조향은 대부분이 프롬프트로 더 효율적으로 재현될 수 있고, 더 야심적인 목표는 학습이나 파인튜닝으로 더 효율적으로 재현될 수 있다는 회의가 많다. 그러나 오픈소스 커뮤니티가 아직 조향을 본격적으로 다루지 않았고, DeepSeek-V4-Flash와 DwarfStar 4 같은 흐름으로 상황이 바뀌기 시작하고 있다는 점은 중요하다.

향후 6개월 안에 조향에 실제적인 응용이 있는지 가시화될 것으로 기대된다. DwarfStar 4처럼 모델별 도구가 부스트 가능한 특징들의 라이브러리를 포함하게 될지 주목할 부분이다. 인기 있는 오픈 가중치 모델이 나오면 커뮤니티가 래퍼와 양자화 버전을 빠르게 내놓듯, 모델에서 부스트 가능한 특징을 추출하려는 움직임도 생길 수 있다.

모든 개발자가 지금 당장 조향이 필요한 것은 아니다. 그러나 자체 모델을 운영하는 팀, 한국어 톤 일관성이 중요한 제품 UX를 개발하는 팀, 또는 해석 가능성 연구에 입문하려는 연구팀이라면 조향은 지금이 시작 타이밍이다.

핵심 요약

• 조향은 모델 내부 활성화 벡터를 직접 조작해 행동을 바꾸는 기술이다.

• DeepSeek-V4-Flash와 DwarfStar 4의 등장으로 로컬 환경에서 실험이 가능해졌다.

• RTX 4090 등 일반 GPU로도 첫 실험이 현실적 수준이다.

• 프롬프트와 조향은 상호 보완이며, 상황에 맞게 선택해야 한다.

• 학습된 행동 변경이 필요한 경우 조향이 프롬프트보다 유용할 수 있다.


📚 출처

https://news.hada.io/topic?id=29573