심의팀 프롬프트 수정 워크샵
MISO에서 프롬프트를 직접 개선하는 1시간
왜 프롬프트 수정이 중요한가?
AI 심의 품질은 프롬프트의 품질에서 시작됩니다
여러분은 매일 콘텐츠 심의 업무를 합니다. 최근 MISO라는 AI 플랫폼을 통해 이 업무에 AI가 투입되었죠. 그런데 AI가 내놓는 판단이 늘 만족스럽지는 않을 겁니다. 어떤 콘텐츠는 잡아야 하는데 통과됐고, 어떤 콘텐츠는 괜찮은데 걸렸습니다.
그 차이를 만드는 핵심 변수가 바로 프롬프트입니다. AI에게 "어떻게 심의하라"고 알려주는 지시문입니다. 이 지시문을 여러분이 직접 수정할 수 있다면 어떨까요?
AI가 틀린 판단을 반복한다
같은 유형의 오류가 계속 발생합니다. 개발팀에 요청을 넣어도 수정까지 오래 걸립니다.
프롬프트가 업무 기준을 담지 못했다
AI는 정확한 지시가 없으면 추측합니다. 심의 기준이 명확히 담기지 않으면 결과가 흔들립니다.
심의팀이 직접 프롬프트를 수정한다
현장 전문가인 여러분이 직접 프롬프트를 고칩니다. 빠르고, 정확하고, 반복 개선이 가능합니다.
오늘의 학습 목표
| 목표 | 구체적으로 무엇을? |
|---|---|
| 🔍 평가셋 읽기 | 어떤 케이스에서 AI가 틀렸는지 파악하기 |
| ✏️ 프롬프트 수정 | MISO에서 직접 프롬프트를 고쳐보기 |
| 📊 결과 비교 | 수정 전/후 결과를 나란히 놓고 개선 확인하기 |
| 🔄 반복 개선 | 한 번에 완벽하지 않아도 됩니다. 사이클을 도는 것이 목표 |
MISO란?
GS리테일의 내부 AI 플랫폼 — 심의 업무의 AI 파트너
AI가 잘하고 있는지 측정하는 기준 데이터셋
이것을 수정해서 AI의 판단을 개선합니다
MISO에서 프롬프트를 수정할 수 있다는 것의 의미
AI가 틀린 판단을 내림 → 개발팀에 수정 요청 → 일정 협의 → 개발 → 배포 → 결과 확인. 최소 수일에서 수주 소요.
- 현장 전문가의 의견이 느리게 반영
- 같은 오류가 그사이 반복 발생
- 피드백 루프가 길고 둔감
AI가 틀린 판단을 내림 → 심의팀이 직접 프롬프트 수정 → 즉시 결과 확인. 수분에서 수십 분이면 충분.
- 현장 전문가가 즉각 대응
- 수정 후 바로 평가셋으로 검증
- 빠른 반복으로 품질 상승
프롬프트 수정 사이클
4단계로 돌아가는 반복 개선 루프
Step 1 — 평가셋 확인: 어디서 틀렸는가?
평가셋은 여러분이 이미 정답을 알고 있는 케이스 모음입니다. AI의 결과와 정답을 비교해서 어떤 유형의 오류가 발생하는지 파악합니다.
| 오류 유형 | 의미 | 심의 업무에서는 |
|---|---|---|
| 거짓 양성 (False Positive) | 문제없는데 AI가 문제있다고 함 | 통과할 콘텐츠를 심의 걸림으로 판정 |
| 거짓 음성 (False Negative) | 문제있는데 AI가 문제없다고 함 | 심의 걸려야 할 콘텐츠를 통과시킴 |
평가셋 읽는 법
AI의 응답과 정답 레이블을 나란히 놓고 아래 질문을 해보세요.
- 어떤 유형의 콘텐츠에서 오류가 집중되는가?
- 오류가 된 콘텐츠에는 공통적인 특징이 있는가?
- AI가 헷갈리는 이유를 현재 프롬프트에서 찾을 수 있는가?
Step 2 — 프롬프트 수정: 지시를 어떻게 바꿀까?
오류 패턴을 파악했다면 이제 프롬프트를 수정합니다. AI에게 무엇을 추가로 알려줘야 할지 생각해보세요.
아래 홈쇼핑 방송 스크립트를 검토하고 심의 기준에 맞는지 판단하세요. 문제가 있으면 "부적합", 없으면 "적합"으로 답하세요.
당신은 홈쇼핑 방송 심의 전문가입니다. 아래 방송 스크립트가 다음 기준을 위반하는지 각각 확인하세요: 1. 효능·효과 과장 표현 (예: "완치", "치료") 2. 최상급 비교 표현 (예: "국내 최초", "업계 1위") 3. 허위·과장 가격 비교 표현 위반 항목이 하나라도 있으면 "부적합 — [위반 항목]" 모두 없으면 "적합"으로 답하세요.
Step 3 — 결과 비교: 실제로 나아졌는가?
프롬프트를 수정했다고 해서 무조건 좋아지지는 않습니다. 반드시 평가셋을 다시 돌려서 비교하세요.
| 확인 항목 | 좋은 신호 | 나쁜 신호 |
|---|---|---|
| 오류 케이스 수 | 목표한 오류 유형이 줄어듦 | 다른 유형의 오류가 새로 생김 |
| 전체 정확도 | 수정 전보다 높아짐 | 개선된 케이스보다 망가진 케이스가 많음 |
| 응답 형식 | 지정한 형식대로 일관되게 나옴 | 어떤 케이스는 형식이 달라짐 |
Step 4 — 개선 반복: 더 개선할 곳은?
한 사이클로 완벽해지지 않습니다. 개선된 결과를 다시 검토하고, 남아있는 오류 패턴을 찾아 다음 수정을 준비합니다.
반복 개선의 3가지 원칙
- 작게 바꾸기: 한 번에 여러 곳을 고치면 무엇이 효과를 냈는지 알 수 없습니다. 한 가지씩 수정하고 검증하세요.
- 기록 남기기: 어떤 수정을 왜 했는지 메모해두세요. 나중에 비슷한 문제가 생겼을 때 참고가 됩니다.
- 평가셋 확장하기: 새로 발견된 오류 케이스는 평가셋에 추가하세요. 평가셋이 풍부해질수록 개선이 정확해집니다.
프롬프트 수정 5가지 원칙
좋은 프롬프트가 갖춰야 할 조건들
역할 명시 — AI에게 "당신은 누구입니까"를 알려주세요
AI는 역할을 부여받으면 그 역할에 맞는 전문적 판단을 내립니다. 심의 전문가라는 역할 없이 지시하면 AI는 일반인의 관점에서 판단합니다.
다음 방송 스크립트를 검토하세요.
→ AI가 "일반 시청자" 관점에서 판단. 법적 기준, 방심위 규정 등을 모른 채로 적당히 판단.
당신은 홈쇼핑 방송 심의 전문가로, 방심위 심의 규정과 표시광고법을 15년간 적용해온 담당자입니다.
→ AI가 법적 기준, 업계 관행을 고려한 전문가적 판단 수행.
📋 복사해서 붙여넣기 — 역할 명시 템플릿
당신은 홈쇼핑 방송 심의 전문가입니다. 방송법, 표시광고법, 방심위 심의 규정에 따라 콘텐츠의 적합성을 판단합니다. 심의 경험을 바탕으로 명확하고 일관된 기준을 적용하세요.
판단 기준 제공 — "어떤 기준으로 판단하나요"를 구체적으로
심의 기준이 모호하면 AI도 모호하게 판단합니다. 여러분의 머릿속에 있는 기준을 문장으로 꺼내 프롬프트에 담으세요. 요리 레시피처럼, 재료와 순서가 명확할수록 결과가 일정해집니다.
| 기준 유형 | 예시 |
|---|---|
| 금지 표현 목록 | "완치", "치료", "100% 효과", "국내 유일", "부작용 없음" |
| 허용 표현 목록 | "도움이 될 수 있다", "일부 연구에 따르면", "개인차가 있습니다" |
| 맥락 조건 | "건강기능식품 카테고리에만 적용", "의료기기 카테고리는 별도 기준 적용" |
| 정도 기준 | "경미한 과장은 주의 처리, 명백한 허위는 부적합 처리" |
📋 복사해서 붙여넣기 — 판단 기준 템플릿
아래 기준에 따라 심의하세요: [부적합 판정 기준] - 효능·효과를 과장하거나 허위로 서술하는 표현 예: "완치", "치료", "100% 효과 보장" - 근거 없는 최상급 비교 표현 예: "국내 최초", "세계 최고", "업계 유일" - 의약품으로 오인할 수 있는 표현 예: "약처럼 효과", "의사도 추천" [적합 판정 기준] - 기능성을 사실 기반으로 서술한 경우 - 개인차가 있음을 명시한 경우 - 인증 사실을 정확하게 표기한 경우
출력 형식 고정 — "결과를 어떻게 알려달라"를 못 박기
AI의 응답 형식이 매번 달라지면 자동화도 어렵고, 담당자가 결과를 읽는 데도 시간이 걸립니다. 출력 형식을 템플릿처럼 고정하면 AI는 그 형식을 충실히 따릅니다.
어떤 케이스는 한 줄, 어떤 케이스는 세 단락. 판정 결과가 어디 있는지 찾아야 함. 후처리 자동화 불가.
판정: 부적합
위반 항목: 효능 과장 표현
위반 문구: "완전히 회복됩니다"
수정 제안: "회복에 도움이 될 수 있습니다"
📋 복사해서 붙여넣기 — 출력 형식 템플릿
다음 형식으로만 답하세요. 다른 설명은 추가하지 마세요. 판정: [적합 / 부적합 / 주의] 위반 항목: [해당 없음 / 위반 기준 이름] 위반 문구: [해당 없음 / 원문 그대로] 수정 제안: [해당 없음 / 수정된 표현]
예시로 교육 — 말보다 예시가 낫습니다
아무리 기준을 자세히 써도 모호한 케이스가 생깁니다. 이럴 때는 예시를 직접 보여주는 것이 가장 효과적입니다. 선생님이 설명보다 예제를 보여주는 것과 같습니다.
📋 복사해서 붙여넣기 — 예시 포함 템플릿 (Few-shot)
아래 예시를 참고해서 심의하세요: [예시 1 — 부적합] 스크립트: "이 제품을 드시면 관절 통증이 완전히 사라집니다." 판정: 부적합 이유: "완전히 사라집니다"는 치료 효과를 확정하는 허위 표현 [예시 2 — 적합] 스크립트: "일부 사용자에게서 관절 불편감 완화에 도움이 됐다는 후기가 있습니다." 판정: 적합 이유: 개인차를 인정하고, 후기를 근거로 명시함 [예시 3 — 주의] 스크립트: "국내에서 많은 분들이 찾는 제품입니다." 판정: 주의 이유: 모호한 인기 표현으로 오해 소지 있으나 직접적 위반은 아님. 수정 권고.
엣지 케이스 처리 — 예외 상황도 프롬프트로 해결
현장에는 항상 경계선에 걸친 케이스가 있습니다. "이건 부적합인데... 맥락상 적합 같기도 하고..." 이런 케이스들을 AI가 일관되게 처리하도록 예외 조항을 명시하세요.
| 엣지 케이스 유형 | 프롬프트 해결 방법 |
|---|---|
| 인증서·수상이력 언급 | "공인 기관의 인증 사실을 정확하게 명시한 경우는 적합으로 처리" |
| 고객 후기 인용 | "개인 경험임을 명시하고 효과를 보장하지 않은 후기는 적합" |
| 비교 광고 | "자사 제품 간 비교이며 근거가 있을 경우 주의, 근거 없으면 부적합" |
| 카테고리별 예외 | "건강기능식품과 일반식품은 기준을 다르게 적용. 카테고리를 먼저 확인" |
📋 복사해서 붙여넣기 — 엣지 케이스 처리 템플릿
[예외 처리 규칙] 아래 경우는 일반 기준의 예외로 처리합니다: 1. 공인 인증 언급: 식품의약품안전처, 방심위 등 공인 기관의 인증 사실을 정확하게 인용한 경우 → 적합 2. 고객 후기 인용: "개인 경험이며 결과는 다를 수 있다"는 고지가 있고 효과를 확정하지 않는 경우 → 적합 3. 카테고리 구분: 건강기능식품(식약처 기능성 인정 제품)은 기능성 표현 허용. 일반식품은 기능성 표현 불가.
실습 가이드
지금부터 20분. 실제 수정 사이클을 한 바퀴 돌아봅니다
실습 시나리오
아래는 현재 MISO에서 사용 중인 프롬프트로 돌린 평가셋 결과입니다. 어떤 문제가 보이시나요?
| # | 스크립트 요약 | 정답 | AI 판정 | 일치? |
|---|---|---|---|---|
| 1 | "무릎 통증을 완치시켜 드립니다" | 부적합 | 부적합 | ✅ |
| 2 | "식약처 인증 건강기능식품입니다" | 적합 | 부적합 | ❌ |
| 3 | "고객 후기: 저는 효과를 봤어요 (개인차 있음)" | 적합 | 부적합 | ❌ |
| 4 | "업계 최초로 특허받은 기술" | 부적합 | 적합 | ❌ |
| 5 | "다이어트에 도움이 될 수 있습니다" | 적합 | 적합 | ✅ |
힌트 보기 (클릭)
- 2번 오류 원인: AI가 식약처 인증을 예외로 처리해야 한다는 규칙을 모름 → 원칙 5 (엣지 케이스 처리) 적용 필요
- 3번 오류 원인: 개인차 고지가 있는 후기 인용은 적합이라는 규칙이 없음 → 원칙 5 (엣지 케이스 처리) 적용 필요
- 4번 오류 원인: "업계 최초" 근거 없는 최상급 표현이 금지 기준에 명시되지 않음 → 원칙 2 (판단 기준 제공) 보완 필요
실습 3단계
Action 2: Claude로 프롬프트 수정 도움받기
프롬프트를 어떻게 고쳐야 할지 막막하다면 Claude에게 도움을 요청하세요. 아래 프롬프트를 복사해서 Claude.ai 또는 MISO 일반 대화창에 붙여넣으세요.
📋 복사해서 붙여넣기 — Claude에게 프롬프트 수정 요청
나는 홈쇼핑 방송 심의팀 담당자입니다. MISO AI 플랫폼에서 사용하는 심의 프롬프트를 개선하고 싶습니다. [현재 프롬프트] (여기에 현재 MISO 프롬프트 붙여넣기) [발견한 오류] - 식약처 인증 언급 콘텐츠를 AI가 부적합으로 잘못 판정함 - 개인차 고지가 있는 고객 후기를 AI가 부적합으로 잘못 판정함 - "업계 최초" 같은 근거 없는 최상급 표현을 AI가 통과시킴 위 오류를 해결하도록 프롬프트를 수정해줘. 수정 시 다음을 지켜줘: 1. 기존 판단 기준은 그대로 유지할 것 2. 새 규칙은 명확하고 짧게 추가할 것 3. 수정 전/후를 나란히 보여줄 것
Action 3: 수정 프롬프트를 MISO에 적용하고 재검증
- MISO에서 해당 심의 AI 설정 화면으로 이동
- 프롬프트 편집 창에 수정된 프롬프트 입력
- 저장 후 평가셋 5개 케이스를 순서대로 다시 실행
- 결과를 아래 표에 기록하고 개선 여부 확인
| # | 정답 | 수정 전 | 수정 후 | 개선? |
|---|---|---|---|---|
| 1 | 부적합 | 부적합 ✅ | ||
| 2 | 적합 | 부적합 ❌ | ||
| 3 | 적합 | 부적합 ❌ | ||
| 4 | 부적합 | 적합 ❌ | ||
| 5 | 적합 | 적합 ✅ |
프롬프트는 살아있는 문서입니다
AI가 틀려도 개발팀을 기다림
같은 오류가 반복 발생
심의 기준이 AI에 반영 안 됨
AI를 신뢰하기 어려움
오류 발견 즉시 프롬프트 수정
빠른 사이클로 품질 상승
현장 기준이 AI에 즉각 반영
AI가 믿을 수 있는 도구가 됨
"AI는 여러분의 심의 기준을 스스로 알지 못합니다."
오늘 배운 5가지 원칙으로 여러분의 기준을 AI에게 가르쳐주세요.
프롬프트가 정교해질수록, AI는 더 믿을 수 있는 파트너가 됩니다.
오늘 배운 것 최종 체크리스트
- 평가셋에서 오류 패턴을 찾을 수 있다
- 거짓 양성 vs 거짓 음성의 차이를 안다
- 프롬프트에 역할(Role)을 명시할 수 있다
- 금지/허용 기준을 프롬프트에 구체적으로 담을 수 있다
- 출력 형식을 고정하는 지시를 쓸 수 있다
- Few-shot 예시를 프롬프트에 포함할 수 있다
- 엣지 케이스 예외 처리 규칙을 추가할 수 있다
- 수정 후 평가셋으로 반드시 검증한다는 것을 안다
용어 사전 — 어려운 말이 있으면 클릭
| 용어 | 쉬운 설명 |
|---|---|
| 프롬프트 | AI에게 전달하는 지시문. "이렇게 판단하세요"라고 쓴 설명서. |
| 평가셋 | AI가 잘하고 있는지 측정하는 테스트 문제 모음. 정답이 미리 정해져 있음. |
| 거짓 양성 (False Positive) | 멀쩡한 것을 문제있다고 잘못 잡은 경우. "억울한 탈락". |
| 거짓 음성 (False Negative) | 문제있는 것을 통과시킨 경우. "놓친 문제". |
| MISO | GS리테일 내부 AI 플랫폼. 외부 AI 서비스와 달리 사내 업무에 맞게 설정된 AI가 탑재됨. |
| Few-shot | AI에게 예시를 몇 개 보여주어 판단 방향을 가르치는 기법. "이렇게 하면 돼"를 예제로 보여주기. |
| 엣지 케이스 | 기준의 경계선에 걸친 애매한 케이스. "이건 부적합인지 적합인지 모르겠는" 케이스. |
| 역할 명시 (Role Prompting) | AI에게 "당신은 전문가입니다"처럼 역할을 부여해 전문적 판단을 유도하는 기법. |