[MODUPOP Seminar] Gen AI Safety & Security
이번 주제는 모두의연구소에서 주최한 [Gen AI Safety & Security] 오픈 세미나이다.
모두콘 이후로 플친이 된 나와 모두연..
요새 개인연구&프로젝트로 LLM과 프롬프트를 한창 공부하고 있었는데 이런 세미나라니!
근데 신촌과 정반대 강남캠퍼스를 저시간에 가는건 무리라 온라인 수강을 하기로 했다.
(지금 생각하니 신의 한 수임)
연구실 멤버들에게 같이듣자고 꼬시는중
일단은 나만 들은 것 같긴해 ...
아쉬움을 뒤로하고,,
오늘 주제는 휘발성이 꽤 강한 내용이라 간략히 정리만 해보려한다
목차
기업에서 LLM을 이용하기 힘든 이유이자 큰 이슈인 data leakeage 설명과 이걸 어떻게 해결하고 있나 ~
궁금해서 들어본 세미나였는데 생각보다 다른 boundary에서 다루고 있는 문제들이 많았다.
그리고 생각보다 프롬프트로 접근하는 경우가 많아서 흥미로웠다.
먼저 LLM 이전의 딥러닝 전체 분야를 아우르는 AI Risk부터 언급되었는데, 내용은 이러하다.
Classic AI Risks
- Extraction Attacks(모델, 학습에 사용된 데이터를 추출하여 가져옴)
→ Data Leakage issue - Adverserial Attacks(원본 이미지에 noise가 추가되어 AI가 전혀 다르게 인식하도록 만듦)
- Training data problems(학습 데이터 자체에 녹아있는 문제)
eg. bias, fairness, data poisoning-backdoor attack
모델에 학습된 training data를 폐기해도 딥러닝 알고리즘 자체에서 추출할 수 있는 Extraction Attacks가 바로
최근 많은 기업들이 우려하고 있는 LLM의 Data Leakage Issue와 연결된다고 할 수 있다.
Adversarial Attacks의 경우 원본 이미지에 노이즈를 살짝만 추가해도 AI 입장에서는 이미지를 완전히 다르게 인식하기 때문에 공격으로 간주되는 행위를 말한다. 예를 들면 yolo 기반 object detection 알고리즘을 방해하는 patch를 실제 물체에 부착시켜, 기업의 자율주행 시스템이나 국방 시스템에 cheating을 일으키는 공격이 될 수 있다.
다음은 Training data problem인데, 이는 학습 데이터 자체에 녹아있는 문제를 말한다.
예로는 bias, fairness, data poisoning-backdoor attack가 있다.
1) fairness의 경우 딥러닝 모델 자체가 남성과 여성의 Hiring을 판단했을 때, 순전히 데이터 기반으로 학습한 결과로서 남성을 더 우월하다고 평가하고 결과에 이를 반영하면 'Is this fair?'라는 윤리적 의문점을 갖게 된다.
2) data poisoning의 경우, 위의 adversarial의 경우처럼 데이터에 조그마한 noise가 껴도 완전 다르게 인식하는 문제점을 이용하여 이를 유발하는 trigger(트리거)를 학습 데이터에 심어놓음으로써 완전히 다른 결과를 도출하도록 학습할 수 있다.
이처럼 기존에도 존재하던 DL 문제점이 LLM의 Safety에서도 유사하게 나타난다는 점이 오늘의 main topic이다.
Gen AI Risks
- Prompt Injection
- LLM이 어떻게 행동하도록 사전에 시스템 프롬프트가 입력되어 있는데, 이를 무시하고 새로운 task를 수행하도록 유도
- 의도적으로 조작된 프롬프트를 제공하여 비정상적이거나 원치않는 출력을 생성하기도 함
- AI 모델을 기반으로 구축된 application에 대한 공격이며, 모델 자체에 대한 공격은 아님
- Jailbreaking
- Safety guardrail (eg. 성차별, 인종차별적 발언은 하면 안 됨. 등등)을 우회하도록 만든 rule을 파괴하고 해당 답변을 유도
- Trojan Attacks
- backdoor attacks과 유사
- 악의적으로 보이지 않게 코드를 삽입하여 특정 시점에 활성화시키며 트리거 방식과 유사함
LLMs can'y be trusted
- Hallucination
- Harmful Content Generation: Racism, Violence
- Private Data Leakage: 타인의 데이터를 너무 잘 기억하기 때문에 개인정보유출
- 회사 내 데이터를 가지고 LLM Training 하는 경우 자주 발생하는 문제
- System Prompt Override
등등 전체 시스템을 신뢰할 수 있어야하는데 아직 부족함
How can we solve them? LLM Safety Learning!
GPT-4는 safety에 대해 굉장히 강조하는데, 민감한 주제는 말하기를 거부하도록 만들었다.
그러나 GPT4가 safety training를 강조함에 따라 성능이 좋지 않다는 이야기를 듣고 있다.
원래 대답할 수 있는데 안하는 것이니 성능과 safety는 반비례 관계라 해석이 가능함
그렇다면, Safety Training을 어떻게 하고 있나?
[RLHF - LLM Safety Training (reinforcement Learning from Human Feedback)]
사람의 preference를 모델이 알도록 학습시키는 방법이며, 얼마나 사람에게 도움이 되며, 해가 안되는지 측정해서.
jail breaking 방법을 어느정도 섞을 경우, 어떤 말이든 결국 내뱉을 수 있다고 밝혀짐
결국 기본적인 safety measure를 갖고 있어도 우회해서 공격하는, 뚫는 방법에 대한 대비책은 미비함
더 자세한 내용은 나의 노트속에 ,,,
생성형AI는 내가 알고리즘을 뜯을 수 없으니 application 단에서 많이 파헤치고 있는데
이게 재미의 포인트인 것 같다.
오늘 하루 피곤했지만 재밌는 시간이었다.
약 두 달동안 비슷한 주제로 강의한다고 들었던 것 같은데, 다음에도 기회되면 들어야지!
세미나 인증샷으로 마무리!