728x90

프롬프트 비식별화

ChatGPT 민감정보 유출
- 4.7%의 직원이 ChatGPT 민감 정보 입력 경험
- 직원이 입력하는 데이터의 11%가 민감 정보
- 내부정보, 소스코드, 고객 데이터, 개인정보, 건강정보, 프로젝트 계획 등
- ChatGPT와 같이 외부로 데이터를 반출, 저장하는 경우 유출의 우려 존재
비식별화: 식별자 제거를 통해 개인 식별, 추론을 방지하는 것
- 식별자: 개인을 식벼할 수 있는 정보(1:1 대응이 가능한 모든 정보)
  - 예) 이름, 주민번호, 이메일, 계좌번호, MRI 사진 등
- 준식별자: 다른 데이터와의 결합을 통해 개인을 추론할 수 있는 정보
  - 예) 거주 도시, 몸무게, 혈액형 등
프롬프트 비식별화 과정
- 식별자 인식 -> 비식별화 -> 프롬프팅 -> 원상복구
- 1. 입력 프롬프트에서 개인을 특정할 수 있는 식별자 감지
- 1. 식별자를 마스킹하거나, 다르 의미 없는 내용으로 치환
- 1. 비식별화된 입력 프롬프트로 프롬프팅 수행
- 1. 프롬프팅의 결과로부터 식별자를 원상으로 복구

개체명 인식(Named Entity Recognition)
- 텍스트에서 사람의 이름, 기관, 지명 등 이름있는 개체를 찾아내는 것
- KoELECTRA 언어모델을 활용한 개체명 인식
- Pytorch, HuggingFace Transformers 라이브러리 활용
개체명 인식 기반 식별자 마스킹
- 개체명 인식 결과를 바탕으로 식별자 마스킹
- 마스킹된 문장으로 ChatGPT 번역 수행
- 번역된 문장의 마스크 원상 복구
- 마스킹 된 단어들에 대해 추가적인 처리 가능

728x90

[생성형 AI] 애플리케이션 개발을 위한 생성AI 활용 프로세스 이해하기 (6)	2024.11.11
[생성형 AI] 미드저니, AI IMAGE (9)	2024.11.11
[생성형 AI] 프롬프트 관련 확장 프로그램 (5)	2024.11.09
[생성형 AI] 프롬프트 엔지니어링 테크닉 (4)	2024.11.09
[생성형 AI] 프롬프트 엔지니어링 (2)	2024.10.30

해모해모의 공부이야기