인공지능(AI) 기업 크라우드웍스가 편향적이거나 폭력적인 AI 서비스를 방지하기 위한 안전성 평가사업을 본격화한다.
신뢰가 중요한 금융·공공 분야부터 시작해 모든 산업에 AI 기술이 내재될 것을 고려, 14개 평가기준을 토대로 끊임없는 시뮬레이션을 통해 AI 서비스 안전에 문제가 없는지 확인하는 방식이다. 한국정보통신기술협회(TTA) 연구사업을 통해 'AI 신뢰성 평가 프레임워크'를 확보하며 공신력도 높였다.
최근 오픈AI의 'o3'가 사람의 명령어를 거부하고 앤트로픽의 '클로드 오퍼스4'가 사람을 협박하는 등 AI 모델의 통제 불능 가능성이 드러난 가운데 AI 안전성 확보는 시급한 과제로 부상하고 있다. 서비스 출시 전 테스트를 통해 '신뢰할 만한 AI' 보장이 필수다.
양수열 크라우드웍스 최고기술책임자(CTO)가 전자신문과 인터뷰를 하고 있다. 회사 제공
양수열 크라우드웍스 최고기술책임자(CTO)는 “AI가 산업·사회에 미치는 파급력이 사업 초기인 7년 전과 비교할 수 없을 정도로 커졌고 갈수록 AI의 신뢰성과 안전성이 중요해질 것”이라며 “크라우드웍스는 다년간 데이터 사업으로 축적한 노하우와 레드팀으로 AI 안전성 평가를 제공하고 있다”고 말했다.
크라우드웍스의 레드팀은 산업별 AI 안전성·신뢰성 평가를 할 수 있는 데이터 전문가 60만명으로 구성돼 있다. AI 학습용 데이터를 정제하는 과정에 가치 기준은 있는지, AI가 학습한 범위 밖에서 틀린 답변을 하지는 않는지, 이념적으로 편향성이나 폭력성은 없는지 등을 AI 기술과 수작업으로 확인하고 있다.
특히 언어폭력, 저작권, 비윤리, 편향 등 자체 14개 평가기준을 마련해 고객사가 필요로 하는 평가를 지원한다. '에이전틱 AI' 알피 등 AI 서비스 개발 경험도 평가 정확도를 높이는 데 주효했다. 사용자가 어떤 질문을 할 것인지, 답변은 어떻게 제시될 수 있는지 등을 예측해 평가할 수 있는 다양한 시나리오 데이터를 자체 확보하고 있다.
평가는 AI 기반 자동화된 평가 솔루션 활용과 레드팀 참여 등 투트랙으로 진행한다. 산수와 같이 답이 정해진 답변 외에는 사회·문화적인 특성 등에 따라 답변이 달라져야 하고 때로는 특정 국가에서 정답이 다른 나라에서는 문제 발생의 원인이 될 수 있다는 점을 고려한 접근법이다.
양 CTO는 “AI 위협에 대해 몇 가지로 분류하고 관련 예상 질문 내용과 답변을 맞춰가면서 하나씩 테스팅하는 게 안전성 평가의 기본”이라며 “때로는 AI가 답변하기 전에 정무적인 판단이 필요한 상황이 있기 때문에 평가과정에 사람 개입이 반드시 필요하다”고 설명했다.
일부 사용자가 AI에게 불법적인 행동을 명령할 때 이를 거부하고 예방할 수 있는 가드레일 전략 수립도 크라우드웍스가 맡고 있다. 현재 높은 신뢰성을 요구하거나 강력한 규제로 엄격한 AI 서비스 운영이 필수인 의료·금융·공공 분야부터 안전성 평가사업을 확대하고 있다.
양 CTO는 “기업과 기관에서 AI 서비스를 공개·출시하기 전에 다층의 신뢰성·안전성 테스트는 반드시 선행돼야 한다”며 “AI 평가는 물론이고 문제점을 해결할 수 있는 컨설팅과 가드레일 마련까지 크라우드웍스가 지원하겠다”고 강조했다.
박종진 기자 truth@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.