태블로 AI 환각(Hallucinations)을 방지하는 데이터 원본 네이밍 가이드 (Pulse & Copilot)
태블로 환경에 Tableau Pulse나 Einstein Copilot 같은 AI 기능을 도입한 후, 사용자의 질문에 AI가 엉뚱한 데이터를 가져와 답변하는 '환각(Hallucinations)' 현상으로 고민하는 관리자분들이 많습니다.
이러한 AI 환각의 가장 큰 원인은 화려한 대시보드 화면 뒤에 가려진 '정리되지 않은 데이터 패널(Data Pane)'에 있습니다. AI는 화면에 그려진 차트가 아니라, 좌측 데이터 패널에 있는 텍스트(필드명) 자체를 읽고 데이터를 분석하기 때문입니다. 성공적인 Pulse & Copilot 도입과 데이터 거버넌스 확립을 위해, 데이터 원본에 적용해야 할 네이밍 가이드를 소개합니다.
1. 약어와 내부 은어 피하기 (풀네임 사용)
개발자 편의를 위해 데이터베이스에서 쓰던 TXN_AMT나 CUST_ID 같은 컬럼명을 그대로 방치하면 대형 언어 모델(LLM)은 심각한 혼란을 겪습니다. AI가 해당 필드의 내재된 의미를 정확하게 매핑할 수 있도록, 축약된 단어나 기계어보다는 누구나 이해할 수 있는 비즈니스 언어(풀네임)로 데이터 원본의 별칭을 수정해야 합니다.
- 권장 (풀네임):
Total_Sales(총 매출),Customer_ID(고객 번호) - 비권장 (약어/기계어):
tmp_sales,TXN_AMT
2. 필드 속성의 명시적 표현
데이터가 날짜인지, 참/거짓을 나타내는 논리값인지 이름의 맨 앞에 명시하여 AI가 데이터의 성격을 즉시 파악할 수 있도록 돕습니다.
- 날짜 필드:
Date_접두사를 사용합니다. (예:Date_Order,Date_First_Purchase) - 논리값(Boolean) 필드:
Is_또는Has_접두사를 사용합니다. 단순히Active라고 명명하기보다Is_Active_User라고 지어주면, 이것이 활성 사용자 여부를 판별하는 참/거짓 기준임을 AI에게 명확히 전달할 수 있습니다.
3. 불필요한 버전 표기 및 군더더기 제거 (미사용 필드 숨기기)
데이터를 가공하다 보면 필드명 뒤에 버전이나 임시 상태를 붙이는 경우가 많습니다(calc_rev_01, 임시_매출_백업 등). 이러한 꼬리표가 남아있으면, AI는 수많은 차원과 측정값 중 어떤 것을 우선시하여 분석해야 할지 혼동하게 됩니다.
- 권장:
Total_Revenue - 비권장:
Revenue_Data_Final_v3
사용되지 않는 중간 산출물이나 원본 DB의 불필요한 컬럼은 과감히 숨기기(Hide) 처리하여, AI가 분석에 활용할 최종 필드만 가장 깔끔한 상태로 남겨두어야 합니다.
4. 메타데이터의 보고, '기본 속성 ➔ 설명' 활용
이곳에 "이 필드는 부가세가 제외된 순수 매출입니다"와 같은 구체적인 데이터 사전을 입력해 두면, AI가 데이터를 올바르게 해석하고 사용자에게 정확한 답변을 제공하는 가장 강력한 지식 기반(Knowledge Base)이 됩니다.
체계적인 데이터 원본 명명 규칙은 단순한 텍스트 정리가 아닙니다. 다가오는 AI 에이전트 시대에 데이터의 무결성을 담보하고, 조직이 신뢰할 수 있는 분석 환경을 구축하는 첫걸음입니다. 지금 바로 서버에 공유된 '게시된 데이터 원본(Published Data Source)'의 필드명부터 점검해 보시기 바랍니다.