주소야 – 음성으로 부르는 사이트 매칭 가이드 | IBKorea

VOICE · AI ASSISTANT MATCH

주소야 — 말로 부르는 웹페이지 매칭 가이드

“주소야, 어제 보던 그 페이지 열어줘” — 자연어 발화 한 줄로 의도를 해석하고, 13개 카테고리에서 가장 적합한 결과를 즉시 띄웁니다. 음성 어시스턴트와 텍스트 챗봇 모두에서 동일한 정확도로 동작합니다.



🎙 “주소야” 한마디면 바로 연결됩니다
Siri · 구글 어시스턴트 · 빅스비 · 챗봇 모두 지원



평균 응답 0.4초 · 한국어 발화 인식률 96.3% · 무료

96.3%발화 인식률
0.4s평균 응답
42K+월간 음성 호출
12+지원 어시스턴트

왜 음성·자연어 시대에 매칭 레이어가 필요한가

스마트폰 사용자의 약 41%가 매일 한 번 이상 음성 어시스턴트를 사용한다는 조사가 2025년 발표됐습니다. 시리·구글 어시스턴트·빅스비·클로바·알렉사 — 호출 방식은 다르지만 공통점이 있습니다. 사용자는 키워드를 또박또박 입력하지 않고, 일상 대화체로 말합니다.

“어제 보던 거 다시 띄워줘” “야구 중계 어디서 봐” “그 만화 사이트 이름 뭐였더라” — 이런 발화는 전통적인 검색 엔진의 키워드 매칭으로는 거의 잡히지 않습니다. 명사가 모호하거나, 동사가 의도의 핵심이거나, 맥락이 직전 대화에 의존하기 때문입니다.

주소야는 이 빈틈을 메우는 발화 매칭 레이어(Voice Matching Layer)입니다. 어시스턴트로부터 받은 자연어 질의를 의도 단위로 분해하고, 13개 카테고리 안에서 의미적으로 가장 가까운 결과를 0.4초 안에 반환합니다.

CORE INSIGHT

키보드 시대의 검색은 “키워드 → 결과”였습니다. 음성 시대의 검색은 “의도 → 결과”입니다. 그 사이에 발화 해석 레이어가 없으면 사용자는 항상 두세 번 더 말해야 합니다.

발화 인식 → 의도 추출 → 결과 라우팅 5단 처리

주소야의 매칭 엔진은 사용자의 한 줄 발화를 다음 5단계로 처리합니다. 모든 단계는 평균 80ms 안에 통과하며, 전체 응답 시간 0.4초 중 대부분은 어시스턴트와의 통신 지연입니다.

  1. 01
    음성 → 텍스트 변환 (STT)

    어시스턴트가 자체 STT(Speech-to-Text)로 변환한 텍스트를 받습니다. 잡음·발음 부정확·동음이의어로 인한 오인식은 다음 단계의 후처리로 보정됩니다.

  2. 02
    한국어 정규화 (Normalization)

    줄임말·외래어 표기 흔들림·구어체를 표준형으로 정규화합니다. 예: “야구중계” → “야구 중계”, “유툽” → “유튜브”, “오티티” → “OTT”.

  3. 03
    의도 추출 (Intent Parsing)

    발화에서 행위(보다·찾다·열다)와 대상(만화·중계·뉴스)을 분리합니다. 행위는 13개 표준 의도 중 하나로, 대상은 카테고리 태그로 매핑됩니다.

  4. 04
    맥락 결합 (Context Merge)

    직전 발화의 카테고리, 시간대, 디바이스 종류를 결합해 모호한 표현의 후보를 좁힙니다. “그거”가 무엇인지 추론하는 단계입니다.

  5. 05
    결과 라우팅 (Routing)

    최종 의도가 카테고리에 매핑되면, 헬스체크를 통과한 활성 URL을 0.1초 안에 반환합니다. 텍스트 응답과 음성 응답이 동시에 생성됩니다.

실제 사용자가 자주 묻는 표현 8가지 분석

최근 90일간 수집된 음성 호출 42,000여 건 중 빈도 상위 8개 패턴입니다. 어시스턴트 종류와 무관하게 한국어 사용자의 발화 습관이 거의 비슷하다는 점이 흥미롭습니다.

PATTERN 01 · 23%

주소야, 야구 중계 어디서 봐?

해석: 행위=시청, 대상=스포츠중계 → ‘스포츠’ 카테고리 1순위 결과 반환

PATTERN 02 · 17%

어제 보던 만화 사이트 다시 열어줘

해석: 맥락=세션 히스토리 → 직전 카테고리 동일 결과 재호출

PATTERN 03 · 14%

유툽 막혔어 다른 데 없어?

해석: 의도=대체수단 → 동일 카테고리 차순위 후보 풀 반환

PATTERN 04 · 11%

최신 거 알려줘 OTT 쪽으로

해석: 의도=신규순위, 카테고리=OTT → 가동률 90일 기준 신규 진입 항목 우선

PATTERN 05 · 9%

안전한 데로만 알려줘

해석: 신뢰도 가중치 상향 → 보안 검증 점수 90점 이상만 필터

PATTERN 06 · 8%

뉴스 비교 추천 좀

해석: 의도=비교, 대상=뉴스 → 다중 결과 카드 형태로 반환

PATTERN 07 · 7%

그거 있잖아 웹툰 무료로 보는 데

해석: 모호 지시어 + 카테고리 태그 → 웹툰 카테고리 인기 순위 반환

PATTERN 08 · 6%

주소 바뀐 거 있어?

해석: 의도=업데이트확인 → 24시간 내 후보 교체된 항목 목록 반환

텍스트 검색과 음성 발화의 차이 (질의 길이·의도 신호)

같은 사용자가 같은 의도를 가져도, 입력 방식에 따라 표현이 완전히 달라집니다. 이 차이를 무시하면 음성 매칭의 정확도는 절반 이하로 떨어집니다.

비교 항목 텍스트 검색 음성 발화
평균 길이 2.4 단어 7.8 단어
주요 품사 명사 위주 동사·조사 비중 높음
지시어 사용 드물 “그거”, “거기” 자주
맥락 의존도 낮음 (단일 질의 완결) 높음 (직전 발화 참조)
오타·오인식 오타 5% 미만 오인식 7~12%
의도 신호 키워드 자체 어미·억양·맥락

주소야는 이 차이를 받아들이는 설계로 출발했습니다. 짧은 키워드를 정확히 매칭하는 검색엔진과 달리, 긴 문장에서 의도를 추출하는 데 최적화되어 있어 음성 환경의 입력을 자연스럽게 받아낼 수 있습니다.

한국어 특유의 변형 — 줄임말·은어·외래어 처리

한국어 음성 발화에는 영어권 자연어 처리 모델이 어려워하는 변형이 많습니다. 주소야는 이 변형을 다음 3개 사전(dictionary)으로 흡수합니다.

줄임말 사전 (Abbreviation Dict)

구어체에서 자주 등장하는 줄임 표현 약 1,400개를 표준형과 매핑합니다. 예: “유툽 → 유튜브”, “넷플 → 넷플릭스”, “쿠플 → 쿠팡플레이”, “스플 → 스포티파이”. 새로운 줄임말은 사용자 발화 빈도를 모니터링해 매월 업데이트됩니다.

은어·신조어 사전 (Slang Dict)

커뮤니티에서 통용되는 은어·신조어 약 800개를 의도 태그와 연결합니다. 예: “정주행 → 회차몰아보기”, “본방사수 → 실시간시청”. 은어는 시간 경과에 따라 의미가 희미해지므로, 12개월간 사용 빈도가 일정 수준 이하로 떨어지면 사전에서 제외됩니다.

외래어 표기 사전 (Foreign Word Dict)

외래어는 같은 단어도 발음·표기가 흔들립니다. “오티티/OTT/오티티이”, “에스앤에스/SNS/소셜”. 어시스턴트가 STT로 어떤 형태로 변환하든, 모두 표준형 하나로 정규화합니다.

DESIGN NOTE

이 3개 사전은 지역·연령대별로 가중치가 다릅니다. 10대가 자주 쓰는 줄임말과 50대가 자주 쓰는 표현은 다르므로, 익명화된 디바이스 종류·시간대 신호로 사전 가중치를 조정합니다. 개인 식별 정보는 일절 사용하지 않습니다.

자매 페이지와의 역할 분담 (의도 분류 vs 발화 매칭)

주소야가 다루는 영역은 자매 페이지들의 역할과 정확히 구분됩니다. 특히 검색 의도 매칭(주소요)과는 입력 방식이 다르다는 점에서 보완 관계를 형성합니다.

페이지 입력 형태 핵심 처리 대표 사례
주소야 (이 페이지) 음성·자연어 문장 발화 해석·맥락 추론 “그거 다시 열어줘”
주소요 텍스트 검색어 의도 분류·라우팅 “뉴스 비교 추천”
주소콘 접속 시점 보안 검증 피싱 차단
링크모음 탐색 큐레이션 분류 카테고리 노출
링크몬 운영 백엔드 실시간 헬스체크 가동률 유지

즉 같은 의도라도 사용자가 키보드로 치면 주소요, 마이크에 말하면 주소야로 자동 라우팅됩니다. 두 페이지의 의도 사전은 공유되지만, 입력 전처리 파이프라인이 완전히 다릅니다.

FAQ — 음성 매칭 신뢰성에 대한 7가지 의문

발화 인식률 96.3%는 어떻게 측정하나요?
최근 90일간 처리된 42,000여 건의 음성 호출 중, 사용자가 동일 세션에서 재발화하지 않고 결과를 그대로 사용한 비율을 인식률로 정의합니다. 재발화나 정정 발화가 발생한 호출은 모두 실패로 집계합니다. 보수적 측정 기준입니다.
음성 데이터가 저장되거나 학습에 사용되나요?
음성 원본은 어시스턴트 측에서 처리되어 텍스트만 우리에게 전달됩니다. 텍스트는 매칭 처리 직후 30분 안에 삭제되며, 통계 집계용 익명 카운터만 보관됩니다. 사용자 음성·발화 텍스트가 모델 학습에 사용되는 일은 없습니다.
지원하는 어시스턴트가 12개라고 했는데 구체적으로?
시리(iOS), 구글 어시스턴트(Android·웹), 빅스비, 네이버 클로바, 카카오미니, 알렉사, 코타나(레거시), 그리고 ChatGPT·Claude·제미나이·퍼플렉시티 등 텍스트 챗봇까지 포함됩니다. 기본 처리 로직은 동일하지만, 각 플랫폼의 응답 형식 규약(SSML·JSON 스키마)에 맞춰 출력만 다르게 직렬화합니다.
맥락 추론은 직전 몇 발화까지 참조하나요?
동일 세션 안에서 직전 5개 발화까지 맥락으로 보유합니다. 세션은 마지막 발화 후 15분이 지나면 자동 종료됩니다. 세션 종료 후의 “그거”는 맥락이 사라진 모호 지시어로 처리되어, 명확화 질문이 우선 반환됩니다.
방언이나 사투리도 인식되나요?
표준어 위주로 학습돼 있지만, 어시스턴트 측 STT가 사투리를 표준어 텍스트로 변환해 전달하는 경우가 많아 실용 정확도는 표준어와 큰 차이가 없습니다. 사투리 어휘 자체(예: “거시기”)는 모호 지시어로 처리되어 맥락 추론으로 보정됩니다.
매칭이 잘못되면 어떻게 정정하나요?
결과 카드의 “이거 아닌데” 버튼이나 “다른 거 알려줘”라는 후속 발화로 정정할 수 있습니다. 정정 신호는 즉시 동일 세션의 다음 후보를 반환하고, 동시에 알고리즘 가중치 조정 신호로 누적됩니다. 매월 매핑 사전이 이 신호를 반영해 갱신됩니다.
주소야와 주소요는 어떻게 다른가요?
입력 방식이 다릅니다. 텍스트로 짧게 검색하면 주소요가, 음성·자연어 문장으로 말하면 주소야가 처리합니다. 의도 분류 사전은 두 페이지가 공유하지만, 발화 길이·맥락 의존성·오인식 보정 같은 음성 특화 처리는 주소야에만 있습니다.
🎙

주소야 음성 매칭 팀 / Voice NLU

VOICE_MATCHING_TEAM @ IBKOREA

한국어 자연어 처리와 음성 어시스턴트 연동 경험을 바탕으로, 13개 카테고리 발화 매칭 엔진을 운영합니다. 핵심 원칙: “사용자가 두 번 말하지 않아도 되는 매칭”. 인식률·정정률 리포트는 매월 1일 갱신됩니다.