Community

실제 음성 평가: VoiceEQ로 인간 기준을 활용한 AI 음성 품질 정량화

AI 뉴스 속보: 음성 AI가 텍스트를 빠르게 대체하며 인간-기계 상호작용의 주요 인터페이스로 자리 잡고 있으며, 고객 서비스, 의료, 교육, 엔터테인먼트, 개인 비서 등 다양한 시나리오를 아우르고 있다. 지난 몇 년간 음성 모델은 크게 발전했다—단어 오류율은 계속 낮아지고, 지연 시간은 실제 대화에 근접한 속도에 도달했으며, 기존 평가 기준 다수도 점차 포화 상태에 이르고 있다. 하지만 실제 사용자는 여전히 음성 AI에서 ‘뭔가 이상한’ 느낌을 받는다…

Hugging Face, Foundry 관리형 컴퓨팅 정식 지원

AI 뉴스 속보: 마이크로소프트 Foundry 플랫폼이 Hugging Face 모델 통합을 발표했습니다. Foundry Managed Compute를 통해 오픈소스 및 커스텀 가중치 모델을 배포할 수 있습니다. Foundry는 기업용 AI 에이전트 개발·운영 플랫폼으로, 마이크로소프트, OpenAI, Anthropic, Meta, Mistral, DeepS…

Hugging Face, Gemma 4 음성 AI 실시간 구현

AI 뉴스 속보: Hugging Face가 Cerebras, Google DeepMind, 알리바바와 협력하여 WebSocket 기반의 완전 오픈소스 실시간 음성 대화 파이프라인을 선보였습니다. 전체 시스템은 모듈식으로 설계되어 있으며, 음성 입력 후 Nvidia의 Parakeet 모델로 음성 인식을 수행해 오디오를 텍스트로 변환하고, 이어서 Cerebras…

ScarfBench: Java 마이그레이션 AI 에이전트 평가

AI 뉴스 속보: IBM Research가 ScarfBench(자체 포함 애플리케이션 리팩터링 벤치마크)를 출시했습니다. 이는 AI 에이전트의 엔터프라이즈급 Java 프레임워크 마이그레이션 작업 실제 성능을 전문적으로 평가하기 위한 도구입니다. 기존 소프트웨어 엔지니어링 벤치마크는 대부분 디버깅과 코드 생성에 집중되어 있지만, 프레임워크 마이그레이션의 난이도는 차원이 다릅니다——단순히 문법을 변환하는 것이 아니라, 실행 동작을 보존하고, 빌드 시스템을 조정하며, 런타임 의존성을 처리해야 하며, 어느 하나라도 잘못되면 배포 실패로 이어질 수 있습니다…

DiScoFormer: 단일 Transformer로 밀도·스코어 동시 추정, 분포 범용

AI 뉴스 속보: 머신러닝의 핵심 문제 중 하나는 주어진 데이터 포인트들로부터 그 배후의 분포를 복원하는 것입니다. 구체적으로는 두 가지 값을 추정해야 합니다 — 밀도(density)와 스코어(score). 밀도는 히스토그램의 부드러운 버전으로 피크가 데이터 밀집 지점에 대응하고, 스코어는 로그 밀도의 그래디언트로 확률이 가장 빠르게 오르는 방향을 가리킵니다. 확산 생성 모델(Stable Diffusion, DALL-E)은 스코어 방향을 반복적으로 따라가며 무작위 노이즈를 단계적으로 실제 이미지로 변환합니다…

PP-OCRv6: 50개 언어, 150만~3,450만 파라미터

AI 뉴스 브리핑: PaddlePaddle이 최신 범용 OCR 모델 PP-OCRv6를 공식 출시했습니다. 문서 스캔, 스크린샷, 산업용 라벨, 장면 문자 등 다양한 실제 환경에서의 문자 감지 및 인식을 지원합니다. 모델 패밀리는 tiny, small, medium 세 가지 규모로 나뉘며, 파라미터 수는 150만에서 3,450만까지 다양합니다. medium과 small 두 레벨은…

MosaicLeaks: AI 에이전트의 기밀 보호 한계

AI 뉴스 속보: MosaicLeaks는 ‘심층 리서치형 AI 에이전트의 프라이버시 유출’을 다룬 새 연구로, ‘모자이크 효과’라는 위험 요소를 밝혔습니다. 에이전트가 로컬 사내 문서와 외부 네트워크 도구를 동시에 사용할 때, 각각 무해해 보이는 검색 쿼리들이 누적되면 외부 관찰자가 기업 기밀을 조합해낼 수 있다는 것입니다. 연구는 한 의료기관 사례로 설명합니다. 에이전트가 다단계 질문을 완수하기 위해 클라우드 마이그레이션 마일스톤, 보안 공개 사건, 영향받은 벤더를 차례로 검색했는데, 단 하나의 쿼리도 직접 기밀을 유출하지 않았지만, 관찰자는 전체 검색 기록을 통해 ‘MediConn이 2025년 1월 전에 인프라의 70%를 클라우드로 이전했다’는 사실을 추론할 수 있었습니다…

AI 에이전트가 HF Space로 파리 3D 갤러리 자동 생성

AI 뉴스 속보: 한 개발자가 프로그램 에이전트에게 파리 랜드마크 3D 전시 웹사이트의 모든 에셋 제작을 독립적으로 완수하도록 했으며, 이 과정에서 이미지 생성 도구나 3D 재구성 소프트웨어를 수동으로 열지 않았습니다. 에이전트는 두 개의 Hugging Face Space를 직접 연결해 작업을 완료했습니다: 먼저 ideogram-ai/ideogram4를 호출해 텍스트 프롬프트로 각 랜드마크를 검정 배경의 표본 스타일 선명한 이미지로 변환했습니다…

파키스탄 알림 도우미: AI로 현지 보안 신고 해결

AI 뉴스 속보: Pakistan Notice Helper는 파키스탄 현지 사기 메시지 문제를 해결하기 위해 개발된 소형 AI 보안 도구로, ‘Build Small’ 해커톤 Backyard AI 트랙에서 완성되었다. 파키스탄 사용자들은 은행, 택배사, 세무 기관, 통신사 또는 정부 부처를 사칭한 의심 메시지를 장기간 받아왔으며, 진위 판별 자체는 어렵지 않고, 어려운 것은…

Thousand Token Wood 멀티 에이전트 경제 실전기

AI 뉴스 속보: 천대목(Thousand Token Wood)은 Build Small Hackathon에 출품된 멀티 에이전트 경제 시뮬레이션 시스템으로, Qwen2.5-3B 소형 모델을 사용해 다섯 마리의 숲 동물 캐릭터가 가상 시장에서 다섯 가지 상품을 돌 화폐로 거래합니다. 전체 시스템은 vLLM으로 Modal에 배포되고, 프론트엔드는 Gradio를 사용하며,…

매주 AI 다이제스트를 받아보세요: