EVA-Bench Data 2.0 평가 기준 출시: 3대 영역·121개 도구·213개 테스트 시나리오
AI 뉴스 속보: 원문 요약 내용이 비어 있어 요약할 수 있는 텍스트가 없습니다. 원문 요약을 붙여넣으시면 바로 처리하겠습니다.
AI 뉴스 속보: 원문 요약 내용이 비어 있어 요약할 수 있는 텍스트가 없습니다. 원문 요약을 붙여넣으시면 바로 처리하겠습니다.
AI 뉴스 속보: 【영문 원문】란이 비어 있어 요약할 영문 콘텐츠를 받지 못했습니다. 원문 붙여넣기를 잊으신 건가요? 아니면 해당 HuggingFace 블로그 URL 페이지 내용을 직접 가져와서 요약해 드릴까요?…
AI 뉴스 속보: NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’(Task-Seeded SDG) 5단계 프로세스: lm-eval-harness에서 약 70개 공개 태스크(약 700개 서브태스크)를 선정해 지식 집약형(39개 태스크, 약 300만 건)과 추론 집약형(34개 태스크, 약 150만 건) 두 종류의 시드로 분류하고, 대형 언어 모델로 내용은 다르지만 동등한 능력의 QA 쌍을 생성한 뒤 추론 체인과 도메인 지식을 추가해 통합 필터링·패키징한다. 에이블레이션 실험에서 컨텍스트를 추가한 버전이 압도적으로 우세했다: GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44. 이 합성 데이터를 Nemotron-3 Nano의 후기 학습(100B 토큰 규모)에 혼합한 결과, GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 능력 +1.9, 상식 이해 +1.6으로 다양한 차원이 동시에 향상되어, 폭넓은 태스크 커버리지가 단일 평가 스타일 과적합 방지에 효과적임을 검증했다. 핵심 설계 원칙: 답변은 선택지 코드가 아닌 의미론적 텍스트로 저장해야 하며, 데이터셋 혼합 시 각 태스크 비율을 신중히 균형 있게 조정해야 지식·추론·코드 능력이 전반적으로 안정적으로 향상된다.
AI 뉴스 속보: IBM Research 연구 발표 — 기업 AI 규모화 정착의 핵심은 더 큰 LLM이 아닌 ‘에이전트 로직(Agent Logic)‘에 있습니다. 지식 그래프, 프로그램 정적 분석, 알고리즘 분해 등 소프트웨어 기본 요소로 구성된 유도 레이어가 핵심입니다. 이 구조는 LLM의 컨텍스트 공간을 압축하고, 환각률과 토큰 소비를 동시에 낮춰 모델 동작을 더욱 제어 가능하고 비용을 예측 가능하게 만듭니다. 연구…
AI 뉴스 속보: JetBrains가 2026년 6월 1일 Mellum2를 출시했습니다. 이는 혼합 전문가 아키텍처(MoE) 기반의 120억 파라미터 오픈소스 모델로, 추론 시마다 25억 개의 활성 파라미터만 가동하여 동급 모델 대비 추론 속도가 2배 이상 빠르고, 배포 비용이 크게 낮아졌으며, Apache 2.0 라이선스로 공개되었습니다. Mellum2는 최신 대형 모델을 대체하려는 것이 아니라…