EVA-Bench Data 2.0 평가 기준 출시: 3대 영역·121개 도구·213개 테스트 시나리오
AI 뉴스 속보: 원문 요약 내용이 비어 있어 요약할 수 있는 텍스트가 없습니다. 원문 요약을 붙여넣으시면 바로 처리하겠습니다.
AI 뉴스 속보: 원문 요약 내용이 비어 있어 요약할 수 있는 텍스트가 없습니다. 원문 요약을 붙여넣으시면 바로 처리하겠습니다.
AI 뉴스 속보: 【영문 원문】란이 비어 있어 요약할 영문 콘텐츠를 받지 못했습니다. 원문 붙여넣기를 잊으신 건가요? 아니면 해당 HuggingFace 블로그 URL 페이지 내용을 직접 가져와서 요약해 드릴까요?…
AI 뉴스 속보: OpenAI는 최근 ChatGPT에 새로운 메모리 시스템 업데이트를 출시했습니다. 이 업데이트의 목표는 모델이 사용자의 개인 선호도와 일상적인 습관을 더 정확하게 기억하여, 매번 대화에서 제공되는 맥락이 항상 최신 상태를 유지하고 현재 요구 사항과 높은 관련성을 갖도록 하는 것입니다. 기존의 수동적인 기억 저장 방식과 비교하여, 이번 개선은 기억 내용의 ‘동적 업데이트’와 ‘관련성 필터링’을 강조하여 ChatGPT가 대화 간 개인화된…
AI 뉴스 속보: Bernstein이 비트코인 채굴 기업 TeraWulf와 Cipher Digital에 대한 애널리스트 커버리지를 개시하며 양사에 ‘시장 초과 수익(Outperform)’ 의견을 부여하고, 목표 주가를 각각 36달러 및 32달러로 설정했습니다. 이번 의견 부여의 핵심 논거는 AI 컴퓨팅 수요의 장기 성장에 집중됩니다: Bernstein은 두 회사의 …
AI 뉴스 속보: NVIDIA가 Nemotron 시리즈 모델을 위해 개발한 ‘태스크 시드 합성 데이터 생성’(Task-Seeded SDG) 5단계 프로세스: lm-eval-harness에서 약 70개 공개 태스크(약 700개 서브태스크)를 선정해 지식 집약형(39개 태스크, 약 300만 건)과 추론 집약형(34개 태스크, 약 150만 건) 두 종류의 시드로 분류하고, 대형 언어 모델로 내용은 다르지만 동등한 능력의 QA 쌍을 생성한 뒤 추론 체인과 도메인 지식을 추가해 통합 필터링·패키징한다. 에이블레이션 실험에서 컨텍스트를 추가한 버전이 압도적으로 우세했다: GPQA-Diamond CoT 34.85→45.96(+11.11), AGIEval-en CoT +6.16, MMLU-Pro 5-shot +2.44. 이 합성 데이터를 Nemotron-3 Nano의 후기 학습(100B 토큰 규모)에 혼합한 결과, GPQA 30.8→41.9(+11.1), MMLU-Pro +1.8, 코드 능력 +1.9, 상식 이해 +1.6으로 다양한 차원이 동시에 향상되어, 폭넓은 태스크 커버리지가 단일 평가 스타일 과적합 방지에 효과적임을 검증했다. 핵심 설계 원칙: 답변은 선택지 코드가 아닌 의미론적 텍스트로 저장해야 하며, 데이터셋 혼합 시 각 태스크 비율을 신중히 균형 있게 조정해야 지식·추론·코드 능력이 전반적으로 안정적으로 향상된다.
AI 뉴스 속보: AI 개발 플랫폼 Lovable이 Google과 규모 확대를 위한 다년 계약을 체결했습니다. 핵심 조항은 두 가지입니다. 첫째, Lovable의 Google Cloud 사용 규모가 현재 기준 5배로 확대됩니다. 둘째, Lovable은 Anthropic Claude 모델에 대한 더 광범위한 접근 권한을 확보합니다. Lovable…
AI 뉴스 속보: OpenAI가 최근 GPT-Rosalind에 기능 확장 업데이트를 출시했으며, 네 가지 방향에 집중합니다: 생물 추론, 약물화학, 유전체학 분석, 실험 워크플로우 통합. 생물 추론 능력 강화로 모델은 생물 시스템 내 복잡한 상호작용 메커니즘과 조절 논리를 더욱 깊이 이해할 수 있게 되었습니다. 약물화학 전문 지식 향상은 연구자들이 신약 설계 및 분자 구조 분석 시 더욱 정확한 AI 보조 판단을 얻는 데 도움이 됩니다…
AI 뉴스 속보: 이 항목의 원문 내용은 이미지 alt 텍스트 설명뿐으로, 파란 배경 콜라주에 등장하는 물품(모자, 옷걸이, 칼라, 선글라스, 데님 반바지, 가격표, 하이힐 등)을 나열하고 있을 뿐입니다. 요약 가능한 실질적인 뉴스 내용이나 메커니즘 설명이 없어 세부 내용을 전개할 수 없습니다. 자세한 내용은 원문 링크를 참고하세요….
AI 뉴스 속보: OpenAI가 최근 미국 프론티어 AI 거버넌스를 위한 정책 청사진을 발표하고 연방 정부에 구체적인 프레임워크 권고안을 제출했습니다. 세 가지 핵심 영역을 다루고 있습니다: 안전성(Safety), 시스템 회복력(Resilience), 국가 안보(National Security). 이 청사진은 각 주의 분산 입법에 의존하지 않고 연방 차원의 통합 규제 메커니즘을 추진하여 미국이 글로벌 AI 경쟁에서 전략적 우위를 유지하도록 하는 것을 목표로 합니다.
AI 뉴스 속보: Microsoft가 Build 개발자 컨퍼런스에서 새로운 AI 비서 Scout를 정식 출시했습니다. 개인 비서 제품으로 포지셔닝된 Scout의 핵심 목표는 OpenClaw의 강력한 기능과 높은 유연성을 Microsoft 365 생태계에 도입하여 기업과 개인 사용자가 일상 업무 도구에서도 더욱 유연한 AI 운용 경험을 누릴 수 있도록 하는 것입니다. 원문 요약에서는 Scout의 구체적인…