그래서 Tether, 스테이블코인 회사가 갑자기 AI를?

저처럼 AI와 암호화폐의 교차점을 관심을 가지고 지켜본다면, 이 소식을 듣고 잠시 멈춰 생각했을 것입니다.

Tether — 네, USDT的那个 Tether — QVAC Fabric LLM이라는 것을 출시했습니다. 간단히 말하면: 이제 폰에서 대형 언어 모델을 파인튜닝할 수 있습니다.

추론만 실행하는 것이 아닙니다. 실제로 학습하는 것입니다. 폰에서요.

저의 첫 번째 반응은 “뭐라고?“였지만, 기술적 세부사항을 살펴보니 처음 생각했던 것보다 훨씬 더 흥미롭다는 것을 깨달았습니다.


그래서 QVAC Fabric이란 정확히 무엇인가요?

먼저 이게 어떤 문제를 해결하는지 설명하겠습니다.

오늘날 LLM을 파인튜닝하려면 보통 다음이 필요합니다: A100 또는 H100 GPU, 클라우드 계정(AWS/Azure/GCP), 그리고 데이터를 타사의 서버에 업로드합니다.

대기업에게는 이것이 문제가 아닙니다. 하지만 개인 개발자나 중소기업에게는요? 높은 비용, 큰 프라이버시 위험, 그리고 클라우드 서비스 제공자에 완전히 의존해야 합니다.

QVAC Fabric의 접근 방식은 전체 파인튜닝 파이프라인을 로컬 기기로 이동시키는 것입니다. 다음과 같습니다:

1. llama.cpp에 LoRA 넣기

LoRA(Low-Rank Adaptation)는 현재 가장 인기 있는 효율적인 파인튜닝 방법입니다 — 원본 모델의 가중치는 건드리지 않고, 작은 학습 가능한 파라미터 세트만 추가합니다. QVAC Fabric은 llama.cpp 런타임 환경에 직접 전체 LoRA 파인튜닝을 통합한 첫 번째 프레임워크입니다.

이것은 PyTorch가 필요하지 않다는 것을 의미합니다, CUDA도 필요하지 않습니다 — llama.cpp만 있으면 파인튜닝을 실행할 수 있습니다.

2. CUDA 대신 Vulkan 사용

이것은 가장 inteligente한 설계 결정 중 하나입니다.

CUDA는 NVIDIA GPU에서만 실행됩니다. 그러나 Vulkan은 크로스플랫폼 GPU 컴퓨팅 인터페이스로, NVIDIA, AMD, Intel, Apple Silicon, Qualcomm Adreno를 지원합니다.

하나의 코드베이스로 모든 하드웨어에서 실행할 수 있습니다. 폰, 노트북, 데스크톱, 서버 — 동일한 파이프라인입니다.

3. Dynamic Tiling으로 모바일 메모리 병목 해결

일반적인 폰 GPU는 몇 GB만의 메모리만 가지고 있습니다 — 전체 행렬 연산을 수행하기에는 전혀 충분하지 않습니다. QVAC Fabric의 해결책은 Dynamic Tiling —大型 행렬 연산을 작은 청크로 분해하고, 순차적으로 처리한 후, 결과를 조립합니다.

속도牺牲는 있지만, 트레이드오프는: 폰에서 실제로 이것을 실행할 수 있습니다.


실제로는 얼마나 빠르나요?

제가 가장的好奇했던 데이터입니다:

기기파인튜닝 시간
NVIDIA RTX 4090 (데스크톱 GPU)약 45분
Qualcomm Adreno 830 (폰 GPU)약 13시간

13시간이 오래 걸리는 것처럼 들립니까? 하지만 이것은 인류 최초로 폰等级的 GPU에서 LLM 파인튜닝이 완료된 것입니다. 그리고 밤새 잘 동안 그냥 두면 됩니다.

품질 측면에서, 그들의 벤치마크 결과는業界標準 테스트에서 PyTorch와 맞먹으며, 일부 지표는 오히려 약간 더 좋습니다.


BitNet 1-bit: AI 모델을难以置信하게 얇게 만들기

LoRA 파인튜닝 외에도, QVAC는 Microsoft의 BitNet 아키텍처 지원도 통합합니다.

기존 LLM은 각 파라미터를 16비트 또는 32비트 부동소수점 숫자로 저장합니다. BitNet은 파라미터를 단 세 개의 값으로 압축합니다: -1, 0, +1.

어떤 효과일까요? 원래 몇 GB 또는 수십 GB를 차지하던 모델의 메모리 사용량이 일반 폰이 처리할 수 있는 수준으로 크게 줄어듭니다.

QVAC의 BitNet LoRA 프레임워크는 전 세계 최초의 크로스플랫폼 구현을 주장합니다 — Llama3, Qwen3, Gemma3와 같은 주요 모델 아키텍처를 지원합니다.


왜 Tether인가요?

왜 스테이블코인 회사가 AI 프레임워크를 만들려고 할까요?

실제로, Tether는 지난 1년간 이를 위해 포지셔닝해왔습니다. 그들에는 다음을 포함하는 QVAC 에코시스템이 있습니다:

  • QVAC Workbench — 로컬 AI 워크스테이션 앱
  • QVAC Health — 건강 데이터 AI
  • Genesis II — 1,480억 토큰 학습 데이터셋
  • 그리고 지금 QVAC Fabric — 파인튜닝 프레임워크

Paolo Ardoino(Tether CEO)은 담백하게 말했습니다:

“AI는 큰 클라우드 플랫폼에만 의해 제어되어서는 안 됩니다. QVAC Fabric은 개인과 기업이 자신의 조건으로 추론을 실행하고 강력한 모델을 파인튜닝할 수 있게 합니다.”

실제로 이것은 암호화폐 공간과 같은 핵심 정신입니다: 탈중앙화, 주권적 자기임신, 중개자 없음.

이번에는 금융이 아니라 AI일 뿐입니다.


왜 중요한가요?私の 생각

우리 팀은 매일 다양한 AI 모델을 다루고 있습니다 — Claude, Gemini, MiniMax — 여러 모델 간의 조정만으로도 하나의 기술셋입니다. 그래서 이 소식을 봤을 때, 단순히 “멋지다"라는 생각之外, 이것이 전체 에코시스템을 어떻게 변화시킬지 생각했습니다.

주목할 세 가지 방향:

첫째, 프라이버시. 지금 문서를 ChatGPT로 분석 보내면 해당 데이터는 클라우드로갑니다. 파인튜닝된 모델을 직접 폰에서 실행할 수 있다면, 데이터가 기기를離れない—this is 의료, 법률, 금융 분야에서 대 Breakthrough입니다.

둘째, 비용. 클라우드에서 모델을 파인튜닝하면 수십에서 수백 달러까지 들 수 있습니다. 노트북으로 이것이 가능하다면, 개인 개발자와 소규모 팀의 장벽은 거의제로로 떨어집니다.

셋째, 개인화. 누구나 완전히 자신만의 AI를 학습할 수 있습니다 — 자신의 데이터, 자신의 글쓰기 스타일, 자신의 전문 지식을 사용해서요. 일반적인 GPT가 아니라 자신의 GPT. 이것은 사실 우리 팀이 지금까지 해온 일입니다, 그냥 API + 프롬프트 엔지니어링 + 에이전트 아키텍처를 사용해서요. 앞으로 이것을 로컬에서 할 수 있다면, 많은 접근 방식이 완전히 달라질 것입니다.


지금 사용할 수 있나요?

네. QVAC Fabric은 Apache 2.0 오픈소스 라이선스로 출시되었으며, GitHub에서 직접 다운로드할 수 있습니다. 파인튜팅 부분은 qvac-rnd-fabric-llm-finetune 저장소에 있습니다. Hugging Face에는 미리 컴파일된 바이너리와 어댑터도 있습니다.

지원되는 모델은 Llama3, Qwen3, Gemma3를 포함하며, iOS, Android, Windows, macOS, Linux를 커버합니다.

하지만 솔직히, 지금 이 제품의 대상 청중은 여전히 개발자입니다. 시작하려면 llama.cpp와 모델 파인튜닝에 대한 기본적인 이해가 필요합니다. 하지만 오픈소스 커뮤니티의 속도를 볼 때, 누군가 이것을 원클릭 설치 앱으로打包할 soon할 것 같습니다.


결론

전체적인 “Tether가 AI 함"이라는 것은 странный 피벗처럼 들리지만, 생각해보면 실제로는 많은 sense가 있습니다 — 스테이블코인은 탈중앙화 금융을 원하고, QVAC는 탈중앙화 AI를 원합니다. 기본 철학은 정확히 동일합니다.

그리고 그들은 큰 약속만 하는 것이 아니라, 실제로 무언가를 만들고, 오픈소스로 공개하고, 벤치마크를 실행했습니다. “폰에서 LLM 파인튜닝"이라는 것 자체가 이미 기술적 이정표입니다.

AI의 미래는 클라우드에 있을 필요가 없습니다. 그것은 바로 당신의 주머니에 있을 수 있습니다.


추가 읽기:

AI × 트레이딩 완전 가이드 — 13장 실전 강좌
$49 · 기술 분석 + 리스크 관리 + Python 자동 매매
자세히 보기 →