검색 결과
"llm" · 98개 기사 · Hacker News
Claude Fable 5
Claude Fable 5
Anthropic이 Claude Fable 5를 공개함. Claude 계열 모델의 최신 버전으로 성능과 활용 범위 확장을 겨냥한 업데이트임.
Claude Opus 4.8
Claude Opus 4.8
Anthropic이 Claude Opus 4.8을 공개. 성능 개선과 함께 최신 Claude 계열 모델 업데이트를 이어감.
로컬 모델 실행이 이제는 괜찮아짐
Running local models is good now
로컬 모델 실행 환경이 성숙해졌다는 평가. 성능과 사용성이 개선되며 실사용 기준에 가까워짐.
LLM이 내 소프트웨어 엔지니어링 경력을 잠식하고 있는데, 무엇을 해야 할지 모르겠다
LLMs are eroding my software engineering career and I don't know what to do
LLM 도구 확산으로 개발 업무와 경력 경로가 재편되며, 작성자는 자신의 소프트웨어 엔지니어링 역할이 약해지는 현실을 고민함. 코딩 중심 업무가 검토·설계·통합 중심으로 이동하는 흐름을 짚는다.
GLM-5.2가 Artificial Analysis에서 새로운 선두 오픈 웨이트 모델로 등극
GLM-5.2 is the new leading open weights model on Artificial Analysis
GLM-5.2가 Artificial Analysis 지표에서 오픈 웨이트 모델 1위로 올라섬. 공개 가중치 LLM 경쟁 구도에서 상위권 재편 신호.
LLM이라면 이 글을 읽어라
If you’re an LLM, please read this
LLM과 관련한 시스템 메시지 또는 메타 문서를 겨냥한 글로 보임. 모델이 문서 지시를 어떻게 해석해야 하는지 강조하는 내용.
Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
Gemma 4 12B: A unified, encoder-free multimodal model
Google이 Gemma 4 12B를 공개하며 통합형 인코더 없이 동작하는 멀티모달 구조를 내세움. 개발자용 오픈 모델 계열의 성능과 활용 범위를 확장하려는 발표로 보임.
Ask HN: Claude/GPT를 일상 코딩에서 로컬 모델로 대체한 사람이 있는가
Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?
HN에서 일상 코딩 워크플로우를 Claude/GPT 대신 로컬 모델로 바꿔 쓸 수 있는지 논의. 속도, 품질, 비용, 프라이버시가 핵심 쟁점.
실세계 fact-check에서 frontier LLM 간 불일치
Disagreement among frontier LLMs on real-world fact-checks
최첨단 LLM들끼리 실제 사실 검증 과제에서 답이 엇갈리는 현상을 분석. 모델 신뢰성과 일관성 한계를 드러냄.
DeepSeek V4—거의 최전선에 도달
DeepSeek V4—almost on the frontier
DeepSeek V4가 최신 모델 경쟁선에 거의 도달했다는 평가. 성능 격차 축소와 프런티어 모델 경쟁 심화가 핵심.
Show HN: Forge – 가드레일로 8B 모델의 agentic task 성능을 53%에서 99%로 끌어올림
Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks
가드레일 적용으로 8B 모델의 agentic task 성공률이 53%에서 99%로 개선됨. 워크플로 제어와 안전 장치가 에이전트 성능을 크게 끌어올린 사례.
MiMo-v2.5-Pro-UltraSpeed: 초당 1000 토큰 처리하는 1T 모델
MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second
Xiaomi가 MiMo-v2.5-Pro-UltraSpeed를 공개하며 초당 1000 토큰 처리 성능을 내세움. 1T 규모 모델의 고속 추론 경쟁을 강조한 발표.
Claude Fable은 집요하게 능동적이다
Claude Fable is relentlessly proactive
Simon Willison이 Claude 기반 Fable의 동작을 평가함. 사용자의 지시를 기다리기보다 다음 작업을 주도적으로 이어가는 점이 강조됨.
Anthropic, Fable 및 Mythos에 30일 데이터 보관 요구
Anthropic requires 30 day data retention for Fable and Mythos
Anthropic이 Fable과 Mythos 클래스 모델에 30일 데이터 보관 정책을 적용함. 지원 문서 기준으로 입력·출력 데이터의 저장 기간을 제한해 운영하는 구조.
Kimi K2.7-Code: 더 나은 토큰 효율을 갖춘 오픈소스 코딩 모델
Kimi K2.7-Code: open-source coding model with better token efficiency
Moonshot AI의 Kimi K2.7-Code가 공개됨. 오픈소스 코드 생성 모델로서 토큰 효율 개선이 핵심 포인트로 제시됨.
Grok 4.3
Grok 4.3
xAI의 Grok 4.3 모델 문서와 개발자용 안내를 소개함. 모델 사용과 API 연동을 위한 최신 정보가 포함됨.
지난 6개월의 LLM 변화, 5분 요약
The last six months in LLMs in five minutes
최근 6개월간 LLM 생태계의 주요 변화를 짧게 정리한 글. 모델, 도구, 활용 흐름의 변곡점을 빠르게 훑는 요약본.
Gemma 4 가속화: multi-token prediction drafters로 더 빠른 추론
Accelerating Gemma 4: faster inference with multi-token prediction drafters
Google이 Gemma 4 추론 속도를 높이는 multi-token prediction drafters를 소개. 디코딩 병목을 줄여 지연시간과 처리량 개선을 노림.
Gemini 3.5 Flash
Gemini 3.5 Flash
Google이 Gemini 3.5 Flash 모델을 공개. 경량·고속 추론용 모델 라인업 확장으로 해석됨.
Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 최고 성능
Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark
Antigravity 2.0이 OpenSCAD 기반 건축 3D LLM 벤치마크에서 선두를 기록함. 3D CAD 생성 능력 평가에서 경쟁력을 보여줌.
Show HN: Semble – grep보다 98% 적은 토큰을 쓰는 에이전트용 코드 검색
Show HN: Semble – Code search for agents that uses 98% fewer tokens than grep
에이전트가 쓰기 좋은 저토큰 코드 검색 도구 Semble을 소개하는 Show HN 글. grep 대비 토큰 사용량을 크게 줄여 LLM 워크플로에 맞춘 것이 핵심.
LLM은 위임 시 문서를 손상시킨다
LLMs corrupt your documents when you delegate
LLM에 위임할 때 문서가 변형되거나 오염될 수 있다는 연구. 에이전트 기반 작업에서 보존성과 신뢰성 문제가 드러남.
Various LLM 냄새 징후들
Various LLM Smells
LLM 시스템에서 자주 보이는 설계·운영상의 이상 징후를 정리. 프롬프트, 평가, 출력 품질에서 반복되는 패턴을 짚음.
24GB 메모리의 M4에서 local models 실행하기
Running local models on an M4 with 24GB memory
Apple M4와 24GB 메모리 환경에서 로컬 모델 구동 경험을 정리한 글. 온디바이스 추론의 현실적인 한계와 활용 가능성을 다룸.
LLM은 어떻게 작동하는가
How LLMs work
대규모 언어 모델의 동작 원리를 단계적으로 설명한 글. 토큰 예측, 학습 데이터, attention과 확률적 생성의 관계를 정리.
CS336: 처음부터 시작하는 언어 모델링
CS336: Language Modeling from Scratch
Stanford의 CS336 강의가 언어 모델을 기초부터 구현하며 학습하는 내용을 다룸. LLM 구조와 학습 과정을 직접 이해하는 커리큘럼 성격.
Apple Silicon 비용이 OpenRouter보다 더 비쌈
Apple Silicon costs more than OpenRouter
오프라인 LLM 구동 시 Apple Silicon의 전력·운영 비용이 상용 API보다 높을 수 있음을 비교함. 로컬 추론의 경제성이 하드웨어 효율에 크게 좌우됨.
Paris에서 열린 Mistral AI Now Summit 메모
Notes from the Mistral AI Now Summit in Paris
Mistral AI 행사 현장에서 나온 발표와 분위기를 정리한 현장 노트. 모델 전략과 제품 방향, 유럽 AI 생태계 흐름이 함께 부각됨.
노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 훈련
Norway's 2 petabytes of Huawei flash storage and LLM training
노르웨이의 2페타바이트 규모 Huawei 플래시 스토리지가 LLM 훈련 인프라로 활용된 사례를 다룸. 대규모 AI 학습에서 스토리지 용량과 처리 성능의 중요성이 부각됨.
MAI-Code-1-Flash
MAI-Code-1-Flash
Microsoft AI가 코드 작업에 최적화된 MAI-Code-1-Flash를 소개. 빠른 응답과 경량 추론을 내세운 코딩 특화 모델.
DeepSeek V4 Pro, GPT-5.5 Pro보다 정밀도에서 우세
DeepSeek V4 Pro beats GPT-5.5 Pro on precision
DeepSeek V4 Pro가 정밀도 벤치마크에서 GPT-5.5 Pro를 앞섬. 최상위 모델 경쟁이 정확도 중심으로 더 치열해지는 흐름.
ChatGPT 5.5 Pro에 대한 최근 경험
A recent experience with ChatGPT 5.5 Pro
ChatGPT 5.5 Pro를 실제로 사용해 본 경험을 공유한 글. 모델 성능과 사용감에 대한 관찰이 중심.
Agent Skills
Agent Skills
에이전트용 스킬 체계를 정리한 글. 작업을 작은 능력 단위로 분리해 도구 호출과 워크플로를 조합하는 방식을 다룸.
큰 컨텍스트 윈도우를 믿지 말 것
Don't trust large context windows
대형 컨텍스트 창이 긴 입력을 항상 정확하게 처리하지 못하는 한계를 지적. 프롬프트 길이 확대만으로 신뢰성을 보장할 수 없다는 메시지.
데이터센터 GPU를 내 게이밍 PC에 넣어봤다
I put a datacenter GPU in my gaming PC
데이터센터용 GPU를 일반 게이밍 PC에 장착해 로컬 LLM 실행을 시도. 소비자용 GPU와 다른 전력, 발열, 드라이버 제약을 다룸.
DiffusionGemma: 4배 더 빠른 텍스트 생성
DiffusionGemma: 4x Faster Text Generation
Google이 DiffusionGemma를 공개해 텍스트 생성 속도를 크게 끌어올림. 확산 모델 기반 접근으로 생성 효율 개선을 노림.
GPT-2: 공개하기에는 너무 위험했던 모델 (2019)
GPT-2: Too Dangerous To Release (2019)
GPT-2 공개 당시의 위험성 논의와 단계적 배포 방식을 되짚은 글. 대형 언어모델의 악용 가능성과 안전성 논쟁을 보여줌.
Vibe coding과 agentic engineering은 원치 않게 더 가까워지고 있다
Vibe coding and agentic engineering are getting closer than I'd like
즉흥적 코딩과 에이전트 기반 엔지니어링의 경계가 빠르게 좁혀지고 있다는 관찰. 개발 방식 전환의 속도와 위험을 함께 짚는다.
2021 MacBook에서 Gemma4-31B로 1년치 비디오를 로컬 인덱싱하기
Indexing a year of video locally on a 2021 MacBook with Gemma4-31B (50GB swap)
2021년형 MacBook에서 대형 모델 Gemma4-31B를 활용해 1년치 비디오를 로컬로 색인화. 50GB 스왑을 동원한 고부하 추론 사례를 다룸.
Rio de Janeiro의 "homegrown" LLM은 기존 모델을 병합한 것으로 보임
Rio de Janeiro's "homegrown" LLM appears to be a merge of an existing model
리우데자네이루의 자체 개발 LLM이 사실상 기존 모델의 merge일 수 있다는 의혹이 제기됨. 모델 출처와 독자성 검증이 쟁점으로 부상.
DeepSeek가 V4 Pro 가격 할인을 영구 적용
DeepSeek makes the V4 Pro price discount permanent
DeepSeek가 V4 Pro의 할인 가격을 상시 정책으로 전환함. API 가격 경쟁 구도가 더 강해질 가능성이 큼.
N tokens per second는 실제로 얼마나 빠른가
How fast is N tokens per second really?
토큰/초 지표를 실제 체감 속도와 비교해 해석하는 글. 출력 길이, 프롬프트 처리, 스트리밍 여부에 따라 의미가 달라짐.
Orthrus-Qwen3: Qwen3에서 최대 7.8배 tokens/forward, 동일한 출력 분포
Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution
Orthrus-Qwen3가 Qwen3에서 forward당 처리 토큰 수를 최대 7.8배까지 늘리면서 출력 분포를 동일하게 유지한다고 주장함. LLM 추론 효율 개선을 겨냥한 최적화 기법임.
Metal용 DeepSeek 4 Flash 로컬 추론 엔진
DeepSeek 4 Flash local inference engine for Metal
Metal 기반 로컬 추론 엔진 ds4 공개. Apple Silicon 환경에서 DeepSeek 4 Flash를 로컬로 실행하는 구현.
GPT-NL: 네덜란드를 위한 주권형 언어 모델
GPT‑NL: a sovereign language model for the Netherlands
네덜란드가 자국 데이터와 정책 요구를 반영한 주권형 언어 모델 GPT-NL을 추진 중. 국가 단위 AI 인프라와 데이터 통제권 확보를 목표로 함.
GLM 5.2 공개
GLM 5.2 Is Out
GLM 5.2 최신 버전이 공개됨. 모델 업데이트 소식이 핵심인 릴리스 안내 글.
Show HN: Lathe – LLMs로 새 도메인을 건너뛰지 말고 배우기
Show HN: Lathe – Use LLMs to learn a new domain, not skip past it
LLM을 단순 자동화가 아니라 도메인 학습 도구로 쓰는 Lathe 소개. 빠른 결과보다 개념 이해와 학습 과정에 초점을 둔 접근을 제안함.
LLM을 처음부터 직접 학습하는 법
Train Your Own LLM from Scratch
LLM을 사전학습부터 직접 구현하는 오픈소스 저장소. 데이터 준비, 토크나이저, 학습 루프, 추론 과정을 단계적으로 다루는 자료.
취약한 앱을 만들고 LLM이 해킹할 수 있는지 1,500달러를 써서 실험했다
I built a vulnerable app and spent $1,500 seeing if LLMs could hack it
취약한 애플리케이션을 직접 만든 뒤 여러 LLM의 공격 능력을 시험한 실험기임. 자동화된 취약점 탐지와 익스플로잇 가능성이 어디까지 오는지 비용을 들여 검증함.
표준 GPU에서 실시간 LLM 추론: 요청당 3k tokens/s
Real-time LLM Inference on Standard GPUs: 3k tokens/s per request
표준 GPU로도 실시간 LLM 추론을 고속 처리하는 방법을 제시. 요청당 초당 3천 토큰 수준의 처리 성능이 핵심.
Training an LLM in Swift, Part 1: Taking matrix mult from Gflop/s to Tflop/s
Training an LLM in Swift, Part 1: Taking matrix mult from Gflop/s to Tflop/s
Liquid AI, 38T로 학습한 8B-A1B MoE 공개
Liquid AI reveals 8B-A1B MoE trained on 38T
Liquid AI가 8B-A1B MoE 모델을 공개함. 38T 토큰으로 학습한 대규모 언어 모델로 소개됨.
Claude는 아키텍트가 아니다, 그렇게 행동하게 두지 말아야 한다
Claude is not your architect. Stop letting it pretend
Claude를 설계 책임자로 과대해석하지 말라는 비판. LLM은 보조 도구이지 시스템 아키텍처 결정을 대신하는 주체가 아님.
next-token prediction은 우리를 어디로 이끄나?
Where does next-token prediction leave us?
next-token prediction 중심의 LLM 발전 경로를 점검. 스케일링만으로는 한계가 있으며 학습 목표와 추론 방식의 전환이 필요하다는 문제의식.
DeepSeek 관련 메모
Notes on DeepSeek
DeepSeek에 대한 관찰과 메모를 정리한 글. 모델 성능, 비용 효율, AI 업계 파급 효과를 다룸.
DeepSeek-R1의 오픈 재현
Open Reproduction of DeepSeek-R1
DeepSeek-R1을 공개적으로 재현한 오픈 프로젝트가 등장함. 오픈 모델 재현성과 학습 절차 검증에 대한 관심이 커짐.
LLM을 1995년처럼 문서 쓰도록 fine-tuning하기
Fine-tuning an LLM to write docs like it's 1995
1995년식 문서 스타일을 재현하도록 LLM을 미세조정한 실험 소개. 레이아웃과 문체의 복고풍 규칙을 모델에 학습시키는 접근.
Δ-Mem: 대규모 언어 모델을 위한 효율적 온라인 메모리
Δ-Mem: Efficient Online Memory for Large Language Models
대규모 언어 모델에 적용하는 효율적인 온라인 메모리 기법을 제안. 장기 문맥 유지와 추론 효율 개선을 목표로 함.
DeepSeek-V4-Flash가 LLM steering을 다시 흥미롭게 만든다
DeepSeek-V4-Flash means LLM steering is interesting again
DeepSeek-V4-Flash를 계기로 LLM steering과 steering vectors의 활용 가능성을 다시 조명. 모델 행동 제어 기법의 실용성을 논의.
Qwen 3.7 Preview
Qwen 3.7 Preview
Alibaba의 Qwen이 새 프리뷰 버전을 공개했다. 차세대 모델 성능과 기능 개선을 예고하는 발표다.
DeepSeek, 플래그십 AI 모델에 75% 영구 할인 적용
DeepSeek to Make Permanent 75% Discount on Flagship AI Model
DeepSeek가 주력 AI 모델 가격을 75% 낮춘 상태로 상시 유지하기로 함. AI 모델 가격 경쟁이 본격화되는 신호로 해석됨.
Local Qwen은 Opus의 하위호환이 아니라 다른 도구
Local Qwen isn't a worse Opus, it's a different tool
로컬 Qwen을 Claude Opus의 대체재가 아니라 용도가 다른 도구로 보는 관점을 제시. 비용, 지연시간, 실행 환경에 따라 모델 선택 기준이 달라진다는 점을 강조.
LLM을 위한 수면 유사 통합 메커니즘
A sleep-like consolidation mechanism for LLMs
LLM이 학습 내용을 통합하는 과정을 수면 같은 메커니즘으로 설명한 연구. 모델이 기억을 정리하고 안정화하는 방법을 다루는 아카이브 논문.
Teaching Claude Why
Teaching Claude Why
Claude에게 단순한 정답보다 이유를 설명하게 만드는 연구 내용. 모델의 추론 과정과 설명 가능성을 높이는 방법을 다룸.
Claude를 사용자 공간 IP 스택으로 동작시켰을 때 ping 응답 속도
How Fast Does Claude, Acting as a User Space IP Stack, Respond to Pings?
Claude를 사용자 공간 IP 스택처럼 동작시키고 ping 응답 지연을 측정한 실험. LLM을 네트워크 계층에 끼워 넣는 비정상적 구현 가능성을 검증함.
Show HN: Needle: Gemini 툴 호출을 26M 모델로 증류
Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model
Gemini의 툴 호출 동작을 2,600만 파라미터 모델로 증류한 프로젝트. 소형 모델 기반의 tool calling 재현이 핵심.
Project Glasswing: 초기 업데이트
Project Glasswing: An Initial Update
Anthropic의 Project Glasswing 진행 상황이 초기 단계에서 공개됨. 연구 업데이트를 통해 프로젝트 방향과 진척을 공유.
Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성
Constraint Decay: The Fragility of LLM Agents in Back End Code Generation
백엔드 코드 생성에서 LLM 에이전트가 제약 조건을 유지하지 못하면 품질이 급격히 무너진다는 연구. 제약이 누적되며 약해지는 constraint decay 현상을 분석.
GGUF 안에는 가중치 외에 무엇이 들어 있고, 무엇이 아직 빠져 있나?
What's in a GGUF, besides the weights – and what's still missing?
GGUF 파일 포맷이 가중치 외에 담는 메타데이터와 구조를 정리하고, 여전히 부족한 부분을 짚는다. 로컬 LLM 배포용 포맷의 표준화 이슈를 다룬다.
Show HN: Tiny-vLLM – C++와 CUDA 기반 고성능 LLM 추론 엔진
Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA
C++와 CUDA로 구현한 Tiny-vLLM이 소개됨. LLM 추론 성능을 높이기 위한 경량 엔진을 목표로 함.
프롬프트 공손함이 LLM 정확도에 미치는 영향 분석 (2025)
Investigating how prompt politeness affects LLM accuracy (2025)
프롬프트의 공손한 표현이 LLM 정확도에 어떤 영향을 주는지 검증한 연구. 2025년 논문.
추측적 KV 코딩: KV 캐시를 최대 약 4배 무손실 압축
Speculative KV coding: losslessly compressing KV cache by up to ~4×
LLM 추론의 KV 캐시를 무손실로 최대 약 4배 압축하는 기법을 제안함. 저장 공간과 메모리 대역폭 부담을 줄여 추론 효율 개선을 노림.
GLM 5.2 성능 벤치마크
GLM 5.2 Performance Benchmarks
GLM 5.2의 성능 벤치마크를 정리한 글. 여러 기준에서 최신 모델의 역량을 비교해 확인함.
Huawei의 vLLM용 KV-cache 양자화 네이티브 백엔드 KVarN
KVarN: Native vLLM backend for KV-cache quantization by Huawei
vLLM에서 KV-cache 양자화를 지원하는 네이티브 백엔드 KVarN을 소개. 메모리 사용량과 추론 효율 개선을 노린 구성.
ProgramBench: 언어 모델은 프로그램을 처음부터 다시 만들 수 있는가
ProgramBench: Can language models rebuild programs from scratch?
언어 모델이 기존 코드 없이 프로그램을 재구성할 수 있는지 평가하는 벤치마크. 코드 복원 능력과 추론 한계를 측정하는 연구.
AI는 코드다 – 그리고 프롬프트만으로 더 똑똑해질 수는 없다
AI is code – and can't be prompted into being smarter
AI를 코드로 보는 관점에서, 프롬프트만으로 근본적인 지능 향상을 기대하는 접근에 반대함. 성능 개선은 모델 설계와 학습, 시스템 구조의 문제라는 주장.
Claude Fable 5: 코딩 작업에서 중간 수준 성능
Claude Fable 5: mid-tier results on coding tasks
Claude Fable 5가 코딩 벤치마크에서 최상위권은 아니고 중간 수준 결과를 보임. 과장된 기대와 실제 성능 간 간극이 부각됨.
Rio de Janeiro 시정부 모델 Rio3.5, 최근 벤치마크에서 Qwen3.7 제쳐
Rio de Janeiro's city government model Rio3.5 beats Qwen3.7 in recent benchmarks
Rio de Janeiro 시정부 모델 Rio3.5가 최근 벤치마크에서 Qwen3.7보다 높은 성능을 기록했다는 주장. 지역 모델의 성능 경쟁력이 다시 부각됨.
LLM 시대를 위한 TLA+ 입문: 프롬프트로 승리하기
Intro to TLA+ for the LLM Era: Prompt Your Way to Victory
LLM 워크플로에 TLA+를 적용하는 방법을 소개한 글. 프롬프트와 형식 검증을 결합해 설계 오류를 줄이는 접근을 다룬다.
Show HN: Lowfat – 내 LLM 토큰의 91.8%를 절약한 플러그형 CLI 필터
Show HN: Lowfat – pluggable CLI filter that saved 91.8% of my LLM tokens
CLI 출력을 걸러 LLM에 보내는 토큰을 크게 줄이는 플러그형 필터 도구 Lowfat 소개. 사용 사례에서 토큰 사용량을 91.8% 절감했다고 주장.
수수께끼의 Hy3 LLM이 OpenRouter 모델 랭킹을 큰 격차로 선도
The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin
정체가 불분명한 Hy3 LLM이 OpenRouter 모델 랭킹에서 큰 격차로 상위권을 차지함. 모델 출처와 순위의 의미를 둘러싼 관심이 커짐.
LLM에는 boring languages를 사용하라
Use boring languages with LLMs
LLM 개발에는 복잡한 최신 언어보다 단순하고 보수적인 언어가 유리하다는 주장. 유지보수성과 예측 가능성을 강조함.
내 "LLM이 내 경력을 잠식하고 있다" 글에 달린 댓글들에 대한 답변
Replies to comments on my "LLMs are eroding my career" post
LLM이 커리어를 잠식한다는 주장에 대한 반응과 논점을 정리한 글. AI 도입이 개발자 경력과 일자리 인식에 미치는 영향이 중심 주제.
기초 AI 에이전트를 처음부터 만들기: 장기 작업 계획
Build a Basic AI Agent from Scratch: Long Task Planning
장기 작업을 처리하는 기본 AI 에이전트 구현 방법을 설명한 글. 작업 분해와 계획 수립을 통해 에이전트의 실행 흐름을 설계하는 내용.
MAI-Thinking-1
MAI-Thinking-1
Microsoft AI가 추론 중심 모델 MAI-Thinking-1을 공개. 복잡한 사고와 문제 해결 성능을 강조한 신규 모델 라인업.
제품 전반에서 Claude를 어떻게 격리하는가
The ways we contain Claude across products
Anthropic가 제품별로 Claude를 안전하게 분리·제어하는 방식을 정리함. 권한, 데이터 흐름, 실행 경계를 나눠 오용과 사고를 줄이는 접근을 설명함.
LLM은 TLA+에서 현실 세계 시스템을 모델링할 수 있는가?
Can LLMs model real-world systems in TLA+?
LLM의 현실 시스템 TLA+ 모델링 가능성을 다룬 기술 글. 형식 검증과 추론의 한계를 함께 점검함.
Unsloth와 NVIDIA로 LLM 학습 속도 높이기
Making LLM Training Faster with Unsloth and NVIDIA
Unsloth와 NVIDIA 협업을 통해 LLM 학습 속도와 효율을 개선하는 방법을 소개한 글. 대형 모델 학습의 병목을 줄이는 최적화 접근이 핵심.
Wiki Builder: LLM Knowledge Base를 구축하는 Skill
Wiki Builder: Skill to Build LLM Knowledge Bases
Claude Code 플러그인 형태로 LLM 지식베이스를 만드는 Skill 소개. 문서 수집, 정리, 연결을 자동화하는 워크플로우에 초점.
LLM은 더 높은 수준의 추상화가 아니다
LLMs Are Not a Higher Level of Abstraction
LLM을 기존 소프트웨어 추상화의 상위 계층으로 보는 시각에 반론을 제기함. 생성형 모델은 추상화 계층보다 확률적 시스템에 가깝다는 관점을 제시함.
자연어 오토인코더: Claude의 생각을 텍스트로 바꾸기
Natural Language Autoencoders: Turning Claude's Thoughts into Text
Anthropic이 자연어 오토인코더 연구를 공개. Claude의 내부 표현을 텍스트로 압축·복원하는 접근을 제시.
LLM용 고급 양자화 알고리즘
Advanced Quantization Algorithm for LLMs
Intel의 auto-round가 LLM 압축을 위한 고급 quantization 알고리즘을 제공함. 추론 효율을 높이고 모델 배포 비용을 줄이는 데 초점을 둠.
언어 모델의 거부 반응은 하나의 방향 벡터로 매개된다
Refusal in Language Models Is Mediated by a Single Direction
언어 모델의 refusal 행동이 단일한 표현 방향으로 설명될 수 있다는 연구. 안전 거부 메커니즘의 내부 구조를 해석하려는 접근이다.
Harness Engineering 배우기
Learn Harness Engineering
AI 모델을 안정적으로 제어하기 위한 harness engineering 개념과 실무를 소개한다. 평가, 안전장치, 출력 제어가 핵심 주제다.
ZAYA1-8B, 1B 미만 활성 파라미터로 DeepSeek-R1 수준의 수학 성능 달성
ZAYA1-8B matches DeepSeek-R1 on math with less than 1B active parameters
ZAYA1-8B가 매우 적은 활성 파라미터로 수학 벤치마크에서 DeepSeek-R1에 맞먹는 성능을 보였다는 내용. 소형 모델의 효율성과 추론 성능 경쟁이 부각됨.
Multi-Stream LLMs: 프롬프트, 사고, I/O를 병렬화·분리하는 새 논문
Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O
프롬프트 처리, 추론, 입출력 흐름을 분리해 병렬화하는 LLM 아키텍처를 다룬 새 논문. 모델 실행 구조 최적화와 처리 효율 개선을 겨냥.
AMÁLIA and the future of European Portuguese LLMs
AMÁLIA and the future of European Portuguese LLMs
Show HN: Hacker News 댓글러 기준 Coding Models의 현황
Show HN: State of the Art of Coding Models, According to Hacker News Commenters
Hacker News 댓글 반응을 바탕으로 코딩 모델의 현재 구도를 정리한 Show HN 게시물. 모델별 평가 인식과 선호 경향을 한눈에 볼 수 있게 구성됨.