검색 결과

소스

전체 (200)GeekNews (102)Hacker News (98)

분류

전체 AI/ML (156)Dev/Tools (28)General Tech (7)Security (5)Cloud/Infra (4)

정렬

점수순 최신순 댓글순

"llm" · 98개 기사 · Hacker News

해커뉴스AI/ML139211102026-06-09

Claude Fable 5

Anthropic이 Claude Fable 5를 공개함. Claude 계열 모델의 최신 버전으로 성능과 활용 범위 확장을 겨냥한 업데이트임.

해커뉴스AI/ML9917842026-05-28

Claude Opus 4.8

Anthropic이 Claude Opus 4.8을 공개. 성능 개선과 함께 최신 Claude 계열 모델 업데이트를 이어감.

해커뉴스AI/ML7893542026-06-16

로컬 모델 실행이 이제는 괜찮아짐

Running local models is good now

로컬 모델 실행 환경이 성숙해졌다는 평가. 성능과 사용성이 개선되며 실사용 기준에 가까워짐.

해커뉴스AI/ML7176762026-06-07

LLM이 내 소프트웨어 엔지니어링 경력을 잠식하고 있는데, 무엇을 해야 할지 모르겠다

LLMs are eroding my software engineering career and I don't know what to do

LLM 도구 확산으로 개발 업무와 경력 경로가 재편되며, 작성자는 자신의 소프트웨어 엔지니어링 역할이 약해지는 현실을 고민함. 코딩 중심 업무가 검토·설계·통합 중심으로 이동하는 흐름을 짚는다.

해커뉴스AI/ML7103582026-06-17

GLM-5.2가 Artificial Analysis에서 새로운 선두 오픈 웨이트 모델로 등극

GLM-5.2 is the new leading open weights model on Artificial Analysis

GLM-5.2가 Artificial Analysis 지표에서 오픈 웨이트 모델 1위로 올라섬. 공개 가중치 LLM 경쟁 구도에서 상위권 재편 신호.

해커뉴스AI/ML6653822026-05-22

LLM이라면 이 글을 읽어라

If you’re an LLM, please read this

LLM과 관련한 시스템 메시지 또는 메타 문서를 겨냥한 글로 보임. 모델이 문서 지시를 어떻게 해석해야 하는지 강조하는 내용.

해커뉴스AI/ML5372042026-06-03

Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델

Gemma 4 12B: A unified, encoder-free multimodal model

Google이 Gemma 4 12B를 공개하며 통합형 인코더 없이 동작하는 멀티모달 구조를 내세움. 개발자용 오픈 모델 계열의 성능과 활용 범위를 확장하려는 발표로 보임.

해커뉴스Dev/Tools4822462026-06-15

Ask HN: Claude/GPT를 일상 코딩에서 로컬 모델로 대체한 사람이 있는가

Ask HN: Has anyone replaced Claude/GPT with a local model for daily coding?

HN에서 일상 코딩 워크플로우를 Claude/GPT 대신 로컬 모델로 바꿔 쓸 수 있는지 논의. 속도, 품질, 비용, 프라이버시가 핵심 쟁점.

해커뉴스AI/ML4733302026-05-28

실세계 fact-check에서 frontier LLM 간 불일치

Disagreement among frontier LLMs on real-world fact-checks

최첨단 LLM들끼리 실제 사실 검증 과제에서 답이 엇갈리는 현상을 분석. 모델 신뢰성과 일관성 한계를 드러냄.

해커뉴스AI/ML4552942026-05-02

DeepSeek V4—거의 최전선에 도달

DeepSeek V4—almost on the frontier

DeepSeek V4가 최신 모델 경쟁선에 거의 도달했다는 평가. 성능 격차 축소와 프런티어 모델 경쟁 심화가 핵심.

해커뉴스AI/ML4481712026-05-20

Show HN: Forge – 가드레일로 8B 모델의 agentic task 성능을 53%에서 99%로 끌어올림

Show HN: Forge – Guardrails take an 8B model from 53% to 99% on agentic tasks

가드레일 적용으로 8B 모델의 agentic task 성공률이 53%에서 99%로 개선됨. 워크플로 제어와 안전 장치가 에이전트 성능을 크게 끌어올린 사례.

해커뉴스AI/ML4272922026-06-08

MiMo-v2.5-Pro-UltraSpeed: 초당 1000 토큰 처리하는 1T 모델

MiMo-v2.5-Pro-UltraSpeed: 1T model with 1000 tokens per second

Xiaomi가 MiMo-v2.5-Pro-UltraSpeed를 공개하며 초당 1000 토큰 처리 성능을 내세움. 1T 규모 모델의 고속 추론 경쟁을 강조한 발표.

해커뉴스AI/ML3943142026-06-12

Claude Fable은 집요하게 능동적이다

Claude Fable is relentlessly proactive

Simon Willison이 Claude 기반 Fable의 동작을 평가함. 사용자의 지시를 기다리기보다 다음 작업을 주도적으로 이어가는 점이 강조됨.

해커뉴스AI/ML3921952026-06-11

Anthropic, Fable 및 Mythos에 30일 데이터 보관 요구

Anthropic requires 30 day data retention for Fable and Mythos

Anthropic이 Fable과 Mythos 클래스 모델에 30일 데이터 보관 정책을 적용함. 지원 문서 기준으로 입력·출력 데이터의 저장 기간을 제한해 운영하는 구조.

해커뉴스AI/ML3862032026-06-12

Kimi K2.7-Code: 더 나은 토큰 효율을 갖춘 오픈소스 코딩 모델

Kimi K2.7-Code: open-source coding model with better token efficiency

Moonshot AI의 Kimi K2.7-Code가 공개됨. 오픈소스 코드 생성 모델로서 토큰 효율 개선이 핵심 포인트로 제시됨.

해커뉴스AI/ML3644822026-05-01

Grok 4.3

xAI의 Grok 4.3 모델 문서와 개발자용 안내를 소개함. 모델 사용과 API 연동을 위한 최신 정보가 포함됨.

해커뉴스AI/ML3582282026-05-19

지난 6개월의 LLM 변화, 5분 요약

The last six months in LLMs in five minutes

최근 6개월간 LLM 생태계의 주요 변화를 짧게 정리한 글. 모델, 도구, 활용 흐름의 변곡점을 빠르게 훑는 요약본.

해커뉴스AI/ML3531572026-05-05

Gemma 4 가속화: multi-token prediction drafters로 더 빠른 추론

Accelerating Gemma 4: faster inference with multi-token prediction drafters

Google이 Gemma 4 추론 속도를 높이는 multi-token prediction drafters를 소개. 디코딩 병목을 줄여 지연시간과 처리량 개선을 노림.

해커뉴스AI/ML3382922026-05-19

Gemini 3.5 Flash

Google이 Gemini 3.5 Flash 모델을 공개. 경량·고속 추론용 모델 라인업 확장으로 해석됨.

해커뉴스AI/ML3171232026-05-22

Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 최고 성능

Antigravity 2.0 Tops the OpenSCAD Architectural 3D LLM Benchmark

Antigravity 2.0이 OpenSCAD 기반 건축 3D LLM 벤치마크에서 선두를 기록함. 3D CAD 생성 능력 평가에서 경쟁력을 보여줌.

해커뉴스Dev/Tools3071052026-05-18

Show HN: Semble – grep보다 98% 적은 토큰을 쓰는 에이전트용 코드 검색

Show HN: Semble – Code search for agents that uses 98% fewer tokens than grep

에이전트가 쓰기 좋은 저토큰 코드 검색 도구 Semble을 소개하는 Show HN 글. grep 대비 토큰 사용량을 크게 줄여 LLM 워크플로에 맞춘 것이 핵심.

해커뉴스AI/ML2971172026-05-09

LLM은 위임 시 문서를 손상시킨다

LLMs corrupt your documents when you delegate

LLM에 위임할 때 문서가 변형되거나 오염될 수 있다는 연구. 에이전트 기반 작업에서 보존성과 신뢰성 문제가 드러남.

해커뉴스AI/ML2952282026-05-29

Various LLM 냄새 징후들

Various LLM Smells

LLM 시스템에서 자주 보이는 설계·운영상의 이상 징후를 정리. 프롬프트, 평가, 출력 품질에서 반복되는 패턴을 짚음.

해커뉴스AI/ML285882026-05-11

24GB 메모리의 M4에서 local models 실행하기

Running local models on an M4 with 24GB memory

Apple M4와 24GB 메모리 환경에서 로컬 모델 구동 경험을 정리한 글. 온디바이스 추론의 현실적인 한계와 활용 가능성을 다룸.

해커뉴스AI/ML272782026-06-06

LLM은 어떻게 작동하는가

How LLMs work

대규모 언어 모델의 동작 원리를 단계적으로 설명한 글. 토큰 예측, 학습 데이터, attention과 확률적 생성의 관계를 정리.

해커뉴스AI/ML269362026-06-01

CS336: 처음부터 시작하는 언어 모델링

CS336: Language Modeling from Scratch

Stanford의 CS336 강의가 언어 모델을 기초부터 구현하며 학습하는 내용을 다룸. LLM 구조와 학습 과정을 직접 이해하는 커리큘럼 성격.

해커뉴스AI/ML2672302026-05-17

Apple Silicon 비용이 OpenRouter보다 더 비쌈

Apple Silicon costs more than OpenRouter

오프라인 LLM 구동 시 Apple Silicon의 전력·운영 비용이 상용 API보다 높을 수 있음을 비교함. 로컬 추론의 경제성이 하드웨어 효율에 크게 좌우됨.

해커뉴스AI/ML265692026-05-29

Paris에서 열린 Mistral AI Now Summit 메모

Notes from the Mistral AI Now Summit in Paris

Mistral AI 행사 현장에서 나온 발표와 분위기를 정리한 현장 노트. 모델 전략과 제품 방향, 유럽 AI 생태계 흐름이 함께 부각됨.

해커뉴스Cloud/Infra2541602026-05-26

노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 훈련

Norway's 2 petabytes of Huawei flash storage and LLM training

노르웨이의 2페타바이트 규모 Huawei 플래시 스토리지가 LLM 훈련 인프라로 활용된 사례를 다룸. 대규모 AI 학습에서 스토리지 용량과 처리 성능의 중요성이 부각됨.

해커뉴스AI/ML2531212026-06-02

MAI-Code-1-Flash

Microsoft AI가 코드 작업에 최적화된 MAI-Code-1-Flash를 소개. 빠른 응답과 경량 추론을 내세운 코딩 특화 모델.

해커뉴스AI/ML239972026-06-08

DeepSeek V4 Pro, GPT-5.5 Pro보다 정밀도에서 우세

DeepSeek V4 Pro beats GPT-5.5 Pro on precision

DeepSeek V4 Pro가 정밀도 벤치마크에서 GPT-5.5 Pro를 앞섬. 최상위 모델 경쟁이 정확도 중심으로 더 치열해지는 흐름.

해커뉴스AI/ML2391142026-05-09

ChatGPT 5.5 Pro에 대한 최근 경험

A recent experience with ChatGPT 5.5 Pro

ChatGPT 5.5 Pro를 실제로 사용해 본 경험을 공유한 글. 모델 성능과 사용감에 대한 관찰이 중심.

해커뉴스AI/ML2391022026-05-05

Agent Skills

에이전트용 스킬 체계를 정리한 글. 작업을 작은 능력 단위로 분리해 도구 호출과 워크플로를 조합하는 방식을 다룸.

해커뉴스AI/ML2361782026-06-14

큰 컨텍스트 윈도우를 믿지 말 것

Don't trust large context windows

대형 컨텍스트 창이 긴 입력을 항상 정확하게 처리하지 못하는 한계를 지적. 프롬프트 길이 확대만으로 신뢰성을 보장할 수 없다는 메시지.

해커뉴스AI/ML2341522026-05-31

데이터센터 GPU를 내 게이밍 PC에 넣어봤다

I put a datacenter GPU in my gaming PC

데이터센터용 GPU를 일반 게이밍 PC에 장착해 로컬 LLM 실행을 시도. 소비자용 GPU와 다른 전력, 발열, 드라이버 제약을 다룸.

해커뉴스AI/ML233512026-06-10

DiffusionGemma: 4배 더 빠른 텍스트 생성

DiffusionGemma: 4x Faster Text Generation

Google이 DiffusionGemma를 공개해 텍스트 생성 속도를 크게 끌어올림. 확산 모델 기반 접근으로 생성 효율 개선을 노림.

해커뉴스AI/ML230852026-06-09

GPT-2: 공개하기에는 너무 위험했던 모델 (2019)

GPT-2: Too Dangerous To Release (2019)

GPT-2 공개 당시의 위험성 논의와 단계적 배포 방식을 되짚은 글. 대형 언어모델의 악용 가능성과 안전성 논쟁을 보여줌.

해커뉴스AI/ML2282682026-05-06

Vibe coding과 agentic engineering은 원치 않게 더 가까워지고 있다

Vibe coding and agentic engineering are getting closer than I'd like

즉흥적 코딩과 에이전트 기반 엔지니어링의 경계가 빠르게 좁혀지고 있다는 관찰. 개발 방식 전환의 속도와 위험을 함께 짚는다.

해커뉴스AI/ML227792026-05-21

2021 MacBook에서 Gemma4-31B로 1년치 비디오를 로컬 인덱싱하기

Indexing a year of video locally on a 2021 MacBook with Gemma4-31B (50GB swap)

2021년형 MacBook에서 대형 모델 Gemma4-31B를 활용해 1년치 비디오를 로컬로 색인화. 50GB 스왑을 동원한 고부하 추론 사례를 다룸.

해커뉴스AI/ML2201212026-06-14

Rio de Janeiro의 "homegrown" LLM은 기존 모델을 병합한 것으로 보임

Rio de Janeiro's "homegrown" LLM appears to be a merge of an existing model

리우데자네이루의 자체 개발 LLM이 사실상 기존 모델의 merge일 수 있다는 의혹이 제기됨. 모델 출처와 독자성 검증이 쟁점으로 부상.

해커뉴스AI/ML2191182026-05-22

DeepSeek가 V4 Pro 가격 할인을 영구 적용

DeepSeek makes the V4 Pro price discount permanent

DeepSeek가 V4 Pro의 할인 가격을 상시 정책으로 전환함. API 가격 경쟁 구도가 더 강해질 가능성이 큼.

해커뉴스AI/ML218552026-05-20

N tokens per second는 실제로 얼마나 빠른가

How fast is N tokens per second really?

토큰/초 지표를 실제 체감 속도와 비교해 해석하는 글. 출력 길이, 프롬프트 처리, 스트리밍 여부에 따라 의미가 달라짐.

해커뉴스AI/ML209412026-05-16

Orthrus-Qwen3: Qwen3에서 최대 7.8배 tokens/forward, 동일한 출력 분포

Orthrus-Qwen3: up to 7.8×tokens/forward on Qwen3, identical output distribution

Orthrus-Qwen3가 Qwen3에서 forward당 처리 토큰 수를 최대 7.8배까지 늘리면서 출력 분포를 동일하게 유지한다고 주장함. LLM 추론 효율 개선을 겨냥한 최적화 기법임.

해커뉴스Dev/Tools206652026-05-07

Metal용 DeepSeek 4 Flash 로컬 추론 엔진

DeepSeek 4 Flash local inference engine for Metal

Metal 기반 로컬 추론 엔진 ds4 공개. Apple Silicon 환경에서 DeepSeek 4 Flash를 로컬로 실행하는 구현.

해커뉴스AI/ML2021952026-06-17

GPT-NL: 네덜란드를 위한 주권형 언어 모델

GPT‑NL: a sovereign language model for the Netherlands

네덜란드가 자국 데이터와 정책 요구를 반영한 주권형 언어 모델 GPT-NL을 추진 중. 국가 단위 AI 인프라와 데이터 통제권 확보를 목표로 함.

해커뉴스AI/ML202872026-06-13

GLM 5.2 공개

GLM 5.2 Is Out

GLM 5.2 최신 버전이 공개됨. 모델 업데이트 소식이 핵심인 릴리스 안내 글.

해커뉴스AI/ML195412026-06-07

Show HN: Lathe – LLMs로 새 도메인을 건너뛰지 말고 배우기

Show HN: Lathe – Use LLMs to learn a new domain, not skip past it

LLM을 단순 자동화가 아니라 도메인 학습 도구로 쓰는 Lathe 소개. 빠른 결과보다 개념 이해와 학습 과정에 초점을 둔 접근을 제안함.

해커뉴스AI/ML193222026-05-05

LLM을 처음부터 직접 학습하는 법

Train Your Own LLM from Scratch

LLM을 사전학습부터 직접 구현하는 오픈소스 저장소. 데이터 준비, 토크나이저, 학습 루프, 추론 과정을 단계적으로 다루는 자료.

해커뉴스Security191772026-06-04

취약한 앱을 만들고 LLM이 해킹할 수 있는지 1,500달러를 써서 실험했다

I built a vulnerable app and spent $1,500 seeing if LLMs could hack it

취약한 애플리케이션을 직접 만든 뒤 여러 LLM의 공격 능력을 시험한 실험기임. 자동화된 취약점 탐지와 익스플로잇 가능성이 어디까지 오는지 비용을 들여 검증함.

해커뉴스AI/ML189882026-05-29

표준 GPU에서 실시간 LLM 추론: 요청당 3k tokens/s

Real-time LLM Inference on Standard GPUs: 3k tokens/s per request

표준 GPU로도 실시간 LLM 추론을 고속 처리하는 방법을 제시. 요청당 초당 3천 토큰 수준의 처리 성능이 핵심.

해커뉴스AI/ML18992026-05-11

Training an LLM in Swift, Part 1: Taking matrix mult from Gflop/s to Tflop/s

해커뉴스AI/ML183702026-05-30

Liquid AI, 38T로 학습한 8B-A1B MoE 공개

Liquid AI reveals 8B-A1B MoE trained on 38T

Liquid AI가 8B-A1B MoE 모델을 공개함. 38T 토큰으로 학습한 대규모 언어 모델로 소개됨.

해커뉴스AI/ML1831292026-05-24

Claude는 아키텍트가 아니다, 그렇게 행동하게 두지 말아야 한다

Claude is not your architect. Stop letting it pretend

Claude를 설계 책임자로 과대해석하지 말라는 비판. LLM은 보조 도구이지 시스템 아키텍처 결정을 대신하는 주체가 아님.

해커뉴스AI/ML1781342026-05-27

next-token prediction은 우리를 어디로 이끄나?

Where does next-token prediction leave us?

next-token prediction 중심의 LLM 발전 경로를 점검. 스케일링만으로는 한계가 있으며 학습 목표와 추론 방식의 전환이 필요하다는 문제의식.

해커뉴스AI/ML1771142026-06-11

DeepSeek 관련 메모

Notes on DeepSeek

DeepSeek에 대한 관찰과 메모를 정리한 글. 모델 성능, 비용 효율, AI 업계 파급 효과를 다룸.

해커뉴스AI/ML174162026-06-11

DeepSeek-R1의 오픈 재현

Open Reproduction of DeepSeek-R1

DeepSeek-R1을 공개적으로 재현한 오픈 프로젝트가 등장함. 오픈 모델 재현성과 학습 절차 검증에 대한 관심이 커짐.

해커뉴스AI/ML172642026-06-05

LLM을 1995년처럼 문서 쓰도록 fine-tuning하기

Fine-tuning an LLM to write docs like it's 1995

1995년식 문서 스타일을 재현하도록 LLM을 미세조정한 실험 소개. 레이아웃과 문체의 복고풍 규칙을 모델에 학습시키는 접근.

해커뉴스AI/ML172452026-05-16

Δ-Mem: 대규모 언어 모델을 위한 효율적 온라인 메모리

Δ-Mem: Efficient Online Memory for Large Language Models

대규모 언어 모델에 적용하는 효율적인 온라인 메모리 기법을 제안. 장기 문맥 유지와 추론 효율 개선을 목표로 함.

해커뉴스AI/ML171622026-05-16

DeepSeek-V4-Flash가 LLM steering을 다시 흥미롭게 만든다

DeepSeek-V4-Flash means LLM steering is interesting again

DeepSeek-V4-Flash를 계기로 LLM steering과 steering vectors의 활용 가능성을 다시 조명. 모델 행동 제어 기법의 실용성을 논의.

해커뉴스AI/ML170632026-05-18

Qwen 3.7 Preview

Alibaba의 Qwen이 새 프리뷰 버전을 공개했다. 차세대 모델 성능과 기능 개선을 예고하는 발표다.

해커뉴스AI/ML16922026-05-24

DeepSeek, 플래그십 AI 모델에 75% 영구 할인 적용

DeepSeek to Make Permanent 75% Discount on Flagship AI Model

DeepSeek가 주력 AI 모델 가격을 75% 낮춘 상태로 상시 유지하기로 함. AI 모델 가격 경쟁이 본격화되는 신호로 해석됨.

해커뉴스AI/ML167722026-06-18

Local Qwen은 Opus의 하위호환이 아니라 다른 도구

Local Qwen isn't a worse Opus, it's a different tool

로컬 Qwen을 Claude Opus의 대체재가 아니라 용도가 다른 도구로 보는 관점을 제시. 비용, 지연시간, 실행 환경에 따라 모델 선택 기준이 달라진다는 점을 강조.

해커뉴스AI/ML1591222026-05-26

LLM을 위한 수면 유사 통합 메커니즘

A sleep-like consolidation mechanism for LLMs

LLM이 학습 내용을 통합하는 과정을 수면 같은 메커니즘으로 설명한 연구. 모델이 기억을 정리하고 안정화하는 방법을 다루는 아카이브 논문.

해커뉴스AI/ML155772026-05-09

Teaching Claude Why

Claude에게 단순한 정답보다 이유를 설명하게 만드는 연구 내용. 모델의 추론 과정과 설명 가능성을 높이는 방법을 다룸.

해커뉴스Dev/Tools150552026-05-11

Claude를 사용자 공간 IP 스택으로 동작시켰을 때 ping 응답 속도

How Fast Does Claude, Acting as a User Space IP Stack, Respond to Pings?

Claude를 사용자 공간 IP 스택처럼 동작시키고 ping 응답 지연을 측정한 실험. LLM을 네트워크 계층에 끼워 넣는 비정상적 구현 가능성을 검증함.

해커뉴스AI/ML148492026-05-12

Show HN: Needle: Gemini 툴 호출을 26M 모델로 증류

Show HN: Needle: We Distilled Gemini Tool Calling into a 26M Model

Gemini의 툴 호출 동작을 2,600만 파라미터 모델로 증류한 프로젝트. 소형 모델 기반의 tool calling 재현이 핵심.

해커뉴스AI/ML146912026-05-22

Project Glasswing: 초기 업데이트

Project Glasswing: An Initial Update

Anthropic의 Project Glasswing 진행 상황이 초기 단계에서 공개됨. 연구 업데이트를 통해 프로젝트 방향과 진척을 공유.

해커뉴스AI/ML140662026-05-24

Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성

Constraint Decay: The Fragility of LLM Agents in Back End Code Generation

백엔드 코드 생성에서 LLM 에이전트가 제약 조건을 유지하지 못하면 품질이 급격히 무너진다는 연구. 제약이 누적되며 약해지는 constraint decay 현상을 분석.

해커뉴스AI/ML140432026-05-15

GGUF 안에는 가중치 외에 무엇이 들어 있고, 무엇이 아직 빠져 있나?

What's in a GGUF, besides the weights – and what's still missing?

GGUF 파일 포맷이 가중치 외에 담는 메타데이터와 구조를 정리하고, 여전히 부족한 부분을 짚는다. 로컬 LLM 배포용 포맷의 표준화 이슈를 다룬다.

해커뉴스Dev/Tools138122026-05-30

Show HN: Tiny-vLLM – C++와 CUDA 기반 고성능 LLM 추론 엔진

Show HN: Tiny-vLLM – high performance LLM inference engine in C++ and CUDA

C++와 CUDA로 구현한 Tiny-vLLM이 소개됨. LLM 추론 성능을 높이기 위한 경량 엔진을 목표로 함.

해커뉴스AI/ML1371782026-05-28

프롬프트 공손함이 LLM 정확도에 미치는 영향 분석 (2025)

Investigating how prompt politeness affects LLM accuracy (2025)

프롬프트의 공손한 표현이 LLM 정확도에 어떤 영향을 주는지 검증한 연구. 2025년 논문.

해커뉴스AI/ML135282026-06-07

추측적 KV 코딩: KV 캐시를 최대 약 4배 무손실 압축

Speculative KV coding: losslessly compressing KV cache by up to ~4×

LLM 추론의 KV 캐시를 무손실로 최대 약 4배 압축하는 기법을 제안함. 저장 공간과 메모리 대역폭 부담을 줄여 추론 효율 개선을 노림.

해커뉴스AI/ML134422026-06-17

GLM 5.2 성능 벤치마크

GLM 5.2 Performance Benchmarks

GLM 5.2의 성능 벤치마크를 정리한 글. 여러 기준에서 최신 모델의 역량을 비교해 확인함.

해커뉴스AI/ML132132026-06-05

Huawei의 vLLM용 KV-cache 양자화 네이티브 백엔드 KVarN

KVarN: Native vLLM backend for KV-cache quantization by Huawei

vLLM에서 KV-cache 양자화를 지원하는 네이티브 백엔드 KVarN을 소개. 메모리 사용량과 추론 효율 개선을 노린 구성.

해커뉴스AI/ML131722026-05-07

ProgramBench: 언어 모델은 프로그램을 처음부터 다시 만들 수 있는가

ProgramBench: Can language models rebuild programs from scratch?

언어 모델이 기존 코드 없이 프로그램을 재구성할 수 있는지 평가하는 벤치마크. 코드 복원 능력과 추론 한계를 측정하는 연구.

해커뉴스AI/ML1291102026-06-15

AI는 코드다 – 그리고 프롬프트만으로 더 똑똑해질 수는 없다

AI is code – and can't be prompted into being smarter

AI를 코드로 보는 관점에서, 프롬프트만으로 근본적인 지능 향상을 기대하는 접근에 반대함. 성능 개선은 모델 설계와 학습, 시스템 구조의 문제라는 주장.

해커뉴스AI/ML129472026-06-11

Claude Fable 5: 코딩 작업에서 중간 수준 성능

Claude Fable 5: mid-tier results on coding tasks

Claude Fable 5가 코딩 벤치마크에서 최상위권은 아니고 중간 수준 결과를 보임. 과장된 기대와 실제 성능 간 간극이 부각됨.

해커뉴스AI/ML128352026-06-14

Rio de Janeiro 시정부 모델 Rio3.5, 최근 벤치마크에서 Qwen3.7 제쳐

Rio de Janeiro's city government model Rio3.5 beats Qwen3.7 in recent benchmarks

Rio de Janeiro 시정부 모델 Rio3.5가 최근 벤치마크에서 Qwen3.7보다 높은 성능을 기록했다는 주장. 지역 모델의 성능 경쟁력이 다시 부각됨.

해커뉴스Dev/Tools128292026-05-20

LLM 시대를 위한 TLA+ 입문: 프롬프트로 승리하기

Intro to TLA+ for the LLM Era: Prompt Your Way to Victory

LLM 워크플로에 TLA+를 적용하는 방법을 소개한 글. 프롬프트와 형식 검증을 결합해 설계 오류를 줄이는 접근을 다룬다.

해커뉴스Dev/Tools127652026-06-06

Show HN: Lowfat – 내 LLM 토큰의 91.8%를 절약한 플러그형 CLI 필터

Show HN: Lowfat – pluggable CLI filter that saved 91.8% of my LLM tokens

CLI 출력을 걸러 LLM에 보내는 토큰을 크게 줄이는 플러그형 필터 도구 Lowfat 소개. 사용 사례에서 토큰 사용량을 91.8% 절감했다고 주장.

해커뉴스AI/ML1271032026-05-30

수수께끼의 Hy3 LLM이 OpenRouter 모델 랭킹을 큰 격차로 선도

The mysterious Hy3 LLM is topping OpenRouter Model Rankings by a large margin

정체가 불분명한 Hy3 LLM이 OpenRouter 모델 랭킹에서 큰 격차로 상위권을 차지함. 모델 출처와 순위의 의미를 둘러싼 관심이 커짐.

해커뉴스Dev/Tools1261042026-05-26

LLM에는 boring languages를 사용하라

Use boring languages with LLMs

LLM 개발에는 복잡한 최신 언어보다 단순하고 보수적인 언어가 유리하다는 주장. 유지보수성과 예측 가능성을 강조함.

해커뉴스AI/ML1211792026-06-08

내 "LLM이 내 경력을 잠식하고 있다" 글에 달린 댓글들에 대한 답변

Replies to comments on my "LLMs are eroding my career" post

LLM이 커리어를 잠식한다는 주장에 대한 반응과 논점을 정리한 글. AI 도입이 개발자 경력과 일자리 인식에 미치는 영향이 중심 주제.

해커뉴스AI/ML120472026-06-11

기초 AI 에이전트를 처음부터 만들기: 장기 작업 계획

Build a Basic AI Agent from Scratch: Long Task Planning

장기 작업을 처리하는 기본 AI 에이전트 구현 방법을 설명한 글. 작업 분해와 계획 수립을 통해 에이전트의 실행 흐름을 설계하는 내용.

해커뉴스AI/ML116452026-06-02

MAI-Thinking-1

Microsoft AI가 추론 중심 모델 MAI-Thinking-1을 공개. 복잡한 사고와 문제 해결 성능을 강조한 신규 모델 라인업.

해커뉴스AI/ML115502026-06-04

제품 전반에서 Claude를 어떻게 격리하는가

The ways we contain Claude across products

Anthropic가 제품별로 Claude를 안전하게 분리·제어하는 방식을 정리함. 권한, 데이터 흐름, 실행 경계를 나눠 오용과 사고를 줄이는 접근을 설명함.

해커뉴스AI/ML115302026-05-09

LLM은 TLA+에서 현실 세계 시스템을 모델링할 수 있는가?

Can LLMs model real-world systems in TLA+?

LLM의 현실 시스템 TLA+ 모델링 가능성을 다룬 기술 글. 형식 검증과 추론의 한계를 함께 점검함.

해커뉴스AI/ML115222026-05-08

Unsloth와 NVIDIA로 LLM 학습 속도 높이기

Making LLM Training Faster with Unsloth and NVIDIA

Unsloth와 NVIDIA 협업을 통해 LLM 학습 속도와 효율을 개선하는 방법을 소개한 글. 대형 모델 학습의 병목을 줄이는 최적화 접근이 핵심.

해커뉴스AI/ML115152026-05-06

Wiki Builder: LLM Knowledge Base를 구축하는 Skill

Wiki Builder: Skill to Build LLM Knowledge Bases

Claude Code 플러그인 형태로 LLM 지식베이스를 만드는 Skill 소개. 문서 수집, 정리, 연결을 자동화하는 워크플로우에 초점.

해커뉴스AI/ML1131062026-05-04

LLM은 더 높은 수준의 추상화가 아니다

LLMs Are Not a Higher Level of Abstraction

LLM을 기존 소프트웨어 추상화의 상위 계층으로 보는 시각에 반론을 제기함. 생성형 모델은 추상화 계층보다 확률적 시스템에 가깝다는 관점을 제시함.

해커뉴스AI/ML111372026-05-07

자연어 오토인코더: Claude의 생각을 텍스트로 바꾸기

Natural Language Autoencoders: Turning Claude's Thoughts into Text

Anthropic이 자연어 오토인코더 연구를 공개. Claude의 내부 표현을 텍스트로 압축·복원하는 접근을 제시.

해커뉴스AI/ML110152026-05-01

LLM용 고급 양자화 알고리즘

Advanced Quantization Algorithm for LLMs

Intel의 auto-round가 LLM 압축을 위한 고급 quantization 알고리즘을 제공함. 추론 효율을 높이고 모델 배포 비용을 줄이는 데 초점을 둠.

해커뉴스AI/ML107382026-05-03

언어 모델의 거부 반응은 하나의 방향 벡터로 매개된다

Refusal in Language Models Is Mediated by a Single Direction

언어 모델의 refusal 행동이 단일한 표현 방향으로 설명될 수 있다는 연구. 안전 거부 메커니즘의 내부 구조를 해석하려는 접근이다.

해커뉴스AI/ML102102026-05-18

Harness Engineering 배우기

Learn Harness Engineering

AI 모델을 안정적으로 제어하기 위한 harness engineering 개념과 실무를 소개한다. 평가, 안전장치, 출력 제어가 핵심 주제다.

해커뉴스AI/ML102542026-05-08

ZAYA1-8B, 1B 미만 활성 파라미터로 DeepSeek-R1 수준의 수학 성능 달성

ZAYA1-8B matches DeepSeek-R1 on math with less than 1B active parameters

ZAYA1-8B가 매우 적은 활성 파라미터로 수학 벤치마크에서 DeepSeek-R1에 맞먹는 성능을 보였다는 내용. 소형 모델의 효율성과 추론 성능 경쟁이 부각됨.

해커뉴스AI/ML101122026-05-22

Multi-Stream LLMs: 프롬프트, 사고, I/O를 병렬화·분리하는 새 논문

Multi-Stream LLMs: new paper on parallelizing/separating prompts, thinking, I/O

프롬프트 처리, 추론, 입출력 흐름을 분리해 병렬화하는 LLM 아키텍처를 다룬 새 논문. 모델 실행 구조 최적화와 처리 효율 개선을 겨냥.

해커뉴스AI/ML101502026-05-11

AMÁLIA and the future of European Portuguese LLMs

해커뉴스AI/ML100502026-05-03

Show HN: Hacker News 댓글러 기준 Coding Models의 현황

Show HN: State of the Art of Coding Models, According to Hacker News Commenters

Hacker News 댓글 반응을 바탕으로 코딩 모델의 현재 구도를 정리한 Show HN 게시물. 모델별 평가 인식과 선호 경향을 한눈에 볼 수 있게 구성됨.