검색 결과

2016년형 단일 Intel Xeon E5-2620 v4와 DDR3 128GB, GPU 없는 서버에서 Gemma 4 26B-A4B를 ik_llama.cpp 최적화로 구동함. LLM 디코더 패스는 연산보다 메모리 대역폭이 병목이며, CPU 서버도 읽기 속도 수준의 추론이 가능함.

153

GeekNewsAI/ML2026-06-02

MiniMax-M3 데뷔, 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 5-10% 수준

MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준

중국 AI 스타트업 MiniMax가 오픈 웨이트 멀티모달 대형언어모델 M3를 공개함. 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 앞서고 비용은 기존 상용 모델의 5~10% 수준이라고 주장함.

154

GeekNewsDev/Tools2026-06-01

Show GN: Spanlens - LLM 호출과 agent trace를 한 곳에서 보는 오픈소스 관측 플랫폼

Show GN: Spanlens - LLM 호출과 에이전트 trace를 한 곳에서 보는 오픈소스 관측 플랫폼

LLM 호출 로깅, 비용 추적, agent trace를 한 화면에서 볼 수 있는 오픈소스 관측 플랫폼 Spanlens가 소개됐다. 사이드 프로젝트에서 누적되는 호출 비용과 추적 문제를 줄이기 위한 도구다.

155

GeekNewsDev/Tools2026-06-01

Show GN: MMRequest - vision LLM API 호출 때마다 수동 base64 변환하나요, 빡쳐서 만든 Chrome 확장

Show GN: MMRequest - 혹시 vision LLM API 부를 때마다 손으로 base64 변환하시나요 - 빡쳐서 만든 Chrome 확장

vision 또는 audio LLM API를 쓸 때 반복되는 base64 변환을 자동화한 Chrome 확장 MMRequest가 공개됐다. Postman에서 이미지와 오디오를 매번 변환하던 불편을 줄이는 도구다.

156

GeekNewsAI/ML2026-06-01

£200로 데이터센터 GPU를 게이밍 PC에 넣기

RTX 4080 16GB의 VRAM 한계를 보완하려고 중고 Tesla V100 SXM2 16GB를 어댑터와 함께 약 £200에 추가해 총 32GB VRAM 구성을 만들었음. 서버용 GPU를 PCIe 환경에 얹는 방법과 로컬 LLM 용도의 확장성을 보여줌.

157

GeekNewsAI/ML2026-06-01

LLM 시대의 엔지니어링

Reindeer에서 1년 반 동안 정리한 LLM 시대의 제품·조직 설계 노트. 인간의 컨텍스트가 가장 희소한 자원이며, 콘텐츠 생산량 증가와 소비 속도 정체 사이의 격차를 전제로 업무 구조를 재설계해야 한다는 주장.

158

GeekNewsDev/Tools2026-06-01

웹사이트 명세

The Website Specification

좋은 웹사이트가 갖춰야 할 기술 기능을 플랫폼과 무관하게 정리한 명세. title부터 llms.txt까지 다루며, 사람과 에이전트를 모두 대상으로 WHATWG, W3C, IETF RFCs, WCAG, MDN 같은 현대 웹 표준을 참고함.

159

GeekNewsDev/Tools2026-05-30

Flathub, LLM 기반 제출을 허용하지 않음

Flathub가 LLM으로 대량 생성된 저품질 제출로 인한 리뷰어 부담을 이유로 정책을 명확히 함. 커뮤니티 참여와 지속적인 프로젝트 맥락이 있는 제출만 예외 가능성이 거론됨.

160

GeekNewsDev/Tools2026-05-30

MCP는 죽었나?

MCP는 LLM과 외부 도구를 연결하지만, 개발 워크플로에서는 컨텍스트 비용과 운영 복잡성이 큰 부담으로 드러남. Linear·Notion·Slack·Postgres 도구 정의만으로도 수만 토큰이 소모돼 실사용 효율에 의문이 제기됨.

161

GeekNewsAI/ML2026-05-29

Show HN: Continue? Y/N, AI 에이전트 권한 피로를 다룬 60초 게임

Show HN: Continue? Y/N: AI 에이전트 권한 피로에 관한 60초 게임

AI 명령 승인 피로를 60초 게임으로 만든 실험 작품. 사용자가 에이전트의 권한 요청을 얼마나 꼼꼼히 읽고 처리하는지 시험함.

162

GeekNewsAI/ML2026-05-29

Various LLM Smells

LLM 보조 글쓰기가 어휘와 문장 구조를 개선했지만, 시간이 지나며 강한 결론형 문장과 짧은 문장 연속 같은 반복 패턴이 널리 퍼짐. AI 글의 기계적 흔적을 'smells' 관점에서 정리한 글.

163

GeekNewsDev/Tools2026-05-29

Rust에서 Ruby로

Tera와 Axum 기반 약 1.5만 줄 규모의 Rust 웹앱을 Ruby on Rails로 옮겨보는 개인 실험. Playwright E2E, 격리 DB, 모킹 서비스, 내부 API 크레이트 등으로 유지비가 커서 LLM 보조 개발의 효용을 비교함.

164

GeekNewsDev/Tools2026-05-29

CodeBoarding - 코드베이스용 인터랙티브 아키텍처 다이어그램

오픈소스 도구 CodeBoarding이 코드베이스를 자동 분석해 고수준 아키텍처 다이어그램과 주요 컴포넌트 문서를 생성. 정적 분석과 LLM 추론을 결합해 사람과 AI 에이전트가 함께 보는 코드 지도를 만든다.

165

GeekNewsAI/ML2026-05-29

실제 팩트체크에서 프런티어 LLM 간 불일치

프런티어 LLM 5종이 실제 사용자 제출 클레임 1,000개 중 67%에서 판정이 엇갈림. 다수 판정은 정답이 아니라 불일치 지표에 가깝고, 단일 모델 기반 팩트체크의 한계가 드러났다.

166

GeekNewsGeneral Tech2026-05-29

Show GN: 쿠팡 가계부

쿠팡 구매 목록을 가져와 LLM으로 자동 분류하는 가계부 도구를 제작. 크롬 확장으로 구매 내역을 받아와 지출 항목을 대략적으로 추적하는 방식.

167

GeekNewsAI/ML2026-05-28

Anthropic, Claude Opus 4.8 출시

# Anthropic, Claude Opus 4.8 출시

Anthropic이 최상위 모델 Claude Opus의 업그레이드 버전인 4.8을 출시함. 이전 4.7 대비 벤치마크 성능과 협업 능력을 개선했고 가격은 동일하게 유지됨.

168

GeekNewsAI/ML2026-05-28

AI와 대화하는 데 지쳤어요

악성코드 대응을 AI에 물었지만 유용한 답을 얻지 못한 사례. 커뮤니티 토론에서도 같은 AI식 답변이 반복되며 검증과 대응 품질 문제를 드러냄.

169

GeekNewsCloud/Infra2026-05-27

유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링

LG AI연구원이 LLM 서비스 운영 중 남는 inference GPU를 연구·실험 작업에 재활용한 사례를 소개함. 운영용 GPU 풀의 유휴 시간을 활용해 자원 효율과 작업 처리율을 높이는 방식이다.

170

GeekNewsCloud/Infra2026-05-26

노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

노르웨이 국립도서관이 노르웨이어를 이해하는 주권 LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입. 영어 중심 상용 모델의 한계를 보완해 지역 언어와 문화 기록을 학습시키려는 목적.

171

GeekNewsGeneral Tech2026-05-26

글쓰기의 사회적 계약

LLM 글쓰기가 블로그·SNS·신문·책까지 확산되며 문체가 균질해지는 문제를 지적. 독자는 필자의 지적 노고를 기대하지만, AI 사용은 품질과 별개로 신뢰와 가치 인식에 영향을 줌.

172

GeekNewsDev/Tools2026-05-26

AI를 사용해 더 나은 코드를 더 천천히 작성하기

AI 코딩은 저품질 코드를 빠르게 찍어내는 방식뿐 아니라 PR을 깊게 검토해 더 나은 코드를 천천히 만드는 데도 활용 가능. 버그 탐지보다 발견 항목의 우선순위 지정과 검증이 더 큰 과제로 제시됨.

173

GeekNewsAI/ML2026-05-26

끝나지 않는 Sloptember

영원한 Sloptember

AI 에이전트가 실제 프로그래밍보다 출력 분포를 흉내 내는 데 치우친다는 비판. 깨진 결과물이 점점 알아보기 어려워지고, 직접 구현이 더 빠르고 나을 수 있다는 회의론을 제기.

174

GeekNewsAI/ML2026-05-26

중국 DeepSeek, V4-Pro API 75% 영구 가격 인하 단행

중국 딥시크, V4-Pro API 75% 영구 가격 인하 단행

DeepSeek가 주력 모델 V4-Pro API 가격을 75% 영구 인하. 글로벌 AI 모델 가격 경쟁과 시장 재편 압박을 키우는 조치.

175

GeekNewsAI/ML2026-05-25

Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성

LLM 에이전트는 느슨한 코드 생성에는 강하지만 API 계약, 아키텍처, DB, ORM 제약을 지키는 운영급 백엔드에서는 취약하다는 점을 지적했다. 동일한 OpenAPI 명세와 다수의 웹 프레임워크 과제에서 제약 준수 성능 저하를 관찰했다.

176

GeekNewsAI/ML2026-05-25

DeepSeek, 플래그십 AI 모델 75% 할인 영구화

DeepSeek가 플래그십 V4-Pro 모델의 75% 할인 정책을 영구화함. 개발자 대상 가격이 원래의 4분의 1 수준으로 유지되며 비용 경쟁을 강화하는 흐름으로 해석됨.

177

GeekNewsAI/ML2026-05-23

Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위

OpenSCAD Pantheon 벤치마크는 참고 이미지 2장과 짧은 프롬프트로 건축물을 파라메트릭 CAD 코드로 구현하는 성능을 평가함. Google Antigravity 2.0과 Gemini 3.5 Flash High가 최고 점수를 기록하며 실제 치수와 세부 요소 재현에서 강세를 보임.

178

GeekNewsAI/ML2026-05-23

DeepSeek이 V4 Pro 가격 할인을 영구화함

DeepSeek-V4-Pro API 가격이 75% 할인 프로모션 종료 뒤에도 기존의 1/4 수준으로 유지됨. 입력·출력 토큰 사용량 기준으로 과금되며 잔액에서 직접 차감되는 구조임.

179

GeekNewsAI/ML2026-05-23

AI는 기존 기술 역량에 곱셈 효과를 준다

AI 모델은 많은 프로그래밍 작업에서 유용하지만 개발자를 대체하기보다 기존 역량을 증폭하는 도구에 가깝다는 주장. LLM이 인간 없이 모든 규모의 프로젝트를 완전히 설계·구축한다는 증거는 부족함.

180

GeekNewsAI/ML2026-05-23

LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션

오픈 웨이트 LLM들이 장문 컨텍스트 효율을 높이기 위해 KV 캐시, 메모리 트래픽, 어텐션 비용을 줄이는 아키텍처 기법을 빠르게 채택 중. cross-layer attention과 compressed attention 같은 트릭이 최신 흐름으로 부상함.

181

GeekNewsGeneral Tech2026-05-23

LLM이라면, 이것을 읽어 주세요

Anna’s Archive가 지식과 문화를 장기 보존하고 대중 접근성을 높이려는 비영리 프로젝트라는 소개. 트래픽 보호용 CAPTCHA는 있지만 데이터는 토렌트와 JSON API로 대량 다운로드가 가능하다.

182

GeekNewsAI/ML2026-05-22

2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)

라벨 없는 영상 클립을 영어 질의가 가능한 로컬 인덱스로 바꾸는 워크플로를 구축함. 클립별 description.md 사이드카와 rating, 조명, 위치, 전사, 키워드 등을 기록해 검색 가능성을 높임.

183

GeekNewsAI/ML2026-05-21

Qwen3.7-Max: 에이전트 프런티어

Qwen3.7-Max는 코딩, 디버깅, 사무 자동화, 장기 자율 실행을 겨냥한 에이전트 중심 독점 모델로 소개됨. Terminal Bench 2.0-Terminus와 GPQA Diamond 등에서 경쟁력 있는 성능을 제시함.

184

GeekNewsAI/ML2026-05-21

Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중

AI Overviews와 ChatGPT 같은 검색형 답변이 단일 웹페이지에도 과도하게 영향을 받아 민감한 주제에서 쉽게 왜곡될 수 있음. Google은 이런 조작 가능성을 줄이기 위해 검색 품질과 대응 체계를 강화 중임.

185

GeekNewsAI/ML2026-05-20

Forge - 가드레일로 8B 모델을 에이전트 작업에서 53%에서 99%로 끌어올리는 도구

자체 호스팅 LLM의 도구 호출 신뢰성 계층. rescue parsing, 재시도, 필수 단계 강제, VRAM 인식 토큰 예산으로 작은 로컬 모델의 에이전트 워크플로 안정성을 높임.

186

GeekNewsAI/ML2026-05-20

Gemini 3.5 Flash

프런티어급 지능과 실행 능력을 결합한 Gemini 3.5 Flash가 공개됨. 속도는 Flash급으로 유지하면서 장기 에이전트 작업과 코딩 벤치마크에서 Gemini 3.1 Pro를 앞섬.

187

GeekNewsAI/ML2026-05-20

Andrej Karpathy, Anthropic에 합류

Andrej Karpathy가 Anthropic에 합류해 다시 R&D에 참여한다고 밝힘. 향후 몇 년이 LLM 최전선에서 중요한 시기라고 보고, 여건이 되면 교육 관련 활동도 재개할 뜻을 내비침.

188

GeekNewsAI/ML2026-05-20

LLM의 지난 6개월을 5분 만에 보기

최근 6개월 동안 LLM 시장의 기준점이 2025년 11월로 이동했고, 코딩 에이전트와 노트북 실행 모델이 주요 흐름으로 부상한 것으로 정리됨. Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 경쟁하며 프론티어 모델 구도가 빠르게 바뀜.

189

GeekNewsAI/ML2026-05-20

Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀으로

OpenAI 공동 창립 멤버이자 전 Tesla AI 디렉터인 Andrej Karpathy가 Anthropic 합류를 공식 발표함. 향후 몇 년간 LLM 프론티어에서의 작업에 집중하겠다고 밝혔고, Claude pre-training 팀 합류가 주목됨.

190

GeekNewsAI/ML2026-05-18

Apple Silicon은 OpenRouter보다 비용이 더 든다

로컬 추론 비용은 전기료보다 기기 가격이 더 큰 변수라는 분석. M5 Max MacBook Pro 같은 고가 하드웨어는 전력비가 낮아도 총비용이 높을 수 있음.

191

GeekNewsAI/ML2026-05-18

DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 ...

DystopiaBench에 새로운 디스토피아 모듈과 다수의 최신 모델을 추가해 평가 범위를 확장. 다중 심사 기반의 고동의 조건으로 모델 행동을 더 엄격히 검증함.

192

GeekNewsDev/Tools2026-05-18

whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기

하드웨어를 자동 감지해 실측 벤치마크 기준으로 로컬 LLM을 추천하는 CLI 도구. NVIDIA, AMD, Apple Silicon, CPU-only까지 지원해 사용 가능한 모델을 랭킹으로 제시.

193

GeekNewsAI/ML2026-05-18

Show GN: Lemini — 두 가지 모드로 동작하는 법률 자문 챗봇

Show GN: Lemini — 두 가지 모드로 동작하는 법 자문 챗봇

한국 법령과 판례를 자연어로 질의하는 RAG 챗봇 Lemini를 공개. 법률 질문 특성에 맞춰 두 가지 동작 모드로 응답 품질과 활용성을 나누는 구조를 제안.

194

GeekNewsDev/Tools2026-05-17

Zerostack - 순수 Rust로 만든 Unix 영감 코딩 에이전트

Zerostack - 순수 Rust로 작성된 Unix에서 영감을 받은 코딩 에이전트

순수 Rust 기반의 최소형 코딩 에이전트. 여러 LLM 제공자와 커스텀 제공자를 지원하고, 파일 편집·grep·MCP·권한 게이트 Bash·Exa 웹 도구를 제공함.

195

GeekNewsAI/ML2026-05-17

일론 머스크, Cursor 인수 계약 후 "Cursor 데이터로 Grok V9 보강 훈련 예정"

머스크가 X에서 Grok v4.3과 개발 중인 V9 훈련 현황을 공개함. V9는 1.5T 파라미터로 방금 훈련을 마쳤다고 밝혔으며, Cursor 데이터 활용 가능성을 언급함.

196

GeekNewsDev/Tools2026-05-17

Show GN: glowed - Ghostty용 터미널 Markdown 브라우저/에디터

Ghostty 터미널에서 프로젝트 내 Markdown 문서를 검색·미리보기·편집하는 TUI 도구. 지식 관리용 .md 파일 탐색과 LLM CLI 연계를 빠르게 하려는 용도로 제작됨.

197

GeekNewsAI/ML2026-05-17

DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다

DwarfStar 4가 llama.cpp를 DeepSeek-V4-Flash 전용으로 줄여 로컬 LLM 조향 실험을 쉽게 만듦. 개념 활성 차이를 벡터로 뽑아 추론 중 더해 행동을 바꾸는 방식이 핵심이다.

198

GeekNewsGeneral Tech2026-05-16

"LLM이 쓴 글이다" 댓글은 주제 이탈로 신고해야 함

Lobsters에서 LLM 생성 글 금지와 태그 변경 논의가 이어졌지만, 낮은 노력과 낮은 정보량의 게시물은 스팸 신고로 처리하자는 방향에 합의가 모임. 단순히 생성 여부만 지적하는 댓글은 내용 토론이 아니라 주제 이탈로 간주됨.

199

GeekNewsGeneral Tech2026-05-16

LLM 생성 제출물은 금지되어야 한다

사이트에 LLM 생성 글을 상시 게시하는 사용자를 차단해야 한다는 주장. 제출 페이지에 생성형 AI 작성물 금지 정책을 명시해야 한다는 논의임.

200

GeekNewsDev/Tools2026-05-16

Show GN: Claude Code / Codex CLI의 무거운 코드 생성을 로컬 LLM으로 위임하는 플러그인 (tunaLlama)

Show GN: Claude Code / Codex CLI 의 무거운 코드 생성을 로컬 LLM 으로 위임하는 Plug-in (tunaLlama)

Claude Code와 Codex CLI의 긴 코드 생성 작업을 로컬 LLM으로 넘겨 토큰 사용량을 줄이는 위임 도구. 출력이 많은 단계는 결정적 성격이 강해 로컬 모델로 분산하기 적합하다는 접근.