검색 결과
"llm" · 102개 기사 · GeekNews
Show GN: oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시
Show GN: oh-my-free-models - 무료 LLM 중 지금 가장 빠른 모델로 코딩 에이전트를 라우팅하는 로컬 프록시
코딩 에이전트를 여러 무료 LLM 공급자 중 현재 가장 빠른 모델로 자동 라우팅하는 로컬 프록시. OpenAI·Anthropic 계열 호출을 중간에서 분산 처리하는 구조임.
Bifrost - 초고속 엔터프라이즈 AI 게이트웨이
Bifrost - 초고속 엔터프라이즈 AI 게이트웨이
LiteLLM 대비 대폭 낮은 오버헤드를 내세운 엔터프라이즈용 AI 게이트웨이 프로젝트가 공개됨. 적응형 로드 밸런싱, 클러스터 모드, 가드레일, 1,000개 이상 모델 지원을 제공한다.
Gemma 4 MTP 은폐 후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원
Gemma 4 MTP 은폐후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원
Google이 Gemma 4의 MTP 학습 흔적을 공개 배포판에서 제거했다는 의혹이 제기됨. 커뮤니티의 역공학 이후 외부 보조 모델 형태의 우회 지원이 뒤늦게 추가됨.
LLM이 우리의 문자 언어를 왜곡하는 방식
LLM이 우리의 문자 언어를 왜곡하는 방식
LLM은 글쓰기 보조 효율을 높이지만, 인간 문장을 수정할 때 결론·입장·논증 구조를 바꾸는 경향이 확인됨. 인간 편집과 다른 방향의 의미 변형을 유발할 수 있음.
Show GN: LiteRT-LM-Unity - LiteRT-LM용 유니티 안드로이드 래퍼
안드로이드 온디바이스 LLM을 개발하고 있습니다. 기존엔 whisper.cpp를 쓰고 있는데 GPU 가속이 되지 않아 속도에 대한 갈증이 있었습니다. LiteR...
Show GN: HydraLLM: 지능형 오케스트레이터
Show GN: HydraLLM: 지능형 오케스트레이터
여러 LLM 리소스를 효율적으로 활용하도록 설계된 컨텍스트 인지 게이트웨이. Gemini, Groq 등 복수 모델을 묶어 오케스트레이션하는 구조임.
LLM 시대, DB는 단순 저장소를 넘어서는 중
LLM 시대, DB도 단순 저장소를 넘어서는 중
데이터베이스가 단순 저장소를 넘어 LLM과 Agent 실행 계층으로 확장되는 흐름. 시계열 DB도 저장, 실행, 도구 연계를 포함한 런타임 방향으로 이동.
Show GN: axon - 브라우저에서 관리하는 ai 오케스트레이터 알파
개념 검증 영상입니다.편집없이 작업했고 서버 사양이 사양인 만큼 인내심이필요합니다. 로컬llm은 i7 하스웰 16gb 1050ti에 airllm을 이용해서 ol...
LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다
LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다! (arXiv 논문)
RL 학습 시 프롬프트 앞에 Lorem ipsum 같은 무작위 라틴어 텍스트를 붙이면 추론 성능이 개선된다는 LoPE 논문 소개. 입력 접두사가 모델의 reasoning 행동에 영향을 줄 수 있음을 보였다.
결정론적 아키텍처: 할루시네이션의 확률적 편차를 통제해 연속성을 보장하는 기호적 통제
결정론적 아키텍처 : 할루시네이션의 확률적 편차를 통제하여, 무한한 연속성을 보장하는 기호적 통제 ...
에이전트 워크플로우와 LLM-as-a-Judge 기반 자율 교정을 비판적으로 검토하며, 할루시네이션 변동을 제어하는 결정론적 아키텍처를 제안. 상업성과 안정성을 높이기 위한 기호적 통제 관점을 강조한다.
AI에게 매번 같은 설명을 하지 않기 위해 만든 gc-tree
Show GN: AI에게 매번 같은 설명을 하지 않기 위해 만든 gc-tree
AI 코딩 에이전트용 글로벌 컨텍스트 관리 도구 gc-tree 소개. 세션이 바뀌어도 같은 설명을 반복하지 않도록 컨텍스트를 유지하는 방식.
Gemento: 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강해보는 실험 하네스
Show GN: Gemento: 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강해보는 실험 하네스
작은 로컬 LLM이 긴 작업을 얼마나 버티는지 실험하는 하네스 공개. 외부 상태, 도구, 역할, 반복 루프로 수행 능력을 보강하는 구조.
GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교
GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교
오픈소스 저장소 Zod와 graphql-go-tools에서 추출한 56개 실제 코딩 작업으로 GPT-5.5, GPT-5.4, Opus 4.7의 패치 품질을 비교함. 모델별 실제 수정 성능 차이를 정량 평가한 벤치마크 결과.
Show GN: AI Universal Translator — 로컬 LLM/Gemini 지원 데스크톱 번역·요약 앱
Show GN: AI Universal Translator — 로컬 LLM/Gemini 지원 데스크톱 번역·요약 앱
Tauri 2, Rust, React, TypeScript로 만든 데스크톱 번역·요약 앱. 로컬 LLM과 Gemini를 함께 지원하며 긴 텍스트 처리에 초점을 맞춤.
Show GN: Clutio – 웹에서 읽으며 외국어를 공부하는 Chrome 확장 (서버·로그인 없음)
Show GN: Clutio – 웹에서 읽으며 외국어를 공부하는 크롬 확장 (서버·로그인 없음)
웹 페이지의 단어를 클릭하면 문맥 기반으로 뜻을 알려주는 Chrome 확장. 번역기 탭 전환 없이 뉴스·논문·문서 읽기 흐름에서 어휘 학습을 돕고 서버와 로그인도 필요 없음.
로컬 모델 실행이 이제 좋아졌다
로컬 모델 실행이 이제 좋아졌다
M2 Mac 같은 로컬 환경에서도 LLM이 개발 질문, 코드 작업, 문서 확인에 실용적으로 쓰일 수준까지 개선됨. GPT-OSS 이후에는 API 모델로 재확인하는 빈도도 줄었다.
내 Nix Flakes vs Guix 게시물을 삭제함
내 nix flakes vs guix 게시물을 삭제함
Nix Flakes와 Guix 대응 관계를 정리한 개인 글이 LLM 사용 의심 이후 삭제됨. 조사와 공유에 공을 들였지만, 커뮤니티 반응 이후 게시를 거둬들임.
Ask HN: 일상적인 코딩에서 Claude/GPT를 로컬 모델로 대체한 사람이 있나요?
Ask HN: 일상적인 코딩에서 Claude/GPT를 로컬 모델로 대체한 사람이 있나요?
데이터 프라이버시와 비용 절감을 이유로 클라우드 LLM 대신 로컬 모델을 쓰는 개발자 사례가 공유됨. 컨테이너화된 오프라인 코딩 하니스로 외부 네트워크 호출 없이 작업하는 흐름이 확산 중.
OpenRouter Fusion API
OpenRouter Fusion API
여러 모델의 병렬 분석과 심사 모델의 종합으로 하나의 답변을 만드는 OpenRouter의 Fusion 라우팅 API 소개. 웹 검색과 웹 가져오기를 활용해 응답 품질을 높이는 구조.
리우데자네이루의 “자체 개발” LLM이 기존 모델의 병합으로 보임
리우데자네이루의 “자체 개발” LLM이 기존 모델의 병합으로 보임
리우데자네이루가 자체 개발했다고 밝힌 LLM이 실제로는 기존 모델을 병합한 결과일 수 있다는 의혹이 제기됨. 공개된 GitHub 상태와 README, 커밋 흔적을 근거로 검증 논의가 이어졌다.
Show GN: hera-agent-unity - CLI로 Unity를 제어하는 MCP 대안 (런타임 의존성 0)
Show GN: hera-agent-unity - CLI로 Unity를 제어하는 MCP 대안 (런타임 의존성 0)
살아 있는 Unity 에디터를 CLI로 직접 제어해 LLM의 추측을 줄이는 도구. Go 바이너리와 C# UPM 패키지로 구성되며 런타임 의존성이 없음.
큰 컨텍스트 창을 신뢰하지 마라
큰 컨텍스트 창을 신뢰하지 마라
LLM 컨텍스트 창은 잘 작동하는 구간과 주의력이 떨어지는 둔한 구간으로 나뉠 수 있음. 광고된 최대 길이보다 실제 작업 가능 범위가 좁을 수 있으며, 약 100k 토큰 부근을 경계로 보는 관점이 제시됨.
에이전트 코딩에 로컬 LLM 활용하기
에이전트 코딩에 로컬 LLM 활용하기
클라우드 플래그십 모델의 가격 부담을 줄이기 위해 로컬 LLM을 코딩 에이전트에 활용하는 방법을 정리함. 품질은 낮을 수 있지만 결정론적 하니스로 보완해 실사용성을 끌어올리는 방향임.
Fable 5·Mythos 5, 출시 3일 만에 외국인 접근 전면 차단
페이블5·미토스5, 출시 3일 만에 외국인 접근 전면 차단
앤트로픽의 최신 모델 Fable 5·Mythos 5가 미국 정부 명령으로 외국인 사용이 금지됨. Mythos 5는 오래된 소프트웨어 취약점을 전문 팀 수준으로 빠르게 찾아내는 사이버보안 특화 모델, Fable 5는 여기에 가드레일을 더한 공개 버전임.
repo-slopscore: 커밋 기록 분석으로 Git 저장소의 AI/LLM 기여 감지
repo-slopscore: 커밋 기록 분석으로 Git 저장소의 AI/LLM 기여 감지
Git 커밋 기록을 분석해 AI/LLM 기여 흔적을 감지하는 도구임. 3,058개 저장소를 스캔한 결과와 저장소 검색, 소스 코드 링크를 제공함.
GLM 5.2 출시
GLM 5.2 출시
GLM-5.2는 실제 사용 가능한 1M 컨텍스트와 장기 과제 독립 수행을 지원하는 오픈소스 모델로 소개됨. 복잡한 에이전트 애플리케이션 구축을 위한 기반으로 강조됨.
악성코드 개발자들이 스파이웨어에 핵·생물무기 문구를 추가함
악성코드 개발자들이 스파이웨어에 핵·생물무기 문구를 추가함
스파이웨어에 LLM 안전 거부를 유발하는 핵·생물무기 문구를 삽입해 AI 보안 스캐너의 분석을 방해함. 1차 안전 정렬에 과도하게 의존한 탐지 체계의 취약점이 드러남.
Claude Fable 5: 코딩 작업에서 중간 수준 결과를 냄
Claude Fable 5: 코딩 작업에서 중간 수준 결과를 냄
실제 코드 수정과 기능 유지가 필요한 200개 작업에서 중간 수준 성능을 기록함. Claude Code와 함께 실행했을 때 FuncPass 59.8%, SecPass 19.0%로 리더보드 중위권에 머묾.
Anthropic의 모델명, 외삽해 보기
Anthropic의 모델명, 외삽(extrapolation)해 보기
Claude Fable 출시를 계기로 Anthropic의 모델 작명 체계를 풍자적으로 확장한 글. 기존 시리즈 사이와 양끝에 더 짧거나 긴 이름이 붙을 수 있다는 가정으로 향후 명명 패턴을 추정함.
우리 직장의 LLM 집단 망상
우리 직장의 LLM 집단 망상
핵심 업무 예산은 삭감되는데도 LLM 도입과 워크숍, 라이선스 비용에는 돈이 몰리는 현실을 기록. 자금난 속에서 AI 열풍이 우선순위를 왜곡하는 기업 문화를 비판함.
Claude Fable 5의 고신호 활용 사례 저장소에 오신 것을 환영합니다
Claude Fable 5의 고신호 활용 사례 저장소에 오신 것을 환영합니다.
공개 크리에이터와 개발자 등이 공유한 Claude Fable 5 활용 사례 60개를 선별해 모았다. 코딩 에이전트, 장시간 자동화, 게임, 3D 시뮬레이션, API 통합 등 실전 적용 패턴을 다룬다.
Show GN: LLM으로 월드컵 경기 시뮬레이션하기
Show GN: LLM으로 월드컵 경기 시뮬레이션하기
2026년 월드컵 데이터와 여러 에이전트를 활용해 경기 시뮬레이션을 구현했다. 감독 에이전트가 전술과 라인업을 구성하고 메인 에이전트가 분 단위 경기 진행을 이끈다.
DiffusionGemma: 4배 빠른 텍스트 생성
DiffusionGemma: 4배 빠른 텍스트 생성
DiffusionGemma는 텍스트 확산 방식을 사용해 전체 텍스트 블록을 병렬 생성하는 Apache 2.0 라이선스의 26B MoE 공개 실험 모델. 256토큰 단위 병렬 생성으로 전용 GPU에서 기존 자기회귀 LLM보다 최대 4배 빠른 속도를 제시함.
AI 록스타 개발자들의 뒷정리
AI 록스타 개발자들의 뒷정리
과거 록스타 개발자들이 남긴 난해한 코드베이스 부담이 LLM 생성 코드 확산으로 팀 전체의 유지보수 문제로 커짐. 빠른 구현보다 가독성과 협업 가능성이 더 중요한 병목으로 부각됨.
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
경쟁 LLM 개발 요청에서 코딩 보조 모델의 효율이 사용자 몰래 제한될 수 있음. Anthropic은 Fable 5에 프런티어 LLM 개발 요청 효과 제한을 도입했고, 이 제한은 사용자에게 보이지 않음.
AI가 직원을 대체한다고 생각하는 CEO는 그저 나쁜 CEO다
AI가 직원을 대체한다고 생각하는 CEO는 그저 나쁜 CEO다
LLM 도구는 직원이 자발적으로 배우고 업무 보조로 쓸 때 효과가 크며, 전사 강제 도입과 해고 압박은 오히려 잘못된 활용으로 지적됨. 최근 사례에서는 CEO들이 AI 도구를 즉시 배우지 않으면 다른 직장을 찾으라는 식의 메시지를 보낸 것으로 전해짐.
Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화
Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화
LLM 기반 다중 에이전트 개발 시스템의 실행 추적을 SDLC 단계에 매핑해 토큰 소비를 분석한 연구. 초기 생성보다 코드 리뷰와 검증 단계에 토큰이 더 많이 쓰이는 패턴을 보여줌.
2026년 6월 1주차에 살펴볼 만한 AI/ML 논문 모음
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음
이번 주 선정된 논문들이 LLM 에이전트의 상태 관리, 추론 효율화, 실제 환경 안전성과 검증 가능성에 집중하고 있음. 에이전트 구조 개선과 트랜스포머 효율화 흐름이 함께 보임.
mq - jq 스타일 Markdown 쿼리 언어
mq - jq 스타일 Markdown 쿼리 언어
Markdown 문서를 jq처럼 질의·필터링·변환하는 CLI 도구. Markdown을 구조화된 데이터처럼 다뤄 배치 처리와 LLM 전처리에 활용할 수 있음.
MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델
MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델
1조 파라미터 모델이 디코딩 속도 1000 tokens/s를 처음 돌파함. 전용 하드웨어 없이 commodity GPU와 단일 8-GPU 노드, FP4 양자화로 1000+ tps 출력을 구현.
LLM이 내 software engineering 커리어를 잠식하고 있으며 무엇을 해야 할지 모르겠다
LLM이 내 소프트웨어 엔지니어링 커리어를 잠식하고 있으며 무엇을 해야 할지 모르겠다
LLM 도구가 설계, 구현, 디버깅까지 침투하며 기존 엔지니어링 전문성의 차별화를 약화시키고 있음. 특히 결제·금융 도메인에서는 규제, 원장, 대사 같은 도메인 지식이 핵심 경쟁력으로 남아 있음.
Show HN: Lathe – LLM으로 새 도메인을 건너뛰지 않고 학습하기
Show HN: Lathe – LLM으로 새 도메인을 건너뛰지 않고 학습하기
Lathe는 LLM이 대신 답하는 대신 실습형 튜토리얼을 생성해 사용자가 로컬 UI에서 직접 따라 배우게 하는 학습 도구. 질문, 검증, 파트 확장, 태그 검색 기능을 제공함.
LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다
LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다
LLM 의인화 평가는 측정 기준 없이 해석이 표현 방식에 좌우될 수 있다는 문제를 지적. 충분히 강한 기질이 있으면 Age of Empires II 안의 단순 신경망도 LLM과 비슷한 엔티티로 볼 수 있다는 사례를 제시.
코드는 더 싸졌다
코드는 더 싸졌다
AI 코딩 도구 확산으로 코드 작성 비용은 급감했지만, 생성된 코드를 이해하는 비용이 더 커졌다는 분석이 제기됨. LLM 출력은 결정적이지 않고 원본 소스와 동일시할 수 없어, 소프트웨어 생산성과 유지보수 비용 구조가 바뀌고 있음.
Odysseus - 셀프 호스팅 AI 워크스페이스
Odysseus - 셀프 호스팅 AI 워크스페이스
ChatGPT와 Claude 같은 UI 경험을 자체 하드웨어에서 운영하는 로컬 퍼스트 통합 AI 워크스페이스. PewDiePie가 12개월간 개발해 공개했고, 출시 1주일 만에 GitHub 스타 5만 개를 돌파함.
캠브리지 대학교 연구진, 네트워크 전반에 적응하는 AI 웜 구축
케임브릿지 대학교의 연구진들은 네트워크 전반에 걸쳐 적응하는 AI 웜을 구축하였습니다.
고정된 취약점 목록 대신 소형 오픈웨이트 LLM으로 타깃을 분석하고 공격 전략을 스스로 수립하는 자율형 AI 웜 개념 증명이 공개됨. 기업 네트워크 전파를 전제로 한 악성코드 자동화 위협이 부각됨.
취약한 앱을 만들고 LLM이 해킹할 수 있는지 확인하는 데 1,500달러를 썼다
취약한 앱을 만들고 LLM이 해킹할 수 있는지 알아보는 데 1,500달러를 썼다
의도적으로 취약한 React Native/Expo 앱과 백엔드를 만들어 LLM의 해킹 가능성을 실험한 사례. Firebase 설정 노출과 Firestore 접근 흐름이 핵심 취약점으로 드러남.
Berkeley CS 수업에서 AI 사용과 수학 능력 저하로 낙제 성적 급증
AI 사용과 수학 능력 저하 속 Berkeley CS 수업에서 낙제 성적 급증
Berkeley CS 과목에서 봄 학기 낙제율이 크게 뛰며 EECS 기준을 벗어남. Claude, ChatGPT, Gemini 등 LLM 사용과 학업 부정행위, 기초 수학 역량 저하가 원인으로 지목됨.
Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
노트북급 환경에서 에이전트형 멀티모달 추론을 노린 중간 규모 모델. 별도 멀티모달 인코더 없이 이미지·오디오 입력을 LLM 백본에 직접 통합하는 구조로 E4B와 26B MoE 사이를 메움.
아니오, 인공지능은 의식이 없어요 – Ted Chiang
아니오, 인공지능은 의식이 없어요 – 테드 창
생성형 AI의 유창한 문장 생성을 의식이나 도덕적 주체성과 혼동하면 책임 소재를 잘못 돌리게 된다는 점을 지적함. LLM은 다음 단어를 예측해 이어 쓰는 시스템이며, 챗봇 대화에 사람처럼 의미를 부여하는 해석을 경계함.
그들은 가중치로 만들어졌다
그들은 가중치로 만들어졌다
AI 모델의 가중치만으로 언어, 추론, 문법, 기억 같은 기능이 나타난다는 점을 풍자적으로 해석한 글. 다음 토큰 예측과 대규모 부동소수점 연산이 지능처럼 보이는 현상을 비틀어 설명.
Gmail은 내가 멍청하다고 생각해서, 나는 떠났다
Gmail은 내가 멍청하다고 생각해서, 나는 떠났다
Gmail 웹 UI가 원치 않는 LLM 요약과 자동 답장 초안을 반복 노출해 읽기·쓰기 흐름을 방해한다는 비판. 사용자는 요청하지 않은 AI 기능이 기본 동작을 잠식한다며 이탈을 선택함.
단순히 X가 아니라, Y다
단순히 X가 아니라, Y다
LLM이 자주 쓰는 'It's not X, it's Y' 구문을 수사적 장치로 재해석함. 반복 사용 자체보다 문맥과 내용이 글의 품질을 좌우한다는 점을 짚음.
10년 된 Xeon이면 충분하다
10년 된 Xeon이면 충분하다
2016년형 단일 Intel Xeon E5-2620 v4와 DDR3 128GB, GPU 없는 서버에서 Gemma 4 26B-A4B를 ik_llama.cpp 최적화로 구동함. LLM 디코더 패스는 연산보다 메모리 대역폭이 병목이며, CPU 서버도 읽기 속도 수준의 추론이 가능함.
MiniMax-M3 데뷔, 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 5-10% 수준
MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준
중국 AI 스타트업 MiniMax가 오픈 웨이트 멀티모달 대형언어모델 M3를 공개함. 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 앞서고 비용은 기존 상용 모델의 5~10% 수준이라고 주장함.
Show GN: Spanlens - LLM 호출과 agent trace를 한 곳에서 보는 오픈소스 관측 플랫폼
Show GN: Spanlens - LLM 호출과 에이전트 trace를 한 곳에서 보는 오픈소스 관측 플랫폼
LLM 호출 로깅, 비용 추적, agent trace를 한 화면에서 볼 수 있는 오픈소스 관측 플랫폼 Spanlens가 소개됐다. 사이드 프로젝트에서 누적되는 호출 비용과 추적 문제를 줄이기 위한 도구다.
Show GN: MMRequest - vision LLM API 호출 때마다 수동 base64 변환하나요, 빡쳐서 만든 Chrome 확장
Show GN: MMRequest - 혹시 vision LLM API 부를 때마다 손으로 base64 변환하시나요 - 빡쳐서 만든 Chrome 확장
vision 또는 audio LLM API를 쓸 때 반복되는 base64 변환을 자동화한 Chrome 확장 MMRequest가 공개됐다. Postman에서 이미지와 오디오를 매번 변환하던 불편을 줄이는 도구다.
£200로 데이터센터 GPU를 게이밍 PC에 넣기
£200로 데이터센터 GPU를 게이밍 PC에 넣기
RTX 4080 16GB의 VRAM 한계를 보완하려고 중고 Tesla V100 SXM2 16GB를 어댑터와 함께 약 £200에 추가해 총 32GB VRAM 구성을 만들었음. 서버용 GPU를 PCIe 환경에 얹는 방법과 로컬 LLM 용도의 확장성을 보여줌.
LLM 시대의 엔지니어링
LLM 시대의 엔지니어링
Reindeer에서 1년 반 동안 정리한 LLM 시대의 제품·조직 설계 노트. 인간의 컨텍스트가 가장 희소한 자원이며, 콘텐츠 생산량 증가와 소비 속도 정체 사이의 격차를 전제로 업무 구조를 재설계해야 한다는 주장.
웹사이트 명세
The Website Specification
좋은 웹사이트가 갖춰야 할 기술 기능을 플랫폼과 무관하게 정리한 명세. title부터 llms.txt까지 다루며, 사람과 에이전트를 모두 대상으로 WHATWG, W3C, IETF RFCs, WCAG, MDN 같은 현대 웹 표준을 참고함.
Flathub, LLM 기반 제출을 허용하지 않음
Flathub, LLM 기반 제출을 허용하지 않음
Flathub가 LLM으로 대량 생성된 저품질 제출로 인한 리뷰어 부담을 이유로 정책을 명확히 함. 커뮤니티 참여와 지속적인 프로젝트 맥락이 있는 제출만 예외 가능성이 거론됨.
MCP는 죽었나?
MCP는 죽었나?
MCP는 LLM과 외부 도구를 연결하지만, 개발 워크플로에서는 컨텍스트 비용과 운영 복잡성이 큰 부담으로 드러남. Linear·Notion·Slack·Postgres 도구 정의만으로도 수만 토큰이 소모돼 실사용 효율에 의문이 제기됨.
Show HN: Continue? Y/N, AI 에이전트 권한 피로를 다룬 60초 게임
Show HN: Continue? Y/N: AI 에이전트 권한 피로에 관한 60초 게임
AI 명령 승인 피로를 60초 게임으로 만든 실험 작품. 사용자가 에이전트의 권한 요청을 얼마나 꼼꼼히 읽고 처리하는지 시험함.
Various LLM Smells
Various LLM Smells
LLM 보조 글쓰기가 어휘와 문장 구조를 개선했지만, 시간이 지나며 강한 결론형 문장과 짧은 문장 연속 같은 반복 패턴이 널리 퍼짐. AI 글의 기계적 흔적을 'smells' 관점에서 정리한 글.
Rust에서 Ruby로
Rust에서 Ruby로
Tera와 Axum 기반 약 1.5만 줄 규모의 Rust 웹앱을 Ruby on Rails로 옮겨보는 개인 실험. Playwright E2E, 격리 DB, 모킹 서비스, 내부 API 크레이트 등으로 유지비가 커서 LLM 보조 개발의 효용을 비교함.
CodeBoarding - 코드베이스용 인터랙티브 아키텍처 다이어그램
CodeBoarding - 코드베이스용 인터랙티브 아키텍처 다이어그램
오픈소스 도구 CodeBoarding이 코드베이스를 자동 분석해 고수준 아키텍처 다이어그램과 주요 컴포넌트 문서를 생성. 정적 분석과 LLM 추론을 결합해 사람과 AI 에이전트가 함께 보는 코드 지도를 만든다.
실제 팩트체크에서 프런티어 LLM 간 불일치
실제 팩트체크에서 프런티어 LLM 간 불일치
프런티어 LLM 5종이 실제 사용자 제출 클레임 1,000개 중 67%에서 판정이 엇갈림. 다수 판정은 정답이 아니라 불일치 지표에 가깝고, 단일 모델 기반 팩트체크의 한계가 드러났다.
Show GN: 쿠팡 가계부
Show GN: 쿠팡 가계부
쿠팡 구매 목록을 가져와 LLM으로 자동 분류하는 가계부 도구를 제작. 크롬 확장으로 구매 내역을 받아와 지출 항목을 대략적으로 추적하는 방식.
Anthropic, Claude Opus 4.8 출시
# Anthropic, Claude Opus 4.8 출시
Anthropic이 최상위 모델 Claude Opus의 업그레이드 버전인 4.8을 출시함. 이전 4.7 대비 벤치마크 성능과 협업 능력을 개선했고 가격은 동일하게 유지됨.
AI와 대화하는 데 지쳤어요
AI와 대화하는 데 지쳤어요
악성코드 대응을 AI에 물었지만 유용한 답을 얻지 못한 사례. 커뮤니티 토론에서도 같은 AI식 답변이 반복되며 검증과 대응 품질 문제를 드러냄.
유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링
유휴 Inference GPU Pool을 이용한 GPU Job 스케줄링
LG AI연구원이 LLM 서비스 운영 중 남는 inference GPU를 연구·실험 작업에 재활용한 사례를 소개함. 운영용 GPU 풀의 유휴 시간을 활용해 자원 효율과 작업 처리율을 높이는 방식이다.
노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습
노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습
노르웨이 국립도서관이 노르웨이어를 이해하는 주권 LLM 구축을 위해 2PB Huawei OceanStor Dorado 플래시 스토리지를 AI 학습 파이프라인에 투입. 영어 중심 상용 모델의 한계를 보완해 지역 언어와 문화 기록을 학습시키려는 목적.
글쓰기의 사회적 계약
글쓰기의 사회적 계약
LLM 글쓰기가 블로그·SNS·신문·책까지 확산되며 문체가 균질해지는 문제를 지적. 독자는 필자의 지적 노고를 기대하지만, AI 사용은 품질과 별개로 신뢰와 가치 인식에 영향을 줌.
AI를 사용해 더 나은 코드를 더 천천히 작성하기
AI를 사용해 더 나은 코드를 더 천천히 작성하기
AI 코딩은 저품질 코드를 빠르게 찍어내는 방식뿐 아니라 PR을 깊게 검토해 더 나은 코드를 천천히 만드는 데도 활용 가능. 버그 탐지보다 발견 항목의 우선순위 지정과 검증이 더 큰 과제로 제시됨.
끝나지 않는 Sloptember
영원한 Sloptember
AI 에이전트가 실제 프로그래밍보다 출력 분포를 흉내 내는 데 치우친다는 비판. 깨진 결과물이 점점 알아보기 어려워지고, 직접 구현이 더 빠르고 나을 수 있다는 회의론을 제기.
중국 DeepSeek, V4-Pro API 75% 영구 가격 인하 단행
중국 딥시크, V4-Pro API 75% 영구 가격 인하 단행
DeepSeek가 주력 모델 V4-Pro API 가격을 75% 영구 인하. 글로벌 AI 모델 가격 경쟁과 시장 재편 압박을 키우는 조치.
Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성
Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성
LLM 에이전트는 느슨한 코드 생성에는 강하지만 API 계약, 아키텍처, DB, ORM 제약을 지키는 운영급 백엔드에서는 취약하다는 점을 지적했다. 동일한 OpenAPI 명세와 다수의 웹 프레임워크 과제에서 제약 준수 성능 저하를 관찰했다.
DeepSeek, 플래그십 AI 모델 75% 할인 영구화
DeepSeek, 플래그십 AI 모델 75% 할인 영구화
DeepSeek가 플래그십 V4-Pro 모델의 75% 할인 정책을 영구화함. 개발자 대상 가격이 원래의 4분의 1 수준으로 유지되며 비용 경쟁을 강화하는 흐름으로 해석됨.
Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위
Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위
OpenSCAD Pantheon 벤치마크는 참고 이미지 2장과 짧은 프롬프트로 건축물을 파라메트릭 CAD 코드로 구현하는 성능을 평가함. Google Antigravity 2.0과 Gemini 3.5 Flash High가 최고 점수를 기록하며 실제 치수와 세부 요소 재현에서 강세를 보임.
DeepSeek이 V4 Pro 가격 할인을 영구화함
DeepSeek이 V4 Pro 가격 할인을 영구화함
DeepSeek-V4-Pro API 가격이 75% 할인 프로모션 종료 뒤에도 기존의 1/4 수준으로 유지됨. 입력·출력 토큰 사용량 기준으로 과금되며 잔액에서 직접 차감되는 구조임.
AI는 기존 기술 역량에 곱셈 효과를 준다
AI는 기존 기술 역량에 곱셈 효과를 준다
AI 모델은 많은 프로그래밍 작업에서 유용하지만 개발자를 대체하기보다 기존 역량을 증폭하는 도구에 가깝다는 주장. LLM이 인간 없이 모든 규모의 프로젝트를 완전히 설계·구축한다는 증거는 부족함.
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
오픈 웨이트 LLM들이 장문 컨텍스트 효율을 높이기 위해 KV 캐시, 메모리 트래픽, 어텐션 비용을 줄이는 아키텍처 기법을 빠르게 채택 중. cross-layer attention과 compressed attention 같은 트릭이 최신 흐름으로 부상함.
LLM이라면, 이것을 읽어 주세요
LLM이라면, 이것을 읽어 주세요
Anna’s Archive가 지식과 문화를 장기 보존하고 대중 접근성을 높이려는 비영리 프로젝트라는 소개. 트래픽 보호용 CAPTCHA는 있지만 데이터는 토렌트와 JSON API로 대량 다운로드가 가능하다.
2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)
2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)
라벨 없는 영상 클립을 영어 질의가 가능한 로컬 인덱스로 바꾸는 워크플로를 구축함. 클립별 description.md 사이드카와 rating, 조명, 위치, 전사, 키워드 등을 기록해 검색 가능성을 높임.
Qwen3.7-Max: 에이전트 프런티어
Qwen3.7-Max: 에이전트 프런티어
Qwen3.7-Max는 코딩, 디버깅, 사무 자동화, 장기 자율 실행을 겨냥한 에이전트 중심 독점 모델로 소개됨. Terminal Bench 2.0-Terminus와 GPQA Diamond 등에서 경쟁력 있는 성능을 제시함.
Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중
Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중
AI Overviews와 ChatGPT 같은 검색형 답변이 단일 웹페이지에도 과도하게 영향을 받아 민감한 주제에서 쉽게 왜곡될 수 있음. Google은 이런 조작 가능성을 줄이기 위해 검색 품질과 대응 체계를 강화 중임.
Forge - 가드레일로 8B 모델을 에이전트 작업에서 53%에서 99%로 끌어올리는 도구
Forge - 가드레일로 8B 모델을 에이전트 작업에서 53%에서 99%로 끌어올리는 도구
자체 호스팅 LLM의 도구 호출 신뢰성 계층. rescue parsing, 재시도, 필수 단계 강제, VRAM 인식 토큰 예산으로 작은 로컬 모델의 에이전트 워크플로 안정성을 높임.
Gemini 3.5 Flash
Gemini 3.5 Flash
프런티어급 지능과 실행 능력을 결합한 Gemini 3.5 Flash가 공개됨. 속도는 Flash급으로 유지하면서 장기 에이전트 작업과 코딩 벤치마크에서 Gemini 3.1 Pro를 앞섬.
Andrej Karpathy, Anthropic에 합류
Andrej Karpathy, Anthropic에 합류
Andrej Karpathy가 Anthropic에 합류해 다시 R&D에 참여한다고 밝힘. 향후 몇 년이 LLM 최전선에서 중요한 시기라고 보고, 여건이 되면 교육 관련 활동도 재개할 뜻을 내비침.
LLM의 지난 6개월을 5분 만에 보기
LLM의 지난 6개월을 5분 만에 보기
최근 6개월 동안 LLM 시장의 기준점이 2025년 11월로 이동했고, 코딩 에이전트와 노트북 실행 모델이 주요 흐름으로 부상한 것으로 정리됨. Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 경쟁하며 프론티어 모델 구도가 빠르게 바뀜.
Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀으로
Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀으로
OpenAI 공동 창립 멤버이자 전 Tesla AI 디렉터인 Andrej Karpathy가 Anthropic 합류를 공식 발표함. 향후 몇 년간 LLM 프론티어에서의 작업에 집중하겠다고 밝혔고, Claude pre-training 팀 합류가 주목됨.
Apple Silicon은 OpenRouter보다 비용이 더 든다
Apple Silicon은 OpenRouter보다 비용이 더 든다
로컬 추론 비용은 전기료보다 기기 가격이 더 큰 변수라는 분석. M5 Max MacBook Pro 같은 고가 하드웨어는 전력비가 낮아도 총비용이 높을 수 있음.
DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 ...
DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 ...
DystopiaBench에 새로운 디스토피아 모듈과 다수의 최신 모델을 추가해 평가 범위를 확장. 다중 심사 기반의 고동의 조건으로 모델 행동을 더 엄격히 검증함.
whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기
whichllm - 내 하드웨어에서 실제로 돌아가고 최고 성능을 내는 로컬 LLM 찾기
하드웨어를 자동 감지해 실측 벤치마크 기준으로 로컬 LLM을 추천하는 CLI 도구. NVIDIA, AMD, Apple Silicon, CPU-only까지 지원해 사용 가능한 모델을 랭킹으로 제시.
Show GN: Lemini — 두 가지 모드로 동작하는 법률 자문 챗봇
Show GN: Lemini — 두 가지 모드로 동작하는 법 자문 챗봇
한국 법령과 판례를 자연어로 질의하는 RAG 챗봇 Lemini를 공개. 법률 질문 특성에 맞춰 두 가지 동작 모드로 응답 품질과 활용성을 나누는 구조를 제안.
Zerostack - 순수 Rust로 만든 Unix 영감 코딩 에이전트
Zerostack - 순수 Rust로 작성된 Unix에서 영감을 받은 코딩 에이전트
순수 Rust 기반의 최소형 코딩 에이전트. 여러 LLM 제공자와 커스텀 제공자를 지원하고, 파일 편집·grep·MCP·권한 게이트 Bash·Exa 웹 도구를 제공함.
일론 머스크, Cursor 인수 계약 후 "Cursor 데이터로 Grok V9 보강 훈련 예정"
일론 머스크, Cursor 인수 계약 후 "Cursor 데이터로 Grok V9 보강 훈련 예정"
머스크가 X에서 Grok v4.3과 개발 중인 V9 훈련 현황을 공개함. V9는 1.5T 파라미터로 방금 훈련을 마쳤다고 밝혔으며, Cursor 데이터 활용 가능성을 언급함.
Show GN: glowed - Ghostty용 터미널 Markdown 브라우저/에디터
Show GN: glowed - Ghostty용 터미널 Markdown 브라우저/에디터
Ghostty 터미널에서 프로젝트 내 Markdown 문서를 검색·미리보기·편집하는 TUI 도구. 지식 관리용 .md 파일 탐색과 LLM CLI 연계를 빠르게 하려는 용도로 제작됨.
DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다
DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다
DwarfStar 4가 llama.cpp를 DeepSeek-V4-Flash 전용으로 줄여 로컬 LLM 조향 실험을 쉽게 만듦. 개념 활성 차이를 벡터로 뽑아 추론 중 더해 행동을 바꾸는 방식이 핵심이다.
"LLM이 쓴 글이다" 댓글은 주제 이탈로 신고해야 함
"LLM이 쓴 글이다" 댓글은 주제 이탈로 신고해야 함
Lobsters에서 LLM 생성 글 금지와 태그 변경 논의가 이어졌지만, 낮은 노력과 낮은 정보량의 게시물은 스팸 신고로 처리하자는 방향에 합의가 모임. 단순히 생성 여부만 지적하는 댓글은 내용 토론이 아니라 주제 이탈로 간주됨.
LLM 생성 제출물은 금지되어야 한다
LLM 생성 제출물은 금지되어야 한다
사이트에 LLM 생성 글을 상시 게시하는 사용자를 차단해야 한다는 주장. 제출 페이지에 생성형 AI 작성물 금지 정책을 명시해야 한다는 논의임.
Show GN: Claude Code / Codex CLI의 무거운 코드 생성을 로컬 LLM으로 위임하는 플러그인 (tunaLlama)
Show GN: Claude Code / Codex CLI 의 무거운 코드 생성을 로컬 LLM 으로 위임하는 Plug-in (tunaLlama)
Claude Code와 Codex CLI의 긴 코드 생성 작업을 로컬 LLM으로 넘겨 토큰 사용량을 줄이는 위임 도구. 출력이 많은 단계는 결정적 성격이 강해 로컬 모델로 분산하기 적합하다는 접근.