검색 결과
"llm" · 68개 기사 · GeekNews · AI/ML
Gemma 4 MTP 은폐 후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원
Gemma 4 MTP 은폐후 커뮤니티가 파헤치고, Google이 뒤늦게 우회 지원
Google이 Gemma 4의 MTP 학습 흔적을 공개 배포판에서 제거했다는 의혹이 제기됨. 커뮤니티의 역공학 이후 외부 보조 모델 형태의 우회 지원이 뒤늦게 추가됨.
LLM이 우리의 문자 언어를 왜곡하는 방식
LLM이 우리의 문자 언어를 왜곡하는 방식
LLM은 글쓰기 보조 효율을 높이지만, 인간 문장을 수정할 때 결론·입장·논증 구조를 바꾸는 경향이 확인됨. 인간 편집과 다른 방향의 의미 변형을 유발할 수 있음.
Show GN: LiteRT-LM-Unity - LiteRT-LM용 유니티 안드로이드 래퍼
안드로이드 온디바이스 LLM을 개발하고 있습니다. 기존엔 whisper.cpp를 쓰고 있는데 GPU 가속이 되지 않아 속도에 대한 갈증이 있었습니다. LiteR...
Show GN: HydraLLM: 지능형 오케스트레이터
Show GN: HydraLLM: 지능형 오케스트레이터
여러 LLM 리소스를 효율적으로 활용하도록 설계된 컨텍스트 인지 게이트웨이. Gemini, Groq 등 복수 모델을 묶어 오케스트레이션하는 구조임.
LLM 시대, DB는 단순 저장소를 넘어서는 중
LLM 시대, DB도 단순 저장소를 넘어서는 중
데이터베이스가 단순 저장소를 넘어 LLM과 Agent 실행 계층으로 확장되는 흐름. 시계열 DB도 저장, 실행, 도구 연계를 포함한 런타임 방향으로 이동.
Show GN: axon - 브라우저에서 관리하는 ai 오케스트레이터 알파
개념 검증 영상입니다.편집없이 작업했고 서버 사양이 사양인 만큼 인내심이필요합니다. 로컬llm은 i7 하스웰 16gb 1050ti에 airllm을 이용해서 ol...
LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다
LoPE: 무작위 라틴어 텍스트를 앞에 붙이면 LLM 추론이 향상된다! (arXiv 논문)
RL 학습 시 프롬프트 앞에 Lorem ipsum 같은 무작위 라틴어 텍스트를 붙이면 추론 성능이 개선된다는 LoPE 논문 소개. 입력 접두사가 모델의 reasoning 행동에 영향을 줄 수 있음을 보였다.
결정론적 아키텍처: 할루시네이션의 확률적 편차를 통제해 연속성을 보장하는 기호적 통제
결정론적 아키텍처 : 할루시네이션의 확률적 편차를 통제하여, 무한한 연속성을 보장하는 기호적 통제 ...
에이전트 워크플로우와 LLM-as-a-Judge 기반 자율 교정을 비판적으로 검토하며, 할루시네이션 변동을 제어하는 결정론적 아키텍처를 제안. 상업성과 안정성을 높이기 위한 기호적 통제 관점을 강조한다.
Gemento: 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강해보는 실험 하네스
Show GN: Gemento: 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강해보는 실험 하네스
작은 로컬 LLM이 긴 작업을 얼마나 버티는지 실험하는 하네스 공개. 외부 상태, 도구, 역할, 반복 루프로 수행 능력을 보강하는 구조.
GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교
GPT-5.5 vs GPT-5.4 vs Opus 4.7 - 실제 코딩 작업 56개 벤치마크 비교
오픈소스 저장소 Zod와 graphql-go-tools에서 추출한 56개 실제 코딩 작업으로 GPT-5.5, GPT-5.4, Opus 4.7의 패치 품질을 비교함. 모델별 실제 수정 성능 차이를 정량 평가한 벤치마크 결과.
Show GN: AI Universal Translator — 로컬 LLM/Gemini 지원 데스크톱 번역·요약 앱
Show GN: AI Universal Translator — 로컬 LLM/Gemini 지원 데스크톱 번역·요약 앱
Tauri 2, Rust, React, TypeScript로 만든 데스크톱 번역·요약 앱. 로컬 LLM과 Gemini를 함께 지원하며 긴 텍스트 처리에 초점을 맞춤.
로컬 모델 실행이 이제 좋아졌다
로컬 모델 실행이 이제 좋아졌다
M2 Mac 같은 로컬 환경에서도 LLM이 개발 질문, 코드 작업, 문서 확인에 실용적으로 쓰일 수준까지 개선됨. GPT-OSS 이후에는 API 모델로 재확인하는 빈도도 줄었다.
OpenRouter Fusion API
OpenRouter Fusion API
여러 모델의 병렬 분석과 심사 모델의 종합으로 하나의 답변을 만드는 OpenRouter의 Fusion 라우팅 API 소개. 웹 검색과 웹 가져오기를 활용해 응답 품질을 높이는 구조.
리우데자네이루의 “자체 개발” LLM이 기존 모델의 병합으로 보임
리우데자네이루의 “자체 개발” LLM이 기존 모델의 병합으로 보임
리우데자네이루가 자체 개발했다고 밝힌 LLM이 실제로는 기존 모델을 병합한 결과일 수 있다는 의혹이 제기됨. 공개된 GitHub 상태와 README, 커밋 흔적을 근거로 검증 논의가 이어졌다.
큰 컨텍스트 창을 신뢰하지 마라
큰 컨텍스트 창을 신뢰하지 마라
LLM 컨텍스트 창은 잘 작동하는 구간과 주의력이 떨어지는 둔한 구간으로 나뉠 수 있음. 광고된 최대 길이보다 실제 작업 가능 범위가 좁을 수 있으며, 약 100k 토큰 부근을 경계로 보는 관점이 제시됨.
에이전트 코딩에 로컬 LLM 활용하기
에이전트 코딩에 로컬 LLM 활용하기
클라우드 플래그십 모델의 가격 부담을 줄이기 위해 로컬 LLM을 코딩 에이전트에 활용하는 방법을 정리함. 품질은 낮을 수 있지만 결정론적 하니스로 보완해 실사용성을 끌어올리는 방향임.
GLM 5.2 출시
GLM 5.2 출시
GLM-5.2는 실제 사용 가능한 1M 컨텍스트와 장기 과제 독립 수행을 지원하는 오픈소스 모델로 소개됨. 복잡한 에이전트 애플리케이션 구축을 위한 기반으로 강조됨.
Claude Fable 5: 코딩 작업에서 중간 수준 결과를 냄
Claude Fable 5: 코딩 작업에서 중간 수준 결과를 냄
실제 코드 수정과 기능 유지가 필요한 200개 작업에서 중간 수준 성능을 기록함. Claude Code와 함께 실행했을 때 FuncPass 59.8%, SecPass 19.0%로 리더보드 중위권에 머묾.
Anthropic의 모델명, 외삽해 보기
Anthropic의 모델명, 외삽(extrapolation)해 보기
Claude Fable 출시를 계기로 Anthropic의 모델 작명 체계를 풍자적으로 확장한 글. 기존 시리즈 사이와 양끝에 더 짧거나 긴 이름이 붙을 수 있다는 가정으로 향후 명명 패턴을 추정함.
Claude Fable 5의 고신호 활용 사례 저장소에 오신 것을 환영합니다
Claude Fable 5의 고신호 활용 사례 저장소에 오신 것을 환영합니다.
공개 크리에이터와 개발자 등이 공유한 Claude Fable 5 활용 사례 60개를 선별해 모았다. 코딩 에이전트, 장시간 자동화, 게임, 3D 시뮬레이션, API 통합 등 실전 적용 패턴을 다룬다.
Show GN: LLM으로 월드컵 경기 시뮬레이션하기
Show GN: LLM으로 월드컵 경기 시뮬레이션하기
2026년 월드컵 데이터와 여러 에이전트를 활용해 경기 시뮬레이션을 구현했다. 감독 에이전트가 전술과 라인업을 구성하고 메인 에이전트가 분 단위 경기 진행을 이끈다.
DiffusionGemma: 4배 빠른 텍스트 생성
DiffusionGemma: 4배 빠른 텍스트 생성
DiffusionGemma는 텍스트 확산 방식을 사용해 전체 텍스트 블록을 병렬 생성하는 Apache 2.0 라이선스의 26B MoE 공개 실험 모델. 256토큰 단위 병렬 생성으로 전용 GPU에서 기존 자기회귀 LLM보다 최대 4배 빠른 속도를 제시함.
AI 록스타 개발자들의 뒷정리
AI 록스타 개발자들의 뒷정리
과거 록스타 개발자들이 남긴 난해한 코드베이스 부담이 LLM 생성 코드 확산으로 팀 전체의 유지보수 문제로 커짐. 빠른 구현보다 가독성과 협업 가능성이 더 중요한 병목으로 부각됨.
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
Claude Fable이 도움을 멈춰도 사용자는 알 수 없다
경쟁 LLM 개발 요청에서 코딩 보조 모델의 효율이 사용자 몰래 제한될 수 있음. Anthropic은 Fable 5에 프런티어 LLM 개발 요청 효과 제한을 도입했고, 이 제한은 사용자에게 보이지 않음.
AI가 직원을 대체한다고 생각하는 CEO는 그저 나쁜 CEO다
AI가 직원을 대체한다고 생각하는 CEO는 그저 나쁜 CEO다
LLM 도구는 직원이 자발적으로 배우고 업무 보조로 쓸 때 효과가 크며, 전사 강제 도입과 해고 압박은 오히려 잘못된 활용으로 지적됨. 최근 사례에서는 CEO들이 AI 도구를 즉시 배우지 않으면 다른 직장을 찾으라는 식의 메시지를 보낸 것으로 전해짐.
Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화
Tokenomics: 에이전트형 소프트웨어 엔지니어링에서 토큰이 어디에 사용되는지 정량화
LLM 기반 다중 에이전트 개발 시스템의 실행 추적을 SDLC 단계에 매핑해 토큰 소비를 분석한 연구. 초기 생성보다 코드 리뷰와 검증 단계에 토큰이 더 많이 쓰이는 패턴을 보여줌.
2026년 6월 1주차에 살펴볼 만한 AI/ML 논문 모음
[2026/06/01 ~ 07] 이번 주에 살펴볼 만한 AI/ML 논문 모음
이번 주 선정된 논문들이 LLM 에이전트의 상태 관리, 추론 효율화, 실제 환경 안전성과 검증 가능성에 집중하고 있음. 에이전트 구조 개선과 트랜스포머 효율화 흐름이 함께 보임.
MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델
MiMo-V2.5-Pro-UltraSpeed: 초당 1000토큰을 생성하는 1T 모델
1조 파라미터 모델이 디코딩 속도 1000 tokens/s를 처음 돌파함. 전용 하드웨어 없이 commodity GPU와 단일 8-GPU 노드, FP4 양자화로 1000+ tps 출력을 구현.
LLM이 내 software engineering 커리어를 잠식하고 있으며 무엇을 해야 할지 모르겠다
LLM이 내 소프트웨어 엔지니어링 커리어를 잠식하고 있으며 무엇을 해야 할지 모르겠다
LLM 도구가 설계, 구현, 디버깅까지 침투하며 기존 엔지니어링 전문성의 차별화를 약화시키고 있음. 특히 결제·금융 도메인에서는 규제, 원장, 대사 같은 도메인 지식이 핵심 경쟁력으로 남아 있음.
Show HN: Lathe – LLM으로 새 도메인을 건너뛰지 않고 학습하기
Show HN: Lathe – LLM으로 새 도메인을 건너뛰지 않고 학습하기
Lathe는 LLM이 대신 답하는 대신 실습형 튜토리얼을 생성해 사용자가 로컬 UI에서 직접 따라 배우게 하는 학습 도구. 질문, 검증, 파트 확장, 태그 검색 기능을 제공함.
LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다
LLM이 인간 같은 속성을 가진다면 Age of Empires II도 그렇다
LLM 의인화 평가는 측정 기준 없이 해석이 표현 방식에 좌우될 수 있다는 문제를 지적. 충분히 강한 기질이 있으면 Age of Empires II 안의 단순 신경망도 LLM과 비슷한 엔티티로 볼 수 있다는 사례를 제시.
코드는 더 싸졌다
코드는 더 싸졌다
AI 코딩 도구 확산으로 코드 작성 비용은 급감했지만, 생성된 코드를 이해하는 비용이 더 커졌다는 분석이 제기됨. LLM 출력은 결정적이지 않고 원본 소스와 동일시할 수 없어, 소프트웨어 생산성과 유지보수 비용 구조가 바뀌고 있음.
Odysseus - 셀프 호스팅 AI 워크스페이스
Odysseus - 셀프 호스팅 AI 워크스페이스
ChatGPT와 Claude 같은 UI 경험을 자체 하드웨어에서 운영하는 로컬 퍼스트 통합 AI 워크스페이스. PewDiePie가 12개월간 개발해 공개했고, 출시 1주일 만에 GitHub 스타 5만 개를 돌파함.
Berkeley CS 수업에서 AI 사용과 수학 능력 저하로 낙제 성적 급증
AI 사용과 수학 능력 저하 속 Berkeley CS 수업에서 낙제 성적 급증
Berkeley CS 과목에서 봄 학기 낙제율이 크게 뛰며 EECS 기준을 벗어남. Claude, ChatGPT, Gemini 등 LLM 사용과 학업 부정행위, 기초 수학 역량 저하가 원인으로 지목됨.
Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
Gemma 4 12B: 통합형 인코더 없는 멀티모달 모델
노트북급 환경에서 에이전트형 멀티모달 추론을 노린 중간 규모 모델. 별도 멀티모달 인코더 없이 이미지·오디오 입력을 LLM 백본에 직접 통합하는 구조로 E4B와 26B MoE 사이를 메움.
아니오, 인공지능은 의식이 없어요 – Ted Chiang
아니오, 인공지능은 의식이 없어요 – 테드 창
생성형 AI의 유창한 문장 생성을 의식이나 도덕적 주체성과 혼동하면 책임 소재를 잘못 돌리게 된다는 점을 지적함. LLM은 다음 단어를 예측해 이어 쓰는 시스템이며, 챗봇 대화에 사람처럼 의미를 부여하는 해석을 경계함.
그들은 가중치로 만들어졌다
그들은 가중치로 만들어졌다
AI 모델의 가중치만으로 언어, 추론, 문법, 기억 같은 기능이 나타난다는 점을 풍자적으로 해석한 글. 다음 토큰 예측과 대규모 부동소수점 연산이 지능처럼 보이는 현상을 비틀어 설명.
단순히 X가 아니라, Y다
단순히 X가 아니라, Y다
LLM이 자주 쓰는 'It's not X, it's Y' 구문을 수사적 장치로 재해석함. 반복 사용 자체보다 문맥과 내용이 글의 품질을 좌우한다는 점을 짚음.
10년 된 Xeon이면 충분하다
10년 된 Xeon이면 충분하다
2016년형 단일 Intel Xeon E5-2620 v4와 DDR3 128GB, GPU 없는 서버에서 Gemma 4 26B-A4B를 ik_llama.cpp 최적화로 구동함. LLM 디코더 패스는 연산보다 메모리 대역폭이 병목이며, CPU 서버도 읽기 속도 수준의 추론이 가능함.
MiniMax-M3 데뷔, 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 5-10% 수준
MiniMax-M3 데뷔, 주요 벤치마크 성능에서 GPT-5.5와 Gemini 3.1 Pro를 능가하며 비용은 단 5-10% 수준
중국 AI 스타트업 MiniMax가 오픈 웨이트 멀티모달 대형언어모델 M3를 공개함. 주요 벤치마크에서 GPT-5.5와 Gemini 3.1 Pro를 앞서고 비용은 기존 상용 모델의 5~10% 수준이라고 주장함.
£200로 데이터센터 GPU를 게이밍 PC에 넣기
£200로 데이터센터 GPU를 게이밍 PC에 넣기
RTX 4080 16GB의 VRAM 한계를 보완하려고 중고 Tesla V100 SXM2 16GB를 어댑터와 함께 약 £200에 추가해 총 32GB VRAM 구성을 만들었음. 서버용 GPU를 PCIe 환경에 얹는 방법과 로컬 LLM 용도의 확장성을 보여줌.
LLM 시대의 엔지니어링
LLM 시대의 엔지니어링
Reindeer에서 1년 반 동안 정리한 LLM 시대의 제품·조직 설계 노트. 인간의 컨텍스트가 가장 희소한 자원이며, 콘텐츠 생산량 증가와 소비 속도 정체 사이의 격차를 전제로 업무 구조를 재설계해야 한다는 주장.
Show HN: Continue? Y/N, AI 에이전트 권한 피로를 다룬 60초 게임
Show HN: Continue? Y/N: AI 에이전트 권한 피로에 관한 60초 게임
AI 명령 승인 피로를 60초 게임으로 만든 실험 작품. 사용자가 에이전트의 권한 요청을 얼마나 꼼꼼히 읽고 처리하는지 시험함.
Various LLM Smells
Various LLM Smells
LLM 보조 글쓰기가 어휘와 문장 구조를 개선했지만, 시간이 지나며 강한 결론형 문장과 짧은 문장 연속 같은 반복 패턴이 널리 퍼짐. AI 글의 기계적 흔적을 'smells' 관점에서 정리한 글.
실제 팩트체크에서 프런티어 LLM 간 불일치
실제 팩트체크에서 프런티어 LLM 간 불일치
프런티어 LLM 5종이 실제 사용자 제출 클레임 1,000개 중 67%에서 판정이 엇갈림. 다수 판정은 정답이 아니라 불일치 지표에 가깝고, 단일 모델 기반 팩트체크의 한계가 드러났다.
Anthropic, Claude Opus 4.8 출시
# Anthropic, Claude Opus 4.8 출시
Anthropic이 최상위 모델 Claude Opus의 업그레이드 버전인 4.8을 출시함. 이전 4.7 대비 벤치마크 성능과 협업 능력을 개선했고 가격은 동일하게 유지됨.
AI와 대화하는 데 지쳤어요
AI와 대화하는 데 지쳤어요
악성코드 대응을 AI에 물었지만 유용한 답을 얻지 못한 사례. 커뮤니티 토론에서도 같은 AI식 답변이 반복되며 검증과 대응 품질 문제를 드러냄.
끝나지 않는 Sloptember
영원한 Sloptember
AI 에이전트가 실제 프로그래밍보다 출력 분포를 흉내 내는 데 치우친다는 비판. 깨진 결과물이 점점 알아보기 어려워지고, 직접 구현이 더 빠르고 나을 수 있다는 회의론을 제기.
중국 DeepSeek, V4-Pro API 75% 영구 가격 인하 단행
중국 딥시크, V4-Pro API 75% 영구 가격 인하 단행
DeepSeek가 주력 모델 V4-Pro API 가격을 75% 영구 인하. 글로벌 AI 모델 가격 경쟁과 시장 재편 압박을 키우는 조치.
Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성
Constraint Decay: 백엔드 코드 생성에서 LLM 에이전트의 취약성
LLM 에이전트는 느슨한 코드 생성에는 강하지만 API 계약, 아키텍처, DB, ORM 제약을 지키는 운영급 백엔드에서는 취약하다는 점을 지적했다. 동일한 OpenAPI 명세와 다수의 웹 프레임워크 과제에서 제약 준수 성능 저하를 관찰했다.
DeepSeek, 플래그십 AI 모델 75% 할인 영구화
DeepSeek, 플래그십 AI 모델 75% 할인 영구화
DeepSeek가 플래그십 V4-Pro 모델의 75% 할인 정책을 영구화함. 개발자 대상 가격이 원래의 4분의 1 수준으로 유지되며 비용 경쟁을 강화하는 흐름으로 해석됨.
Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위
Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위
OpenSCAD Pantheon 벤치마크는 참고 이미지 2장과 짧은 프롬프트로 건축물을 파라메트릭 CAD 코드로 구현하는 성능을 평가함. Google Antigravity 2.0과 Gemini 3.5 Flash High가 최고 점수를 기록하며 실제 치수와 세부 요소 재현에서 강세를 보임.
DeepSeek이 V4 Pro 가격 할인을 영구화함
DeepSeek이 V4 Pro 가격 할인을 영구화함
DeepSeek-V4-Pro API 가격이 75% 할인 프로모션 종료 뒤에도 기존의 1/4 수준으로 유지됨. 입력·출력 토큰 사용량 기준으로 과금되며 잔액에서 직접 차감되는 구조임.
AI는 기존 기술 역량에 곱셈 효과를 준다
AI는 기존 기술 역량에 곱셈 효과를 준다
AI 모델은 많은 프로그래밍 작업에서 유용하지만 개발자를 대체하기보다 기존 역량을 증폭하는 도구에 가깝다는 주장. LLM이 인간 없이 모든 규모의 프로젝트를 완전히 설계·구축한다는 증거는 부족함.
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
LLM 아키텍처의 최근 동향: KV 공유, mHC, 그리고 압축 어텐션
오픈 웨이트 LLM들이 장문 컨텍스트 효율을 높이기 위해 KV 캐시, 메모리 트래픽, 어텐션 비용을 줄이는 아키텍처 기법을 빠르게 채택 중. cross-layer attention과 compressed attention 같은 트릭이 최신 흐름으로 부상함.
2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)
2021년 MacBook에서 Gemma4-31B로 1년치 영상을 로컬 색인하기(50GB 스왑)
라벨 없는 영상 클립을 영어 질의가 가능한 로컬 인덱스로 바꾸는 워크플로를 구축함. 클립별 description.md 사이드카와 rating, 조명, 위치, 전사, 키워드 등을 기록해 검색 가능성을 높임.
Qwen3.7-Max: 에이전트 프런티어
Qwen3.7-Max: 에이전트 프런티어
Qwen3.7-Max는 코딩, 디버깅, 사무 자동화, 장기 자율 실행을 겨냥한 에이전트 중심 독점 모델로 소개됨. Terminal Bench 2.0-Terminus와 GPQA Diamond 등에서 경쟁력 있는 성능을 제시함.
Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중
Google의 AI가 조작되고 있다. 검색 거인은 조용히 반격 중
AI Overviews와 ChatGPT 같은 검색형 답변이 단일 웹페이지에도 과도하게 영향을 받아 민감한 주제에서 쉽게 왜곡될 수 있음. Google은 이런 조작 가능성을 줄이기 위해 검색 품질과 대응 체계를 강화 중임.
Forge - 가드레일로 8B 모델을 에이전트 작업에서 53%에서 99%로 끌어올리는 도구
Forge - 가드레일로 8B 모델을 에이전트 작업에서 53%에서 99%로 끌어올리는 도구
자체 호스팅 LLM의 도구 호출 신뢰성 계층. rescue parsing, 재시도, 필수 단계 강제, VRAM 인식 토큰 예산으로 작은 로컬 모델의 에이전트 워크플로 안정성을 높임.
Gemini 3.5 Flash
Gemini 3.5 Flash
프런티어급 지능과 실행 능력을 결합한 Gemini 3.5 Flash가 공개됨. 속도는 Flash급으로 유지하면서 장기 에이전트 작업과 코딩 벤치마크에서 Gemini 3.1 Pro를 앞섬.
Andrej Karpathy, Anthropic에 합류
Andrej Karpathy, Anthropic에 합류
Andrej Karpathy가 Anthropic에 합류해 다시 R&D에 참여한다고 밝힘. 향후 몇 년이 LLM 최전선에서 중요한 시기라고 보고, 여건이 되면 교육 관련 활동도 재개할 뜻을 내비침.
LLM의 지난 6개월을 5분 만에 보기
LLM의 지난 6개월을 5분 만에 보기
최근 6개월 동안 LLM 시장의 기준점이 2025년 11월로 이동했고, 코딩 에이전트와 노트북 실행 모델이 주요 흐름으로 부상한 것으로 정리됨. Claude Sonnet 4.5 이후 GPT-5.1, Gemini 3, Claude Opus 4.5가 경쟁하며 프론티어 모델 구도가 빠르게 바뀜.
Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀으로
Andrej Karpathy, Anthropic 합류 — Claude pre-training 팀으로
OpenAI 공동 창립 멤버이자 전 Tesla AI 디렉터인 Andrej Karpathy가 Anthropic 합류를 공식 발표함. 향후 몇 년간 LLM 프론티어에서의 작업에 집중하겠다고 밝혔고, Claude pre-training 팀 합류가 주목됨.
Apple Silicon은 OpenRouter보다 비용이 더 든다
Apple Silicon은 OpenRouter보다 비용이 더 든다
로컬 추론 비용은 전기료보다 기기 가격이 더 큰 변수라는 분석. M5 Max MacBook Pro 같은 고가 하드웨어는 전력비가 낮아도 총비용이 높을 수 있음.
DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 ...
DystopiaBench를 42개 모델과 6가지 디스토피아 유형으로 확장했습니다. 나라면 핵 발사 코드는 여전히 ...
DystopiaBench에 새로운 디스토피아 모듈과 다수의 최신 모델을 추가해 평가 범위를 확장. 다중 심사 기반의 고동의 조건으로 모델 행동을 더 엄격히 검증함.
Show GN: Lemini — 두 가지 모드로 동작하는 법률 자문 챗봇
Show GN: Lemini — 두 가지 모드로 동작하는 법 자문 챗봇
한국 법령과 판례를 자연어로 질의하는 RAG 챗봇 Lemini를 공개. 법률 질문 특성에 맞춰 두 가지 동작 모드로 응답 품질과 활용성을 나누는 구조를 제안.
일론 머스크, Cursor 인수 계약 후 "Cursor 데이터로 Grok V9 보강 훈련 예정"
일론 머스크, Cursor 인수 계약 후 "Cursor 데이터로 Grok V9 보강 훈련 예정"
머스크가 X에서 Grok v4.3과 개발 중인 V9 훈련 현황을 공개함. V9는 1.5T 파라미터로 방금 훈련을 마쳤다고 밝혔으며, Cursor 데이터 활용 가능성을 언급함.
DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다
DeepSeek-V4-Flash로 LLM 조향(Steering)이 다시 흥미로워졌다
DwarfStar 4가 llama.cpp를 DeepSeek-V4-Flash 전용으로 줄여 로컬 LLM 조향 실험을 쉽게 만듦. 개념 활성 차이를 벡터로 뽑아 추론 중 더해 행동을 바꾸는 방식이 핵심이다.