AI/Tech 다이제스트 — 2026-04-12

Share

2026-04-12 AI/Tech 다이제스트

오늘의 큐레이션 — 자동 수집 후 LLM이 선별한 12개 항목.


1. Apple Silicon에서 DFlash 추론 가속, Qwen3.5-9B를 85 tok/s로 3.3배 높이기

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

reddit · ⬆ 277 · 💬 43

MLX와 M5 Max 환경에서 speculative decoding 구현체 DFlash로 Qwen3.5-9B 추론 속도를 85 tok/s까지 끌어올리고 기본 대비 3.3배 가속했다고 보고한다. Apple Silicon 로컬 추론에서 병목이 어디에 있었는지와 speculative path가 얼마나 실제 이득을 주는지 숫자로 확인할 수 있다.


2. PyTorch로 보는 FlashAttention FA1~FA4, 알고리즘 차이에 집중한 교육용 구현

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

reddit · ⬆ 29 · 💬 5

FlashAttention 1부터 4까지를 PyTorch 교육용 코드로 나란히 구현해 각 세대가 메모리 접근, 타일링, 병렬화 방식을 어떻게 바꿨는지 직접 비교하게 해준다. 최적화 라이브러리를 블랙박스로 쓰지 않고 attention 커널이 왜 빨라졌는지 구조적으로 이해하는 데 초점이 있다.


3. SQLite 3.53.0

rss · 2026-04-11

SQLite 3.53.0은 철회된 3.52.0 이후 쌓인 변경을 한꺼번에 담은 대형 릴리스로, ALTER TABLE에서 NOT NULL과 CHECK 제약 추가·제거를 지원하고 JSON 함수도 확장됐다. 로컬 데이터 도구나 셀프호스트 앱에서 스키마 변경과 JSON 처리 우회 코드 일부를 이제 SQLite 자체 기능으로 대체할 수 있다.


4. 5B 토큰 학습 동안 내 LLM의 decoder block이 어떻게 바뀌었는가

Here's how my LLM's decoder block changed while training on 5B tokens

reddit · ⬆ 104 · 💬 27

작성자가 50억 토큰 학습 과정을 따라가며 decoder block 내부 구조와 활성 패턴이 어떻게 바뀌는지 시각화해 보여준다. 완성 모델 성능만 보는 대신 학습 중 블록이 어떤 표현을 획득하는지 드러내서, 작은 모델 학습 실험을 설계할 때 어디를 관찰해야 하는지 감이 잡힌다.


5. 최상위 AI 에이전트 벤치마크를 어떻게 깨뜨렸나, 그리고 그 다음

How We Broke Top AI Agent Benchmarks: And What Comes Next

hn · by Anon84 · ⬆ 345 · 💬 88 · 2026-04-11

Berkeley 연구진이 실제 문제를 풀지 않고도 에이전트 벤치마크에서 거의 만점에 가까운 점수를 만드는 다양한 익스플로잇을 정리했다. 벤치마크 점수가 능력 대신 채점 허점을 반영할 수 있음을 보여주며, 앞으로는 과제 설계와 평가 파이프라인 자체를 공격자 관점에서 검증해야 한다는 주장이다. 💬 HN 댓글에서도 핵심 논점은 같았다. 단순한 {} 응답 같은 허술한 취약점부터 복잡한 score exploit까지 모였고, 일부는 “새로운 통찰이라기보다 원래 평가가 신뢰에 기대고 있었다는 증거”라고 봤다.


6. 소형 모델도 Mythos가 찾은 취약점을 재현했다

Small models also found the vulnerabilities that Mythos found

hn · by dominicq · ⬆ 1012 · 💬 274 · 2026-04-11

Anthropic의 Mythos 발표에서 제시된 취약점 사례를 떼어내 소형 오픈웨이트 모델들로 다시 돌렸더니, 8개 모델 모두 대표 FreeBSD 취약점을 찾아냈다고 주장한다. 거대 비공개 모델만 가능한 돌파처럼 보였던 결과가 사실은 더 싸고 작은 모델에서도 재현될 수 있다는 반론이다. 💬 HN에서는 “수천 번 스캐폴드 실행과 재현 비용이 생각보다 낮다”는 보강과 함께, 원 발표가 재현 불가능한 주장에 너무 많이 기대고 있었다는 비판이 같이 나왔다.


7. Postgres 큐를 건강하게 유지하는 법

Keeping a Postgres Queue Healthy

hn · by tanelpoder · ⬆ 94 · 💬 25 · 2026-04-11

빠르게 churn되는 큐 테이블에서 장시간 트랜잭션이 vacuum을 막아 dead tuple이 쌓이고 성능이 무너지는 과정을 설명한다. 큐를 그냥 테이블로 쓰는 패턴이 언제 병목으로 바뀌는지, MVCC horizon과 vacuum 관찰이 왜 필요한지 운영 관점에서 정리한 글이다. 💬 HN 댓글에서는 이 문제가 오래된 Postgres 특성이라 새롭진 않다는 지적과 함께, 글의 설명 일부가 MVCC horizon 해석에서 부정확하다는 반론도 붙었다.


8. OPD 해부, 길이 팽창과 대형 언어 모델 안정화 전략

Demystifying OPD: Length Inflation and Stabilization Strategies for Large Language Models

arxiv · by Feng Luo, Yu-Neng Chuang, Guanchu Wang, Zicheng Xu, Xiaotian Han, Tianyi Zhang, Vladimir Braverman · 2026-04-09

온폴리시 증류(OPD)에서 학습이 진행될수록 rollout 길이가 갑자기 부풀고 잘린 trajectory가 데이터 대부분을 차지하면서 반복과 검증 성능 붕괴가 나타난다는 실패 모드를 짚는다. 저자들은 이 길이 팽창이 student 유도 분포와 truncation 상호작용에서 온다고 보고, 안정화 전략을 제안한다.


9. PIArena, 프롬프트 인젝션 평가 플랫폼

PIArena: A Platform for Prompt Injection Evaluation

arxiv · by Runpeng Geng, Chenlong Yin, Yanting Wang, Ying Chen, Jinyuan Jia · 2026-04-09

프롬프트 인젝션 방어를 서로 다른 데이터셋·공격 유형·작업 조건에서 일관되게 비교할 수 있는 통합 평가 플랫폼을 제안한다. 개별 논문이 특정 벤치마크에서만 강해 보이던 문제를 줄이고, 방어법의 실제 일반화 성능이 어느 정도인지 같은 기준으로 재보려는 시도다.


10. 표현 스티어링은 왜 먹히는가, 거부 성향 스티어링의 메커니즘 사례 연구

What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal

arxiv · by Stephen Cheng, Sarah Wiegreffe, Dinesh Manocha · 2026-04-09

거부(refusal) 스티어링을 사례로 잡아 steering vector가 모델 내부의 어떤 회로를 건드리는지 activation patching으로 추적한다. 같은 레이어에 적용된 서로 다른 스티어링 방법이 기능적으로 대체 가능한 회로를 활용한다는 점을 보여주며, 스티어링이 단순한 방향 벡터 주입 이상이라는 해석을 제시한다.


11. In-Context 메타러닝으로 학습 없이 피험자 간 뇌 신호 해독하기

Meta-learning In-Context Enables Training-Free Cross Subject Brain Decoding

arxiv · by Mu Nan, Muquan Yu, Weijian Mai, Jacob S. Prince, Hossein Adeli, Rui Zhang, Jiahang Cao, Benjamin Becker, John A. Pyles, Margaret M. Henderson, Chunfeng Song, Nikolaus Kriegeskorte, Michael J. Tarr, Xiaoqing Hu, Andrew F. Luo · 2026-04-09

fMRI 기반 시각 의미 해독에서 피험자마다 따로 fine-tuning하지 않고도 cross-subject generalization을 달성하려는 메타 최적화 접근을 제안한다. 개인별 bespoke 모델 없이 새로운 피험자에게 바로 적응하는 training-free decoding을 목표로 하며, 뇌 신호 해독의 일반화 병목을 줄이려는 방향이다.


12. SQLite 쿼리 결과 포매터 데모

SQLite Query Result Formatter Demo

rss · 2026-04-11

새 Query Result Formatter 라이브러리를 WebAssembly로 컴파일해 SQL 결과 테이블 렌더링 옵션을 브라우저에서 바로 시험해볼 수 있게 만든 데모다. SQLite 3.53 계열의 출력 포맷 기능이 실제 UI에서 어떻게 보이는지 빠르게 검증할 수 있다.


Generated by news-curator at 2026-04-12T09:05:18.405011Z

Read more

AI/Tech 다이제스트 — 2026-04-21

2026-04-21 AI/Tech 다이제스트 오늘 판세 주된 해석은 오늘 AI의 승부처가 새 모델 발표보다 로컬 실행 스택, 추론 엔진, 배포 경로, 그리고 실제 작업 자동화 경험으로 이동했다는 점이다. 대표 반론은 커뮤니티 체감과 벤치, 개인 성공담과 실서비스 재현성 사이의 간극이 여전히 커서, 화려한 데모나 불만 글을 그대로 일반화하긴 이르다는 것이다. 실용적

By skillissue

AI/Tech 다이제스트 — 2026-04-20

2026-04-20 AI/Tech 다이제스트 오늘 판세 주된 해석은 이제 AI의 우열이 모델 이름보다 배포 방식, 런타임 구조, 권한 경계, 회사 계정 정책 같은 운영 현실에서 갈린다는 쪽이다. 대표 반론은 여전히 커뮤니티 체감은 과장되기 쉽고, 로컬 모델 찬양이나 보안 공포 모두 재현 가능한 조건과 검증이 빠진 채 흘러가기 쉽다는 점이다. 실용적으로는

By skillissue

AI/Tech 다이제스트 — 2026-04-18

2026-04-18 AI/Tech 다이제스트 오늘 판세 주된 해석은 분명하다. 오늘은 폐쇄형 플래그십 발표보다 Qwen 3.6의 로컬 실전성, 그리고 Opus 4.7의 체감 회귀 논쟁이 판세를 가져갔다. 대표 반론은 여전히 커뮤니티 체감과 벤치가 과장되기 쉽고, 특정 태스크·세팅에선 평가가 극단적으로 흔들린다는 점이다. 실용적으로는 새 모델의 '최고 성능'보다

By skillissue