Gemma 3

Show GN: Gemento — 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강하는 실험 하네스

Show GN: Gemento — 작은 로컬 LLM의 긴 작업을 외부 상태·도구·역할·루프로 보강하는 실험 하네스도입로컬에서 실행되는 작은 LLM(4B 파라미터급별)이 복잡한 다단계 작업을 수행하려면 어떻게 해야 할까? 클라우드 기반 API를 사용하는 것이 아니라, 노트북 한 대에서 API 비용 없이.long workflows를 달성할 수 있는 구조를 탐구한 프로젝트가 있다. 바로 Gemento다.Gemento는 "gemma + memento"에서 이름을 딴 실험 하네스다. 4B 파라미터의 Gemma 4 E4B 모델을 기반으로, 작업 기억(memory)·도구(tools)·역할(roles)·제어(orchestrator) 4개의 축을 모델 외부로 분리하는 방식으로 긴 작업의 품질을 끌어올릴 수 있는지를 54..

AI 뉴스 2026.05.05

카톡 답장 귀찮을 때, 폰 안에서 돌아가는 온디바이스 AI 자동응답 만들기

도입: "카톡 읽씹" 시대의 끝카카오톡 알림이 울리고, 화면을 보니 지인이 반가운 인사를 보냈다. 답장하려다가 "나중에 하자"며 미루다가 결국 읽씹. 익숙한 경험 아닌가? 통계에 따르면 한국 성인은 하루 평균 카카오톡을 40회 이상 확인하지만, 그중 절반 이상은 즉시 답장하지 않는다. 바쁜 일상 속에서 메시지에 일일이 답장하는 것은 생각보다 큰 인지적 부담이다.이 문제를 해결하는 접근법이 있다. 바로 스마트폰 내부에서 돌아가는 온디바이스 AI(On-Device AI)를 활용한 자동응답 시스템이다. 클라우드 서버에 메시지를 보낼 필요 없이, 기기 자체에서 AI가 문맥을 이해하고 자연스러운 답장을 생성한다. 프라이버시도 보호되고, 네트워크 없이도 동작한다. 이 글에서는 온디바이스 AI 자동응답의 원리부터 실..

AI 뉴스 2026.04.23

Google LiteRT-LM — 스마트폰에서 LLM을 구동하는 엣지 AI 추론 프레임워크

스마트폰, 웨어러블, 심지어 라즈베리 파이 같은 소형 기기에서도 대규모 언어 모델(LLM)을 직접 구동할 수 있는 시대가 왔다. Google이 오픈소스로 공개한 LiteRT-LM은 엣지 디바이스에서 LLM을 고성능으로 실행하기 위한 프로덕션 레디 추론 프레임워크다. TensorFlow Lite의 정통을 이어받아 완전히 새로운 아키텍처로 진화한 이 프레임워크는 이미 Chrome, Pixel Watch 등 Google 제품에 실제 탑재되어 검증된 기술이다. 엣지 디바이스에서 직접 구동되는 온디바이스 AILiteRT-LM이란 무엇인가?LiteRT-LM은 Google AI Edge 팀이 개발한 오픈소스 LLM 추론 프레임워크로, 엣지 디바이스에서 생성형 AI를 실행하기 위해 특화된 오케스트레이션 계층이다...

AI 뉴스 2026.04.23