[Paper Review] AppAgent: Multimodal Agents as Smartphone Users
·
논문
오늘은 지난 1학기에 논문 세미나를 진행한 논문에 대한 리뷰를 작성해보고자 한다. 해당 논문에 대한 내용 전달보다는 해당 시스템을 직접 실행해보면서 느낀점을 위주로 작성해보고자하니 논문 내용이 궁금하다면 링크로 들어가 논문 내용을 읽어보길 바란다. 시간이 지날수록 LLM의 역할이 점점 더 다양해지고 있다.LLM이 단순히 텍스트나 표, 이미지 등을 생성하는 도구를 넘어서 행동(Act)를 수행하는 에이전트로 진화하고 있다. 그중에서도 CHI 2025에 게재된 AppAgent: Multimodal Agents as Smartphone Users라는 논문이 이 흐름을 잘 보여주고 있지 않나라고 생각한다.해당 논문에서는 기존 텍스트 기반 정보에만 의존했던 LLM Agent와 달리 이미지 처리 능력이 추가된 최신..