AI가 인간의 일자리를 강탈한다라고 설왕설래하고 있지만 이런 것을 객관적으로 측정을 하지 못하고 있었는데 이번에 관련한 연구결과이 있어 가져와봤습니다. 제목은 Remote Labor Index: Measuring AI Automation of Remote Work으로 Center for AI Safety와 Scale AI가 주축이 되어서 알아보았는데 AI 결과물을 가지고서만은 그 수준을 판단하기 어려워서 실제 사람의 결과물과 비교해서 AI 결과물이 사용가능한 수준인지 아닌지 평가를 해봤다고 합니다.
결과적으로 점차 발달하고 있는 AI 수준은 놀랍지만 특정 업무는 AI의 도움을 받아야 하지만 전반적인 인간의 업무를 대체하기까지는 아직 시간이 더 있어야하지 않을까라고 하네요 :)
DOI: 10.48550/arXiv.2510.26787
gemini
이 논문은 **'원격 노동 지수(Remote Labor Index, RLI)'**라는 새로운 측정 기준을 제시하여, 인공지능(AI)이 실제로 돈을 받고 하는 **실제 원격 업무를 얼마나 자동화할 수 있는지**를 경험적으로 측정한 연구입니다. 이 연구의 주요 내용과 시사점을 일반 독자의 눈높이에 맞추어 요약했습니다.
***
## 💡 논문 요약: AI는 과연 우리의 일을 얼마나 대체하고 있을까?
### 연구 배경: AI 발전 속, "실제 자동화 능력"에 대한 의문
[cite_start]최근 AI는 지식이나 추론 능력을 측정하는 학술적인 벤치마크(평가 기준)에서는 놀라운 속도로 발전하고 있습니다[cite: 2359]. [cite_start]하지만 이러한 발전이 **실제 경제적 가치**를 창출하고 인간의 노동을 자동화하는 능력으로 얼마나 이어지는지는 명확하게 알려지지 않았습니다[cite: 2359].
[cite_start]기존의 AI 성능 측정 기준들은 소프트웨어 코딩이나 단순한 컴퓨터 사용과 같은 **특정 기술에만 초점**을 맞추거나, 현실의 복잡성을 제대로 담지 못하는 **단순화된 환경**에 의존하는 경우가 많았습니다[cite: 2369, 2370]. [cite_start]그 결과, 이러한 지표만으로는 AI가 원격 근무라는 광범위하고 복잡한 영역을 얼마나 자동화할 수 있을지 예측하기 어려웠습니다[cite: 2371].
### 연구 목적: 실제 업무를 기준으로 AI의 자동화 능력 측정
[cite_start]이 논문의 목적은 AI 자동화의 궤적을 객관적이고 표준화된 방식으로 모니터링하기 위해 **'원격 노동 지수(RLI)'**라는 새로운 벤치마크를 도입하는 것입니다[cite: 2360, 2422].
[cite_start]RLI는 AI 에이전트(Agent)가 **현실 세계에서 경제적으로 가치 있는 '전체 프로젝트'**를 얼마나 완수할 수 있는지 평가하도록 설계되었습니다[cite: 2360, 2423]. [cite_start]이는 연구자, 정책 입안자, 일반 대중이 AI로 인한 노동 시장의 변화를 예측하고 대비할 수 있는 **경험적 근거**를 마련하고자 합니다[cite: 2451].
### 연구 방법: 실제 프리랜서 프로젝트를 활용한 'RLI' 구축 및 평가
#### 1. RLI 벤치마크 데이터 구축
* [cite_start]**프로젝트 출처:** RLI의 프로젝트는 온라인 프리랜서 플랫폼(주로 Upwork)에서 **실제 경제 활동으로 수행된** 전체 프로젝트를 직접 수집했습니다[cite: 2424, 2426, 2468]. [cite_start]이는 벤치마크가 실제 시장 수요와 복잡성을 반영하도록 보장합니다[cite: 2468].
* [cite_start]**프로젝트 구성:** 총 **240개**의 프로젝트로 구성되어 있으며, 각 프로젝트는 의뢰 내용인 **'업무 개요(Brief)'**, 필요한 **'입력 파일'**, 그리고 전문 프리랜서가 완성한 **'인간 결과물(Gold-Standard Deliverable)'**로 이루어져 있습니다[cite: 2469, 2473, 2474, 2475, 2476].
* [cite_start]**복잡성:** 이 프로젝트들은 데이터 시각화, 3D 제품 렌더링, 애니메이션 비디오 제작, 건축, 게임 개발 등 **23가지**에 달하는 광범위하고 다양한 분야를 포괄하며 [cite: 2420, 2483][cite_start], 인간 전문가가 완료하는 데 **평균 28.9시간**(중앙값 11.5시간), **평균 $632.6**의 비용이 들었던 고난도의 작업들입니다[cite: 2539, 2541].
#### 2. AI 에이전트 평가
* [cite_start]**평가 방식:** AI 결과물의 복잡성과 다양성 때문에 **자동화된 평가 시스템은 불가능**하다고 판단, **엄격한 수동 평가(Manual Evaluation)**를 사용했습니다[cite: 2428, 2639].
* [cite_start]**합격 기준:** 평가자들은 AI 결과물이 **'합리적인 고객이 의뢰된 작업으로 수용할 만한 수준'**인지를 기준으로 판단했습니다[cite: 2666]. [cite_start]즉, 단순히 기능을 수행하는 것을 넘어 **실제 시장에서 통용될 만한 전문성**을 갖추었는지 평가했습니다[cite: 2430].
* [cite_start]**측정 지표:** AI 결과물이 인간 결과물만큼 프로젝트를 완료한 비율인 **'자동화율'**을 주요 지표로 사용했습니다[cite: 2597].
### 연구 결과: 현재 AI의 자동화율은 '바닥 수준'
[cite_start]RLI 벤치마크에서 여러 최신 AI 에이전트(Gemini 2.5 Pro, ChatGPT 에이전트 등)를 테스트한 결과, 성능은 현재 **'바닥 수준(near the floor)'**인 것으로 나타났습니다[cite: 2429].
* [cite_start]**최고 성능 자동화율:** 테스트된 AI 에이전트 중 **가장 높은 성능**을 보인 에이전트(Gemini 2.5 Pro)의 자동화율은 **단 2.5%**에 그쳤습니다[cite: 2361, 2430, 2442].
* [cite_start]**결론:** 이는 AI가 지식 및 추론 벤치마크에서 빠르게 발전했음에도 불구하고, **현대 원격 노동의 다양하고 복잡한 요구 사항을 자율적으로 수행하는 능력과는 거리가 멀다**는 것을 보여줍니다[cite: 2431, 2447]. [cite_start]AI가 대부분의 프로젝트를 실제 프리랜서 환경에서 수주한 작업으로 **수용될 만한 수준으로 완성하는 데 실패**했기 때문입니다[cite: 2430].
* [cite_start]**긍정적 신호:** 다만, **모델들이 프로젝트 전반에 걸쳐 꾸준히 더 높은 자동화율에 접근하고 있다**는 추세는 관찰되었습니다[cite: 2449].
***
### 고찰 및 의의와 시사점
#### 1. AI 실패의 원인: 복잡성과 검증 능력 부족
[cite_start]AI의 실패는 단순히 지식이 부족해서가 아니라, 복잡하고 상호작용이 필요한 프로젝트(예: 건축, 게임 개발)에서 **자신이 만든 결과물의 정확성을 검증하고 실수를 수정하는 '인지적 능력(Cognitive Skills)'의 결함**에서 비롯되는 경우가 많았습니다[cite: 2087, 2088]. [cite_start]반면, 성공 사례는 주로 AI의 능력이 더 발달된 **텍스트 처리나 단순 이미지 생성**이 주를 이루는 영역(예: 보고서 작성, 간단한 웹 시각화)에서 나타났습니다[cite: 2089, 2091].
#### 2. 연구의 중요성: AI 자동화 논의의 기준점 제시
* [cite_start]**경험적 근거 마련:** RLI는 실제 경제적 거래에 기반한 프로젝트를 사용함으로써, AI 자동화에 대한 논의를 막연한 기대나 우려가 아닌 **경험적 증거**에 근거하도록 만드는 공통의 기준을 제시했습니다[cite: 2362, 2450].
* [cite_start]**현실 반영:** 기존 벤치마크보다 **실제 프리랜서 노동 시장의 복잡성과 다양성**을 훨씬 더 가깝게 포착했다는 점에서 큰 의의가 있습니다[cite: 2624].
### 이 연구가 중요한 이유
이 연구는 **"AI가 우리 일자리를 얼마나 대체할 것인가?"**라는 질문에 대해 매우 현실적이고 구체적인 답변을 제공한다는 점에서 중요합니다.
[cite_start]과거의 자동화 기술(예: 계산기)이 특정 업무만 대체하는 **'작업별(Task-specific)' 자동화**였다면 [cite: 2108][cite_start], 현재의 AI는 인간의 지능 자체를 자동화하도록 개발되고 있습니다[cite: 2109]. [cite_start]따라서 RLI와 같은 복잡한 벤치마크를 완전히 통과할 수 있는 AI는 단순히 현재의 특정 작업들을 자동화하는 것을 넘어, **새롭게 생겨나는 직업까지도 자동화할 수 있는 '일반적인 인지 능력'**을 갖추게 될 가능성이 높습니다[cite: 2111].
RLI는 바로 이 **AI의 '일반 지능'이 현실 경제에서 어느 수준에 도달했는지**를 측정하는 바로미터(척도) 역할을 합니다. [cite_start]현재는 2.5%라는 낮은 자동화율을 보이고 있지만, 앞으로 이 수치가 어떻게 변화하는지를 모니터링함으로써, 정책 입안자들과 기업, 그리고 개인들은 AI 시대의 노동 시장 변화에 **선제적으로 대비할 수 있는 구체적인 데이터**를 얻게 될 것입니다[cite: 2129].
chatGPT
### 연구 배경
인공지능(AI)이 인간의 노동을 대체하는 가능성에 대한 관심은 계속해서 커지고 있습니다. 특히, 원격 근무 분야에서 AI의 자동화 능력이 어떻게 작동할지에 대한 질문은 매우 중요한 이슈입니다. 그러나 지금까지 AI의 자동화 능력을 측정하는 지표들은 대부분 좁은 범위의 작업만을 대상으로 했고, 실제 경제 활동에서의 성과를 반영하는 지표는 부족했습니다. 이 연구는 AI가 실제 원격 노동을 어떻게 자동화할 수 있는지에 대한 실질적인 측정을 목표로 합니다.
### 연구 목적
이 연구의 목적은 **Remote Labor Index(RLI)**라는 새로운 지표를 도입하여 AI가 실제 원격 근무에서 얼마나 효율적으로 자동화할 수 있는지를 측정하는 것입니다. RLI는 다양한 분야에서 실제로 수행된 원격 프리랜스 작업을 기반으로 하여 AI 시스템의 자동화 능력을 평가합니다.
### 연구 방법
RLI는 **240개의 실제 원격 근무 프로젝트**로 구성되어 있으며, 이 프로젝트들은 **Upwork**와 같은 프리랜스 플랫폼에서 수행된 다양한 작업들을 포함하고 있습니다. 프로젝트는 크게 세 가지 요소로 나뉩니다:
* **프로젝트 개요**: 작업의 목적과 요구사항을 설명하는 문서
* **입력 파일**: 작업을 수행하기 위한 자료
* **인간의 최종 결과물**: 프리랜서가 완료한 실제 작업 결과물
AI 시스템은 이 프로젝트들을 수행하며, 인간의 작업 결과물과 비교하여 얼마나 잘 수행했는지를 평가합니다. 평가 기준으로는 **자동화 비율**, **Elo 점수**(상대적 성과를 측정하는 지표), **수익**(AI가 성공적으로 완료한 프로젝트의 금액), **자동화 비용 절감**(AI가 수행한 작업에서 발생한 비용 절감률) 등이 사용됩니다.
### 연구 결과
이 연구의 주요 발견은 현재의 AI 시스템이 대부분의 원격 근무 작업에서 인간과 동등한 수준에 미치지 못한다는 점입니다. 가장 성과가 좋은 AI 모델인 Manus는 **자동화 비율**이 2.5%에 불과했습니다. 이는 AI가 현재 원격 근무 분야에서 대부분의 작업을 완벽하게 자동화하는 데는 한계가 있다는 것을 의미합니다.
### 고찰
AI가 경제적으로 가치 있는 작업을 자동화하는 데는 아직 많은 발전이 필요하다는 점에서 연구자들은 AI 시스템의 한계를 명확히 확인했습니다. 그러나 Elo 점수와 같은 **상대적인 성과 평가**를 통해 AI 모델들이 조금씩 발전하고 있다는 점은 고무적입니다. AI가 고도화되기 위해서는 복잡한 작업을 처리하는 능력이 향상되어야 하며, 특히 **디자인**, **게임 개발**, **3D 모델링** 등 다양한 분야에서 **전문적인 품질의 작업을 생성하는 능력**이 필요합니다. 현재 AI가 실패하는 주요 원인으로는 **기술적 오류**, **불완전한 작업**, **일관성 결여** 등이 있습니다.
### 의의와 시사점
이 연구의 가장 큰 의의는 AI의 **원격 근무 자동화**에 대한 실질적인 성과를 측정할 수 있는 **표준화된 지표**를 제시했다는 점입니다. RLI는 AI 기술 발전의 방향성을 명확히 하고, 향후 AI가 원격 근무 시장에 미칠 영향을 예측할 수 있는 중요한 도구로 활용될 수 있습니다. 또한, 연구 결과는 AI가 **현재 경제적으로 중요한 작업을 완전히 자동화하기에는 한계가 있지만, 지속적으로 개선되고 있다는 점을 보여줍니다.**
### 이 연구가 중요한 이유
이 연구는 단순히 AI의 성능을 측정하는 데 그치지 않고, **AI의 경제적 영향을 예측하고 대응할 수 있는 토대**를 마련합니다. 이를 통해 **AI 자동화로 인한 노동 시장의 변화**를 예측하고, **정책 입안자**나 **산업 관계자**들이 준비할 수 있도록 도움을 줄 수 있습니다. AI가 노동 시장에 미치는 영향을 잘 파악하는 것은 향후 사회적, 경제적 영향을 최소화하고, AI 기술이 **사회적으로 책임감 있게 발전**할 수 있도록 가이드라인을 제공하는 데 중요한 역할을 할 것입니다.
grok3
### AI가 원격 작업을 자동화할 수 있을까? 'Remote Labor Index' 연구 요약
#### 연구 배경
AI 기술이 빠르게 발전하면서 지식과 추론 능력을 테스트하는 벤치마크(기준 시험)에서 높은 점수를 내고 있습니다. 하지만 이런 성과가 실제 경제 활동, 특히 컴퓨터 기반 원격 작업(예: 프리랜서 일)에 얼마나 적용되는지 불확실합니다. 기존 벤치마크는 소프트웨어 코딩이나 웹 검색처럼 특정 기술에 초점을 맞췄지만, 실제 원격 노동 시장은 데이터 분석, 그래픽 디자인, 게임 개발, 건축 설계 등 훨씬 다양하고 복잡합니다. 이로 인해 AI가 인간 노동을 대체할 수 있는지를 제대로 측정하기 어려웠습니다. 연구자들은 AI 자동화가 사회·경제에 미칠 영향을 미리 파악할 필요성을 느꼈습니다.
#### 연구 목적
이 연구는 AI가 실제 경제적으로 가치 있는 원격 작업을 얼마나 자동화할 수 있는지 측정하기 위해 'Remote Labor Index(RLI)'라는 새로운 벤치마크를 소개합니다. RLI는 프리랜스 플랫폼에서 나온 실생활 프로젝트를 기반으로, AI 에이전트(자동화 프로그램)가 전체 프로젝트를 끝까지 완수할 수 있는지를 평가합니다. 목표는 AI 자동화의 실질적 진척을 경험적으로 증명하고, 연구자·정책입안자·대중이 AI의 노동 시장 영향을 논의할 공통 기반을 마련하는 것입니다.
#### 연구 방법
연구팀은 Upwork 같은 프리랜스 플랫폼에서 358명의 전문 프리랜서를 모집해 550개의 프로젝트를 수집했습니다. 이 중 엄격한 검토를 거쳐 240개 프로젝트를 선정했습니다. 각 프로젝트는 작업 지시서(브리프), 입력 파일(자료), 인간 전문가가 만든 완성품(산출물)으로 구성됩니다. 프로젝트 유형은 23개 카테고리(비디오 편집 13%, CAD 설계 12%, 그래픽 디자인 11% 등)로 다양하며, 평균 비용 632달러, 평균 완료 시간 28.9시간으로 실제 시장을 반영합니다.
AI 평가를 위해 최신 AI 에이전트(예: Gemini 2.5 Pro, ChatGPT, GPT-5 Sonnet 4.5 등)를 투입했습니다. AI가 만든 산출물을 인간 전문가의 것과 비교하며, '자동화율(automation rate: AI가 인간만큼 잘 완수한 비율)', 'Elo 점수(상대적 성능 비교)', '수익 달러(완수한 프로젝트 가치)', 'Autoflation(비용 절감 비율)' 같은 지표로 측정했습니다. 평가는 웹 기반 플랫폼에서 인간 평가자가 수동으로 진행했습니다.
#### 연구 결과
AI 에이전트들의 성과는 매우 낮았습니다. 최고 성능 AI(Gemini 2.5 Pro)가 자동화율 2.5%를 기록했으며, 다른 AI(예: ChatGPT, Grok 4)도 0~2%대에 그쳤습니다. 대부분 프로젝트에서 AI는 작업을 제대로 완수하지 못했습니다. Elo 점수로 비교해도 AI들은 인간 기준(1,000점)에 훨씬 못 미쳤고, 총 14만 달러 가치 프로젝트 중 AI가 벌어들인 금액은 극소수에 불과했습니다. 이는 AI가 지식 벤치마크에서 강하지만, 실제 복잡한 원격 작업(예: 3D 애니메이션 제작, 과학 논문 포맷팅)에서는 여전히 한계가 크다는 점을 보여줍니다.
#### 고찰
기존 벤치마크는 소프트웨어·연구·작성 작업에 치중해 실제 원격 노동 시장(소프트웨어 20% 미만)의 다양성을 놓쳤습니다. RLI는 완료 시간과 유형 분포가 Upwork 실제 데이터와 유사해 더 현실적입니다. AI는 간단한 작업에서는 발전했지만, 입력 파일 처리, 창의적 산출물 생성, 복잡한 상호작용에서 약점을 드러냈습니다. 연구팀은 RLI가 AI의 세부적 개선을 추적할 수 있다고 봅니다.
#### 의의와 시사점
이 연구는 AI 자동화 논의를 추상적 의견에서 실증적 데이터로 옮깁니다. 정책입안자는 AI가 일자리를 위협할 분야를 예측하고, 교육·재훈련 프로그램을 설계할 수 있습니다. 기업은 AI를 보조 도구로 활용하며 비용을 절감할 기회를 찾을 수 있습니다. 대중에게는 AI가 아직 인간 노동을 완전히 대체하지 못한다는 안심과 함께, 미래 변화에 대비할 필요성을 일깨웁니다. 공개 데이터셋(10개 프로젝트)으로 누구나 AI를 테스트할 수 있게 했습니다.
이 연구가 중요한 이유는 AI 자동화의 속도와 영향을 객관적으로 추적할 수 있게 해주기 때문입니다. AI가 노동 시장을 바꿀 가능성이 크지만, 과도한 공포나 낙관 없이 증거 기반으로 대응할 수 있도록 돕습니다. 이는 사회가 AI 시대를 더 공정하고 준비된 상태로 맞이하는 데 기여할 것입니다.
NotebookLM
이 논문은 **'원격 노동 지수(Remote Labor Index, RLI)'**라는 새로운 측정 기준을 제시하며, 현재 최첨단 인공지능(AI)이 실제 경제 가치를 창출하는 원격 노동을 얼마나 자동화할 수 있는지에 대해 실증적인 평가를 수행한 연구입니다.
일반 성인 독자를 위한 블로그 게시물 형태로 쉽게 요약했습니다.
***
## [블로그 요약]
### 제목: 충격! AI는 우리의 일자리를 얼마나 대체했을까? - '실제 경제 노동 지수(RLI)' 실험 결과 공개
#### 1. 연구 배경: 우리는 AI 자동화를 제대로 측정하고 있는가?
최근 몇 년간 AI는 추론 능력이나 지식 기반 테스트에서 놀라운 발전을 보여주고 있습니다. 하지만 이러한 기술적 성과가 **"실제 돈을 버는 일"**을 대신할 수 있는 능력으로 얼마나 이어졌는지는 명확하지 않았습니다.
기존의 AI 성능 측정 벤치마크들은 소프트웨어 코딩이나 단순한 웹 검색 작업처럼 너무 전문적이거나, 혹은 범위가 좁은 단순 작업에 초점을 맞추는 경향이 있었습니다. 이 때문에 정책 입안자나 대중이 AI가 우리의 노동 시장에 미치는 영향을 현실적으로 파악하고 대비하기 위한 **표준화되고 경험적인 측정 기준**이 절실하게 필요했습니다.
#### 2. 연구 목적: 현실 경제에 기반한 AI 자동화 능력 측정
본 연구는 AI가 원격 노동을 자동화하는 능력을 표준화된 방식으로 측정하기 위해 **원격 노동 지수(RLI)**를 도입하는 것을 목적으로 합니다.
RLI는 기존의 학문적인 벤치마크와 달리, **실제 경제적 가치**를 지닌 프로젝트를 통해 AI 에이전트의 '엔드 투 엔드(End-to-End)' 작업 수행 능력을 평가합니다. 이를 통해 AI 자동화에 대한 논의를 막연한 추측이 아닌, **경험적인 증거**에 기반하도록 만드는 것이 핵심 목표입니다.
#### 3. 연구 방법: 실제 프리랜서 프로젝트를 벤치마크로 활용
연구진은 RLI 벤치마크를 구축하기 위해 다음과 같은 방법을 사용했습니다.
**A. 데이터 소싱 및 구성:**
RLI는 실제 온라인 프리랜서 플랫폼(Upwork 등)에서 직접 가져온 전체 프로젝트들로 구성됩니다. 이는 프로젝트 의뢰서, 필요한 입력 파일, 그리고 **인간 전문가가 완성한 '골드 스탠더드' 결과물**을 포함합니다.
* **복잡성과 가치:** RLI 프로젝트는 실제 경제 거래에 기반하고 있으며, 프로젝트당 평균 완료 시간은 28.9시간, 중간값은 11.5시간에 달합니다. 일부 프로젝트는 비용이 10,000달러를 초과하고, 전체 프로젝트의 총 가치는 140,000달러가 넘습니다.
* **다양성:** RLI는 게임 개발, 건축, 3D 제품 렌더링, 데이터 시각화, 과학 문서 준비 등 23개 업워크 하위 범주의 광범위한 원격 노동 영역을 포괄합니다.
**B. AI 에이전트 평가:**
연구팀은 Gemini 2.5 Pro, GPT-5, Sonnet 4.5, Manus 등 최신 AI 에이전트 프레임워크를 평가했습니다.
* **엄격한 수동 평가:** AI 결과물은 자동화된 시스템이 아닌, 숙련된 평가자에 의한 엄격한 수동 평가를 거쳤습니다.
* **자동화율 정의:** AI 결과물이 **"합리적인 의뢰인에게 수주 작품으로 받아들여질 정도로"** 인간 전문가의 결과물과 동등하거나 더 나은 품질로 프로젝트를 완료했는지 여부를 기준으로 **자동화율(Automation Rate)**을 측정했습니다.
#### 4. 연구 결과: 현재 AI의 자동화율은 2.5% 미만
RLI를 통해 평가된 현재 최첨단 AI 에이전트들의 성능은 매우 낮은 수준으로 나타났습니다.
**A. 절대 성능의 한계:**
* **최고 자동화율 2.5%:** 가장 성능이 좋은 AI 에이전트(Manus)조차도 RLI 프로젝트 중 **2.5%**만을 자동화하는 데 성공했습니다. 다른 모델들은 1%대에 머물렀습니다.
* **경제적 기여 미미:** AI가 성공적으로 완료한 프로젝트를 통해 벌어들인 달러 가치(Dollars Earned) 역시 전체 프로젝트 가치($143,991) 대비 극히 일부에 불과했습니다.
**B. AI의 실패 요인:**
자동화율이 낮은 주된 이유는 AI가 다음과 같은 치명적인 오류를 자주 범했기 때문입니다:
1. **기술 및 파일 오류:** 손상되었거나 사용 불가능한 파일 생성, 또는 잘못된 형식으로 결과물을 제공함 (17.6%).
2. **불완전한 결과물:** 필요한 구성 요소 누락, 길이가 잘린 비디오 등 미완성 작업 제출 (35.7%).
3. **품질 문제:** 작업이 완료되었더라도, 결과물의 품질이 전문적인 기준에 크게 미달함 (45.6%).
**C. AI가 잘하는 일:**
AI는 오디오 편집 및 믹싱, 광고나 로고 생성과 같은 이미지 생성 작업, 그리고 보고서 작성 및 인터랙티브 데이터 시각화를 위한 코드 생성 등 **창의적이고 텍스트 처리 중심의 프로젝트** 중 일부에서는 인간 수준의 성능을 보이거나 능가했습니다.
**D. 점진적인 발전 포착:**
자동화율은 낮았지만, 모델 간의 상대적 성능을 측정하는 Elo 점수(인간 기준 1,000점)에서는 모델들이 서로 점진적으로 개선되고 있음을 발견할 수 있었습니다.
#### 5. 고찰 및 시사점: AI는 지능을 자동화하는 중
이 연구 결과는 AI가 지식 기반 벤치마크에서 아무리 빠르게 발전하더라도, **현실 세계의 다양하고 복잡한 원격 노동 수요를 자율적으로 충족시키기에는 아직 거리가 멀다**는 것을 실증적으로 보여줍니다.
AI 자동화는 단순한 특정 작업의 대체가 아니라 **인간 지능 자체를 자동화하도록 개발**되고 있다는 점에서 과거의 자동화 기술(예: 계산기)과 질적으로 다릅니다. RLI는 이러한 AI가 현재의 작업뿐만 아니라 **새롭게 발생하는 미래의 작업까지 자동화할 수 있는 잠재력**을 측정하는 데 중요한 단계가 됩니다.
RLI는 연구자들, 정책 입안자, 그리고 일반 대중에게 AI의 현재 역량을 정확하게 모니터링하고, 미래 노동 시장에 미칠 영향을 예측하며, AI 주도 자동화에 **선제적으로 대응**할 수 있는 경험적 기반을 마련해줍니다.
***
### 이 연구가 중요한 이유
이 연구는 **AI 자동화에 대한 논의의 수준을 한 단계 끌어올렸습니다.** 과거에는 AI가 "무엇을 할 수 있는지"에 초점을 맞춘 학술적 테스트가 주를 이루었다면, RLI는 AI가 **"실제 경제에서 얼마나 많은 가치를 창출할 수 있는지"**를 측정하는 척도를 제시했습니다.
RLI의 핵심 의의는 **AI의 현주소에 대한 냉철한 시각**을 제공한다는 점입니다. AI가 일부 단순 작업에서 이미 인간과 비슷하거나 능가할 수 있지만, 수십 시간과 수백 달러의 가치를 지닌 복합적인 실제 프로젝트를 자율적으로 처리하는 능력은 아직 3% 미만이라는 경험적 증거는, AI의 발전 속도를 추적하고 그에 따른 사회적, 경제적 대비책을 마련하는 데 있어 매우 중요한 기준점이 됩니다.
perplexity.ai
이 논문은 인공지능(AI)이 실제 경제적 가치를 지닌 '원격 노동(리모트 워크)'을 자동화할 수 있는지를 측정하기 위해 새로운 벤치마크인 'Remote Labor Index(RLI)'를 제안하고, 최신 AI 에이전트들이 실제 원격 작업을 얼마나 자동화할 수 있는지 평가한 연구입니다.[1]
***
### 연구 배경
최근 AI는 지식·이론적 문제 풀이 능력은 빠르게 발전했지만, 실제로 인간이 경제적으로 수행하는 일(노동)을 얼마나 자동화하고, 그 영향이 노동시장에 어떻게 나타나는지는 아직 명확하지 않았습니다. 기존 벤치마크들은 특정 직무(예: 프로그래밍, 문서 편집)에 국한되고, 실제 다양한 원격 노동 환경의 복잡성과 경제적 가치를 충분히 반영하지 못했습니다.[1]
***
### 연구 목적
이 논문의 목적은 AI가 실제로 원격 노동을 자동화할 수 있는 능력을 엄밀하게 측정할 수 있는 표준화된 지표(RLI)를 만들고, 그 지표를 바탕으로 여러 AI 에이전트의 자동화 성능을 비교·분석하는 것입니다. 이를 통해 AI의 경제적 가치와 자동화 잠재력을 실질적으로 검증합니다.[1]
***
### 연구 방법
- **RLI 벤치마크 설계**: 원격 프리랜서 플랫폼(Upwork 등)에서 실제 전문가가 수행한 240개의 프로젝트를 수집해, 다양한 유형(게임 개발, 3D 디자인, 건축, 데이터 분석 등 23개 분야)과 파일 형태를 모두 포함했습니다.
- **평가 기준**: 각 프로젝트마다 원본 작업지시서, 입력 파일, 인간 전문가가 만든 최종 결과물을 확보하여 AI가 동일 작업을 수행할 때 얼마나 실제 결과물 수준에 도달하는지 평가합니다.
- **AI 모델 평가**: ChatGPT agent, GPT-5, Claude Sonnet 4.5, Grok 4, Gemini 2.5 Pro, Manus 등 최신 에이전트들을 실제 프로젝트에 투입해 인간과 직접 비교합니다.
- **수작업 평가**: AI의 결과물이 실제 의뢰인의 요구를 얼마나 만족시키는지, 파일 완성도와 품질, 요구 충족 여부를 전문 평가자가 직접 확인합니다.[1]
***
### 결과
- 현재 AI는 실제 경제적 가치를 지닌 원격 노동의 대부분을 자동화할 수준에는 크게 못 미침을 확인했습니다. 가장 성능이 좋은 모델(Manus)도 프로젝트의 2.5%만 인간 수준 또는 그 이상으로 수행할 수 있었습니다.
- AI가 작업을 완수하더라도, 자주 파일 손상, 결과물 누락, 품질 저하, 결과물 간 불일치 등 문제들이 발생했습니다.
- 일부 영역(텍스트 작성, 이미지·오디오 편집 등)에서는 인간 수준에 도달하거나 능가하는 경우도 있었으나, 전체 노동 시장에서는 아직 매우 제한적입니다.
- AI의 진보는 상대적인 평가(Elo 점수 기준)에서는 점진적으로 개선되고 있으나, 절대적인 경제적 가치 창출에는 아직 한계가 큽니다.[1]
***
### 고찰
- AI의 자동화 능력이 기대만큼 빠르게 확장되지 않는 이유는 실제 노동이 요구하는 복잡성, 다양한 파일 처리, 인간 수준의 검증 및 품질 관리가 아직 충분하지 않기 때문입니다.
- 실제 시장에서 요구되는 다양한 노동(디자인, 제품 개발, 데이터 분석, 건축 등)에서 AI가 성공적으로 결과물을 내기 위해서는 '실제 경제적 맥락'에 맞는 평가와 학습이 필요함이 확인되었습니다.
- 제한점으로는 클라이언트와의 소통이 필요한 작업이나 팀 작업 등 일부 원격 노동은 제외되었고, 최근 몇 년간의 인플레이션은 반영되지 않았습니다.[1]
***
### 의의와 시사점
- RLI는 기존의 이론·지식 중심 테스트와 달리 실제 노동 시장의 다양한 직무와 프로젝트를 바탕으로 AI의 자동화 수준을 평가한다는 점에서 큰 의미가 있습니다.
- 앞으로 AI가 노동을 자동화하는 진척도와 그 경제적 영향(노동 시장 변화, 임금 변동 등)을 지속적으로 실증적으로 측정할 수 있는 기준점을 제공합니다.
- 정책 입안자, 산업계, 일반 시민 모두가 AI 자동화가 실질적으로 어떤 속도로, 어떤 형태로 노동 시장에 영향을 미치는지 객관적으로 파악할 수 있는 토대를 마련합니다.[1]
***
### 이 연구가 중요한 이유
이 논문은 AI의 노동 자동화 능력을 '실제 경제적 가치와 프로젝트 완성도 기준'으로 당면하게 측정해줍니다. 지금까지 AI에 대한 기대와 우려가 컸지만, 실제로 AI가 거의 대부분의 원격 노동을 완전히 자동화하기에는 아직 많은 기술적·품질적 장벽이 있다는 것을 실증했습니다. 앞으로 AI가 노동 시장에 미치는 영향을 객관적으로 추적할 수 있는 출발점이 되고, 산업과 사회가 AI 시대를 준비하는 데 꼭 필요한 정보를 제공합니다.[1]
![]() |
| 출처: @ye._.vely618 |






