Be.FM: 인간 행동을 위한 개방형 Foundation Models

Yutong Xie^1∗Zhuoheng Li^1∗Xiyuan Wang^1∗Yijun Pan¹Qijia Liu¹Xingzhi Cui¹Kuang-Yu Lo¹
Ruoyi Gao¹Xingjian Zhang¹Jin Huang¹Walter Yuan²Matthew O. Jackson^3,4Qiaozhu Mei¹

초록

수많은 분야에서의 성공에도 불구하고, 인간 행동을 모델링하고 이해하기 위한 foundation models의 잠재력은 여전히 대체로 탐구되지 않은 상태이다. 우리는 인간 행동 모델링을 위해 설계된 최초의 개방형 foundation models 중 하나인 Be.FM을 소개한다. 오픈소스 대규모 언어 모델을 기반으로 구축되고 다양한 범위의 행동 데이터로 fine-tuning된,Be.FM은 인간의 의사결정을 이해하고 예측하는 데 사용될 수 있다. 우리는 행동 foundation models의 능력을 테스트하기 위한 포괄적인 benchmark task 집합을 구성한다. 우리의 결과는Be.FM이 행동을 예측하고, 개인과 집단의 특성을 추론하며, 맥락에 대한 통찰을 생성하고, 행동과학 지식을 적용할 수 있음을 보여준다. 모델은 요청 시 이용 가능하다:LINK.

1 서론

Foundation models는 수많은 분야에 혁신을 가져왔다. 방대하고 다양한 데이터셋으로 훈련된 이러한 모델들은 단순한 task와 복잡한 task의 넓은 범위에서 뛰어난 적응성을 보인다. 이러한 모델 위에 구축된 애플리케이션들은 이제 인간 전문가에 근접하는 성능으로 일상적 과업과 전문적 과업 모두를 지원한다. 예를 들어, large language models (LLMs)는 글쓰기, 의사소통, 정보 탐색을 보조하고, multi-modal models는 이미지, 비디오, 음악의 빠른 생성을 가능하게 하며, 과학 foundation models는 문헌 검토, 코드 생성, 데이터 분석, 패턴 인식을 제공한다(Bubeck et al.,2023). 유전체학과 같은 분야에서 AlphaFold 같은 foundation models는 인간 세포 유형 전반의 전사 활동을 매핑하는 데 사용되어, 유전자 조절에 대한 새로운 통찰을 제공하고 생물학적 과정에 대한 우리의 이해를 발전시켰다(Jumper et al.,2021). 일반적인 언어 이해와 도메인 특화 추론 능력을 통합하면서, foundation models는 단순한 분석 도구를 넘어 진화했다. 그것들은 이제 혁신의 촉매로 작용하여 새로운 발견과 학제 간 협업을 이끌고 있다.

그들의 변혁적 잠재력에도 불구하고, foundation models는 모델링을 위해서는 여전히 대체로 충분히 탐구되지 않았다인간 행동그리고 다음의 문제들을 다루는 데행동과학—인간 행동의 분석과 예측. 행동과학은 심리학, 사회학, 인류학, 경제학을 포함한 여러 학문 분야에 걸쳐 있으며, 개인, 집단, 사회 수준에서 의사결정 역학을 이해하기 위한 토대로 기능한다. 이 분야의 통찰은 정책 결정, 의료, 교육, 비즈니스 전략에 정보를 제공하며, 행동 분석과 개입을 향상시키기 위한 더 발전된 AI 기반 접근법의 필요성을 부각한다.

행동과학에서 사용되는 전통적인 AI 모델은 종종 task-specific 데이터셋과 수작업으로 만든 features로 훈련된다(Turgeon and Lanovaz,2020; Kliegr et al.,2020; Dehghan et al.,2022), 이는 다양한 맥락과 task 전반으로 일반화하는 능력을 제한한다. 감성 분석 같은 특정 task를 위해 구축된 machine learning models(Braig et al.,2023), 설문 분석(Heeringa et al.,2017), 그리고 clickthrough prediction(Yang and Zhai,2022)은 일반적으로 광범위한 도메인 특화 tuning을 필요로 하며 인간 행동의 전체 복잡성을 포착하는 데 어려움을 겪는다.

행동 foundation model은 방대하고 다양한 데이터셋을 활용하여 인간 행동에 대한 더 포괄적이고 일반화 가능한 이해를 개발함으로써 이러한 한계를 극복할 잠재력이 있다. 이는 각기 다른 애플리케이션마다 특수한 훈련을 요구하지 않고도 모델이 광범위한 task 전반에서 효과적으로 수행할 수 있게 한다. 그러한 모델은 행동 지식의 표현과 적용을 향상시키고, 행동 예측과 결과 추정을 개선하며, 맥락이 행동을 어떻게 형성하는지에 대한 더 깊은 통찰을 제공하고, 잠재적 동기를 밝혀내며, 개인 수준과 집단 수준 모두에서 확장 가능한 분석을 가능하게 할 수 있다.

인간 행동을 위한 foundation model을 개발하는 것은 두 가지 핵심 과제를 제시한다. 첫째, 행동 데이터의 단편화되고 분산된 성격은 효과적인 모델 훈련을 위한 다양하고 고품질의 데이터셋 포트폴리오를 조직하기 어렵게 만든다. 둘째, 표준화된 benchmark tasks의 부족은 모델 성능의 체계적 평가와 개선을 저해하여, 서로 다른 행동과학 도메인과 task 전반에서 그 신뢰성과 적용 가능성을 제한한다.

Refer to caption — Figure 1:Be.FM은 인간 행동을 모델링하기 위해 설계된 foundation model이다. 다양한 행동 데이터셋 포트폴리오로 훈련된,Be.FM은 다음을 할 수 있는 능력을 가진다: (1) 다양한 시나리오 전반에서 행동을 예측하고 시뮬레이션한다; (2) 행동으로부터 개별 인간뿐 아니라 더 넓은 집단의 동기와 기타 특성을 추론한다; (3) 인간 행동에 영향을 미치는 맥락적 요인에 대한 통찰을 생성한다; 그리고 (4) 추론과 문제 해결에서 행동 지식을 표현하고 적용한다.

우리는 소개한다Be.FM, 인간 행동을 모델링하고 모방하도록 특별히 설계된 foundation models 제품군을(Figure1). 오픈소스 대규모 언어 모델의 강력한 언어 능력을 기반으로 구축된,Be.FM모델들은 행동과학 문헌, 인간 대상 실험 데이터, 설문 데이터, 관찰 데이터라는 행동 데이터의 여러 핵심 범주를 포괄하는 선별된 데이터셋으로 훈련된다(Sec.2). 우리는 행동 foundation models의 효과성을 체계적으로 평가하기 위해, 행동과학의 핵심 필요와 정렬된 포괄적인 benchmark task 모음을 소개한다(Sec.3). 광범위한 실험을 통해, 우리는 다음을 수행할 수 있는 폭넓은 능력을Be.FM이 획득했음을 입증한다: (1)다양한 시나리오 전반에서 행동을 예측하고 시뮬레이션한다(Sec.3.1); (2) 개별 대상자와 집단의 특성을 추론한다(Sec.3.2); (3) 행동에 영향을 미치는 맥락적 요인에 대한 통찰을 생성한다(Sec.3.3); 그리고 (4)행동과학 지식을 표현하고 그것을 적용한다.(Sec.3.4). 이러한 능력을 통해,Be.FM은 더 포괄적이고 확장 가능한 분석을 가능하게 함으로써 행동과학을 발전시키기 위한 기반을 제공한다. 또한, 그것은 AI를 인간 행동 연구 및 응용, 그리고 실제 배포와 통합하는 새로운 인터페이스를 도입한다.

2 다음의 개요Be.FM

Be.FM은 오픈소스 대규모 언어 모델(예: Meta Llama 3.1)을 기반으로 구축된다.Be.FM모델들은 광범위한 인간 행동 관련 task를 다루는 능력을 향상시키기 위해 다양한 행동 데이터 출처로 추가 훈련된다. 다음의 기초는Be.FM인간 행동이 행동의 환경과 맥락, 대상자의 특성, 그리고 기저 동기를 포함한 여러 요인에 의해 형성된다는 것이다. 이 프레임워크는 형식적으로 다음과 같이 표현될 수 있다

y = ℱ (𝕂, x, c),

(1)

여기서 $x$ 는 인간 대상자의 특성 집합을 나타내며, $c$ 는 환경을 정의하는 맥락 변수의 집합을 나타내고, $𝕂$ 는 인간 행동에 관한 모든 관련 지식을 포괄하며, $ℱ$ 는 이러한 입력을 특정 행동 선택에 매핑하는 잠재 함수이다 $y$ . 다음의 훈련과 benchmarking은Be.FM이 프레임워크에 의해 안내된다.

이 절의 나머지는 훈련에 사용된 행동 데이터(Sec.2.1)와 훈련 과정(Sec.2.2)을 개괄한다. 훈련 데이터의 처리와 형식화를 포함한 추가 세부사항은 Appendix에 제공된다A.

2.1 행동 데이터

데이터 범주	목적	예시 데이터 설명
문헌 데이터	인간 행동에 관한 기초 지식과 추론 단서를 제공하기 위해. 문헌 데이터는 이론, 경험적 발견, 확립된 메커니즘, 그리고 행동과학 연구의 발전과 추세를 제공한다. 다음의 proxy $𝕂$ Equation에서와 같은1.	행동과학 관련 학술지의 출판물. 현재까지 2,703편의 출판물에서 제목과 초록이 수집되었고 추출된 연구 workflow로 증강되어, 3,129,462 tokens의 corpus가 되었다.
인간 대상 실험 데이터	통제된 환경에서 인간 대상자의 행동을 기록하여, 인간 의사결정, 사회적 상호작용, 특정 조건에 대한 행동 반응에 관한 경험적 관찰을 제공하기 위해. 다음의 proxy ${x, c, y}$ Equation에서와 같은1.	인간 대상 실험의 experiment log. 이 버전은 MobLab의 데이터를 포함하며, 여러 경제 게임에서 68,780명의 대상자, 82,057개의 독립 관찰, 15,236개의 session으로부터의 game-playing records를 포함하고, 9년 기간(2015–2023)에 걸쳐 수집되었다.
설문 데이터	성격 특성, 태도, 행동 경향, 그리고 개인 행동과 관련된 기타 자기보고 정보를 포착하기 위해. 설문은 다음에 대해 물을 수 있다 $x$ 또는 $y$ Equation에서1, 종종 미리 framing된 맥락 아래에서 $c$ 설문 질문 안에서.	Big Five personality test와 같은 설문 응답 및 요약 결과로, 17,667명의 대상자 집단과 설문 질문에 대한 총 883,350개의 응답을 포함한다.

Table 1:훈련에 사용된 다양한 행동 데이터Be.FM.

행동 foundation model을 훈련하려면 광범위한 고품질 행동 데이터가 필요하다. 그러나 기존 데이터는 종종 단편화되어 있고, 여러 학문 분야에 흩어져 있으며, 언어 모델에 통합되도록 구조화되어 있지 않다. 이 과제를 해결하기 위해, 우리는 행동 데이터의 네 가지 핵심 범주(Table1)를 식별하며, 이들은 함께 Equation의 변수들에 대한 높은 coverage를 제공한다1그리고 그것들이 다음의 전반적 능력에 어떻게 기여할 수 있는지 논의한다Be.FM.

문헌 데이터.

행동과학 문헌은 인간 행동에 관한 기존 이론과 과학적 발견을 기록하며, 행동 지식의 proxy를 형성한다 $𝕂$ Equation에서1. 다음의 초기 버전을 훈련하기 위해Be.FM, 우리는 다음의 출판물을 사용한다American Economic Review. 우리의 데이터셋은 이 저널에서 1963년부터 2024년까지의 3,003편의 출판물로 구성된 선별된 모음을 포함한다. 이 중 2,703편의 출판물이 foundation model 훈련에 사용되고, 나머지 10퍼센트는 모델 평가를 위해 보류된다. 행동 지식을 정밀하게 추출하고 표현하기 위해, 우리는 먼저 각 연구의 제목과 초록을 구조화된 연구 workflow, 즉 연구의 맥락, 핵심 아이디어, 방법, 결과, 예상 영향으로 요약하며, 다음의 관행을 따른다Zhang et al. (2024), 결과적으로 총 3,129,462 tokens가 되었다. 연구 workflow를 사용하여 논문의 제목을 예측하고, 연구 맥락이 주어졌을 때 핵심 아이디어를 예측하도록 훈련된,Be.FM은 행동과학의 핵심 개념, 이론, 방법론, 경험적 발견을 통합하여, 행동 예측, 맥락 추론, 연구 계획, Economics Olympiad questions 같은 문제 해결과 같은 task를 수행하는 능력을 강화한다.

실험 데이터

실험 데이터는 통제된 환경에서 다양한 대상자 pool의 행동 패턴을 포착하여, 개인 및 집단 의사결정뿐 아니라 사회적 상호작용에 대한 핵심 통찰을 제공한다. 그러한 데이터는 보통 다음의 형식으로 표현된다 ${x, c, y}$ , 여기서 $x$ 는 대상자 특성(종종 부분적으로 labeling됨)을 나타내고, $c$ 는 맥락 변수(보통 부분적으로 식별되며, 종종 실험 조건을 포함함)를 나타내며, $y$ 는 관찰된 행동을 기록한다. 그러한 데이터의 가치 있는 출처는 다양한 행동, 경제, 심리 연구에서 대상자의 응답을 기록하는 실험 플랫폼과 공개 저장소이다. 초기 버전에서, 우리는 MobLab(Mei et al. (2024)), 행동과학 및 경제 게임을 위한 플랫폼, 의 실험 모음을 활용하며, 이는 9년 기간(2015–2023)에 걸쳐 수집된 68,779명의 대상자와 82,057개의 독립 관찰로부터의 game-playing experiment data를 포함한다. 이 데이터의 개별 session은 모델 훈련에 사용되며, 평가는 population level에서 행동 분포를 예측하기 위해 다른 task가 사용된다. 게임 조건이 주어졌을 때 개인 행동을 예측하도록 훈련된,Be.FM은 다양한 시나리오 전반의 행동 경향을 포착하여, 행동 예측과 alignment에서의 정확도를 향상시키며, 이는 실제 세계 행동 패턴의 개선된 시뮬레이션과 분석을 가능하게 한다.

설문 데이터

설문 데이터는 성격 특성, 태도, 선호에 대한 자기보고 통찰을 제공한다. 그것들은 주로 대상자의 특성( $x$ Equation에서1)의 표현을 제공하지만, 때로는 자기보고 행동도 포함한다 $\tilde{y}$ 이는 관찰된 행동의 proxy를 제공한다 $y$ , 그리고 아직 실행되지 않은 설문에 대한 응답을 시뮬레이션하는 데에도 유용할 수 있다. 이러한 응답은 맥락을 명시하지 않고 직접 요청될 수도 있고, 특정한 사전 지정 시나리오와 함께 요청될 수도 있다 $c$ 설문 질문 안에서. 다음의 초기 버전에서Be.FM, 우리는 Big Five personality test의 응답 데이터셋을 사용한다. 이 데이터셋은 응답자의 인구통계 정보(인종, 나이, 성별)와 다섯 가지 성격 차원, 즉 openness, conscientiousness, extraversion, agreeableness, neuroticism 전반의 50개 질문에 대한 단일선택 답변을 포함한다(Mei et al. (2024)). 이러한 응답은 개별 성격 특성의 다섯 차원 점수로 집계된다. 총 17,667명의 대상자 기록이 훈련에 사용되고, 1,963명은 평가를 위해 보류된다. 대규모 설문 데이터는Be.FM이 개인 행동 패턴을 추론하고, 질문 전반의 응답 상관관계를 예측하며, 주관적 경험을 모방할 수 있게 한다. 인구통계 정보가 주어졌을 때 대상자의 성격 특성을 예측하도록 훈련된 이러한 데이터는Be.FM의 인구통계 집단 전반에 걸친 일반화 능력을 향상시켜, 개인 수준과 집단 수준 모두에서 행동 모델링을 개선한다.

관찰 데이터

관찰 데이터는 자연적 또는 준자연적 환경에서 비구조적이거나 반구조적인 행동을 포착함으로써 실제 세계 행동을 포착한다. 따라서 그것은 실험 데이터 및 설문 데이터와 중첩되며 유사한 표현을 제공한다 ${x, c, y}$ , 비록 보통 훨씬 더 넓고 더 noisy한 표현과 관련되어 있지만 $x$ 그리고 $c$ . 예시에는 온라인 플랫폼과 소셜 미디어의 activity logs, 검색 및 browsing patterns, 집단 상호작용의 video recordings가 포함된다. 이러한 데이터셋은 변동성이 풍부하여 자발적이고 덜 통제된 행동을 반영하며, 복잡한 실제 시나리오로 일반화하는 데 가치가 있다. 관찰 데이터를 사용하여 행동 foundation model을 훈련하는 것은 실험 데이터와 유사한 절차를 따르며, 추가적인 적응성과 robustness를 촉진한다. 관찰 데이터는 다음의 초기 버전을 훈련하는 데 사용되지 않았다Be.FM, 비록 향후 버전에는 포함될 예정이지만.

2.2 모델 구성 및 훈련

다음의 초기 버전을 훈련하기 위해Be.FM, 우리는 Meta Llama 3.1의 두 release(70B와 8B)를 채택한다(Grattafiori et al.,2024)를 foundation LLMs로서. 계산 효율성을 개선하기 위해, 70B 모델은 bitsandbytes library를 사용하여 8-bit precision으로 quantize되어, 성능을 보존하면서 memory overhead를 줄인다. 우리는 LlamaFactory를 사용하여 모델을 fine-tune한다(Zheng et al.,2024), low-rank adaptation (LoRA)을 사용한 supervised fine-tuning (SFT)을 적용하여(Hu et al.,2022)효율적인 weight updates를 가능하게 한다. LoRA는 모든 model layers에 적용되어, 과도한 계산 비용 없이 fine-tuning을 보장한다. 훈련 데이터는 Alpaca template을 따라 형식화된다(Taori et al.,2023), 입력을 모델의 예상 구조와 정렬한다. 전처리에는 tokenization, truncation, caching이 포함되며, scalability를 개선하고 latency를 줄이기 위해 multiprocessing이 사용된다. 이 fine-tuning 접근법은Be.FM을 효율성과 유연성을 유지하면서 행동과학 응용에 최적화한다.

능력	Tasks	평가 데이터
예측하고 시뮬레이션한다 행동을 다음 전반에서 다양한 시나리오	실험에서 행동 예측, 다음 중 하나/여러 개가 주어졌을 때: • 인구통계와 같은 대상자 정보 • 실험 설계와 같은 맥락	MobLab의 여러 behavioral economics games에서 인간 플레이 기록
예측하고 시뮬레이션한다 행동을 다음 전반에서 다양한 시나리오	설문 질문에 대한 응답 예측, 다음 중 하나/여러 개가 주어졌을 때: • 인구통계와 같은 대상자 정보 • 설문 설계와 같은 맥락	BigFive test responses
특성 추론 대상자에 관하여	대상자 인구통계 예측, 다음 중 하나/여러 개가 주어졌을 때: • 실험에서의 행동 • 설문 응답	BigFive test responses
맥락 추론 요인들	실험 개입 예측, 다음 중 하나/여러 가지가 주어졌을 때: • 행동에서 관찰된 변화 • 피험자/모집단 정보	Dictator game 메타분석
지식을 적용하기 추론과 문제 해결에서	연구 워크플로 추론	출판물 출처American Economic Review
지식을 적용하기 추론과 문제 해결에서	복잡한 문제 해결	IEO 경연 문제

Table 2:일반 능력Be.FM다양한 행동과학 과제에서.

3 일반화 가능한 능력Be.FM다양한 행동과학 과제에서

행동과학은 설문 분석, 행동 예측, 상호작용 시뮬레이션과 같은 광범위한 과제를 포괄하며, 이는 모집단과 맥락 전반에 적용될 수 있다. 이 분야의 전통적 도구와 AI 모델은 종종 과제별 데이터셋과 수작업으로 만든 특징에 의존한다(Turgeon and Lanovaz,2020; Kliegr et al.,2020; Dehghan et al.,2022), 이는 서로 다른 응용 전반에서 일반화하는 능력을 제한한다. 광범위한 행동 데이터로 학습된 행동 foundation model은 이러한 제약을 극복하고 다양한 응용 전반에서 더 효과적으로 수행하며, 새로운 시나리오에서 더 잘할 잠재력이 있다. 또한 특히 모집단 수준에서 인간 행동에 대한 더 폭넓은 이해를 보유할 수 있다. 우리는 행동과학의 핵심 차원을 포착하도록 설계된 포괄적인 일련의 벤치마크 과제를 사용하여, 다음에 대한 체계적 평가를 가능하게 한다Be.FM의 능력. 이러한 과제와 해당 능력은 Equation의 일반 프레임워크를 둘러싸고 구성되어 있으며1Table에 개괄된 것처럼 행동과학의 핵심 차원과 정렬되어 있다2. 테스트 데이터, 프롬프트, 평가 지표, baselines를 포함한 추가 세부 사항은 Appendix에 제공된다B.

3.1 Be.FM의 시나리오 전반에서 행동을 예측하고 시뮬레이션하는 능력

행동 예측을 위한 전통적 방법은 다양한 모집단과 환경 전반에 일반화하는 데 종종 어려움을 겪는다(Muthukrishna and Henrich,2019; Yarkoni,2022; D’Amour et al.,2022; Barocas et al.,2023). 대조적으로,Be.FMfoundation model은 대규모 데이터와 맥락적 추론을 활용하여, 실제 세계 시나리오 전반에서 더 적응적이고 정확한 추론을 가능하게 한다.

경제 게임에서 특성과 환경의 함수로서 행동 예측.

행동 예측의 핵심 측면은 모집단 수준에서 행동 또는 실험 결과를 추론하고, 특성과 환경의 함수로서 분포를 그려내는 능력이다. 선행 연구를 바탕으로(Mei et al.,2024; Xie et al.,2024), 우리는 평가한다Be.FM을 다섯 가지 고전적 경제 게임을 사용하여 평가하며, 일곱 개의 구별되는 시나리오를 포함한다: (1) Dictator Game, (2) Ultimatum Game(Proposer와 Responder 모두), (3) Trust Game(Investor와 Banker 모두), (4) Public Goods Game, (5) Bomb Game. 이러한 게임은 이타성, 공정성, 신뢰, 위험 선호를 포함한 다양한 행동 경향을 평가한다. 형식적으로, 예측 과제는 다음과 같이 표현될 수 있다

X, c \to 𝐄_{x \in X} [p (y | x, c)],

(2)

여기서 $c$ 는 주어진 게임 시나리오이고, $X$ 는 인간 피험자의 모집단이며, $𝐄 [p (y | x, c)]$ 는 이 게임 시나리오에서 이 피험자 모집단 특성의 함수로서 기대되는 행동 선택이다.

각 게임에 대해, 우리는 게임 지시문을 프롬프트로 사용하여 1,000개의 독립 샘플을 생성하고, 결과 분포를 MobLab 플랫폼에 기록된 인간 행동과 비교한다. Figure2는 인간 플레이어와 평가된 모델을 비교하는 행동 히스토그램을 제시한다. 결과는 실제 인간 행동 분포와 base LLMs(Llama 3.1) 및 frontier commercial model GPT 4o를 포함한 다른 general-purpose LLMs의 예측 사이에 상당한 불일치가 있음을 드러낸다. 그러나 광범위한 행동 데이터를 통해 학습된,Be.FM은 이 격차를 줄이고 인간 행동 분포를 더 정확하게 시뮬레이션한다.

Model	Dictator	Proposer	Responder	Investor	Banker	Public Goods	Bomb
Be.FM 8B	6.76	6.94	7.24	4.23	10.54	3.44	9.65
Be.FM 70B	6.14	7.59	6.55	13.82	4.31	3.38	6.85
Llama 3.1 8B	8.40	16.79	5.95	15.01	6.90	24.50	11.93
Llama 3.1 70B	25.94	11.83	5.04	18.61	11.30	11.34	14.76
GPT 4o-mini	16.59	13.99	33.40	26.78	29.50	23.40	36.65
GPT 4o	25.48	10.89	32.43	31.01	21.88	21.25	12.38

Table 3:경제 게임 시나리오 전반에서 인간 행동 분포를 시뮬레이션하는 성능. 모델 생성 분포와 ground-truth 인간 분포 사이의 Wasserstein distances가 측정된다. 더 낮은 거리는 더 높은 분포 유사성을 의미한다.Bold텍스트는 각 게임에서 최고의 성능을 강조한다.

Table3은 모델 생성 분포와 ground-truth 인간 분포 사이의 Wasserstein distances를 보고하며, 더 작은 값은 더 큰 유사성을 나타낸다. 다음이 예측한 행동 분포는Be.FMbase LLMs(예외는 trust game의 Responder 역할)뿐 아니라 commercial LLMs보다 인간 분포에 일관되게 더 가깝다. 이러한 결과는 강조한다Be.FM의 모집단 수준에서 다양한 시나리오 전반의 인간 의사결정을 예측하고 시뮬레이션하는 고급 능력을.

Big Five 성격 특성 예측.

Be.FM은 또한 개인 수준에서 설문 결과를 예측하는 능력을 보여준다. 우리는 모델 학습에서 제외된, Big Five 성격 검사를 완료한 1,963명의 피험자 응답을 사용하여 이를 평가한다. 이 과제는 얼마나 잘Be.FM이 인종, 나이, 성별과 같은 인구통계 정보에 기반하여 다섯 성격 차원 점수를 예측할 수 있는지를 평가한다. 형식적으로, 이 과제는 다음과 같이 표현될 수 있다

x, 𝐜 \to g (𝐲),

(3)

여기서 $x$ 는 개인의 인구통계 정보이고, $𝐜$ 는 설문 질문들의 집합이며, $g (𝐲)$ 는 다음의 응답에 대한 사전 정의된 집계 함수이다 $x$ 안의 질문들에 대한 $𝐜$ . 피험자에 대한 설문 결과, $g (𝐲)$ , 는 종종 피험자에 대한 추가 특성을 제공하며 다음의 일부가 될 수 있음에 유의하라 $x$ 다른 과제에서(예: Sec.3.2).

Model	MAE( $↓$ )	Spearman’s corr( $↑$ )	W-distance( $↓$ )
Be.FM 8B	7.27	0.101^‡	1.75
Be.FM 70B	7.27	0.128^‡	1.68^†
Llama 3.1 8B	8.23	0.037	5.26
Llama 3.1 70B	7.05	0.029	4.06
GPT 4o-mini	6.85	0.034	5.52
GPT 4o	7.11	0.029	5.00

Table 4:인구통계가 주어졌을 때 Big Five 성격 점수를 예측하는 성능. 각 모델에 대해, 예측값과 ground truths를 비교하여 mean absolute error (MAE), Spearman’s correlation coefficient, Wasserstein distance를 계산한다. 지표는 다섯 성격 차원(OCEAN)에 걸쳐 집계된다.Bold텍스트는 각 게임에서 최고의 성능을 강조한다.^‡은 상관관계가 유의함을 나타낸다 (

p < 0.05

). “^†”는 smoothed Kolmogorov–Smirnov test를 통과한 분포를 나타낸다 (

p > 0.05

) 모든 다섯 차원에 대해 bin width 10으로.

이 과제는 개인 수준 예측을 포함하므로, 우리는 분포 수준 Wasserstein distance에 더해 두 가지 개인 수준 평가 지표를 채택한다: (1) mean absolute error (MAE) 및 (2) Spearman’s rank correlation. 구체적으로, 각 피험자와 각 성격 차원에 대해, 모델은 10에서 50까지의 점수를 예측한다. MAE는 예측 점수와 ground-truth 점수 사이의 절대 오차를 평균하여 계산된다. 유사하게, Spearman’s rank correlation은 각 차원에 대해 예측 점수와 ground-truth 점수의 상관을 계산하여 산출된다.

Table4은 성격 특성 예측 결과를 제시하며, 모든 결과는 다섯 성격 차원(OCEAN)에 걸쳐 평균된다.Be.FM은 base models(Llama 3.1)와 commercial LLMs에 비해 일관되게 더 높은 correlation과 W-distance를 얻었다. MAE에 대한 결과는 혼재되어 있으며, 이는 다음을 나타낸다Be.FM은 수치 점수보다는 개인 수준 예측의 상대적 순서와 분포를 보존하는 더 나은 능력을 갖고 있다. 주목할 점은 mainstream commercial model GPT 4o가 파라미터 수에서 수백 배 더 크지만, 개인 성격 특성 예측에서 더 작은 모델들을 능가하지 못한다는 것이다.

3.2 Be.FM의 피험자와 모집단의 특성 추론

개인과 피험자 집단을 특성화하는 것은 행동과학의 한 목표이며, 행동 이질성 이해, 시장 세분화, 사용자 프로파일링, 개인화된 개입, 정책 결정 개선에 이르는 응용을 갖는다. 이 능력을 평가하기 위해, 우리는 평가용으로 Big Five 성격 검사 데이터를 채택하고, 성격 특성 점수에 기반하여 피험자의 나이를 예측하는 모델의 능력을 테스트한다. 형식적으로, 이 과제는 다음과 같이 표현될 수 있다

y, (x^{'}), c \to x,

(4)

여기서 $x^{'}$ 는 피험자에 대한 일부 부분적(종종 null) 정보이고 $y$ 는 맥락 하에서의 그들의 행동이다 $c$ , 그리고 $x$ 는 그들의 행동을 공동으로 형성한 피험자의 잠재 특성을 나타낸다 $y$ .

Model	MAE( $↓$ )	Spearman’s corr( $↑$ )	W-distance( $↓$ )
Be.FM 8B	9.05	0.108^‡	5.39
Be.FM 70B	9.16	0.134^‡	5.70
Llama 3.1 8B	10.50	0.038	8.62
Llama 3.1 70B	10.36	0.029	7.75
GPT 4o-mini	10.17	0.030	8.07
GPT 4o	11.01	0.048^‡	9.12

Table 5:Big Five 성격 점수가 주어졌을 때 피험자의 나이를 추론하는 모델의 성능. 각 모델에 대해, 모델이 예측한 피험자 나이와 피험자가 보고한 나이를 비교하여 mean absolute error (MAE), Spearman’s correlation coefficient, Wasserstein distance를 계산한다.Bold텍스트는 최고의 성능을 강조한다.^‡은 상관관계가 유의함을 나타낸다 (

p < 0.05

우리는 개인 수준 평가 지표로 MAE와 Spearman’s correlation을 사용하고, 분포 수준 지표로 Wasserstein distance를 사용한다. Table5은 결과를 제시한다.Be.FM은 base models 및 commercial LLMs와 비교하여 MAE, Spearman’s correlation, Wasserstein distance 전반에서 최고의 결과를 달성하며, 행동 데이터로 학습하는 것이 피험자에 관한 것들을 추론하는 능력을 강화한다는 것을 다시 한번 보여준다. 더 큰 비행동 모델인 GPT 4o는 이 과제에서도 더 작은 base models를 능가하지 못한다.

3.3 Be.FM은 맥락적 요인에 대한 통찰을 생성할 수 있다

행동은 사회적, 문화적, 환경적 맥락에 의해 형성되므로, 행동이 발생하는 기저 조건을 통합하는 것이 필수적이다. 외부 영향의 복잡성 때문에 맥락의 역할을 추론하는 것은 어렵다. 행동 foundation model은 맥락 전반에서 관찰된 행동 변화를 분석하여 가장 관련 있는 맥락적 요인을 추론함으로써 이 도전에 대응할 수 있다. 예를 들어, 행동의 변화가 주어졌을 때,Be.FM은 그 변화를 초래했을 수 있는 상황적 조건이나 실험 환경을 예측할 수 있다. 이 과제는 다음과 같이 표현될 수 있다

X, g (Y), 𝕂 \to c,

(5)

여기서 $X$ 는 피험자 모집단이고, $g (Y)$ 는 모집단의 행동이 주어졌을 때 정의된 특정 utility function이다 $Y$ (예: 다음의 이동 $Y$ default behavior와 비교하여, 또는 원하는 treatment effect), $𝕂$ 는 행동에 대한 확립된 지식이고, $c$ 는 맥락 변수(예: 개입 또는 특정 실험 설계)이다.

평가하기 위해Be.FM의 맥락적 요인을 추론하는 능력을, 우리는 Dictator Game의 메타 연구를 참조한다(Engel,2011), 이는 다양한 실험 설계와 그에 대응하는 결과를 보고한다. 우리는 요청한다Be.FM에게 Dictator game에서 공유 행동을 증가시킬 처치를 제안하도록, 그리고Be.FM은 문헌에 보고된 것들과 정렬된 실험 설계를 출력한다. 다음 추천들Be.FM이 만든 것에는 다음이 포함된다: (1) 사회적 규범이나 기대를 제공하는 것과 같은 사회적 요인 도입(Fong,2007), 사회적 정체성 단서 사용(Rigdon et al.,2009), 또는 사회적 연결 강화(Leider et al.,2010); (2) 실제 세계 framing 적용(Engel,2011); (3) 문화적 및 인구통계적 맥락 변화(Henrich et al.,2005); 그리고 (4) 시각적 단서 통합(Rigdon et al.,2009). 유사하게, 공유를 줄이는 처치를 예측할 때,Be.FM은 선행 연구에 의해 검증된 전략을 제안하며, 여기에는 (1) 책임성 감소가 포함된다(Dana et al.,2006)그리고 (2) 수령자 framing 변경(Eckel et al.,2005). 주목할 만하게,Be.FM은 또한 시간 압박과 인지 부하 도입과 같이 메타분석에서 명시적으로 다루지 않은 추가 처치도 제안하여, 관찰된 데이터를 넘어 그럴듯한 실험 가설을 생성할 잠재력을 보여준다. 전체 모델 출력은 Tables에 나열되어 있다10-13Appendix에.

3.4 Be.FM의 추론과 문제 해결에서 행동 지식의 적용

행동과학의 기초 지식을 통합하는 것은 해당 분야의 연구와 응용을 발전시키는 데 필수적이다. large language model을 기반으로 구축된,Be.FM은 고급 언어 처리를 활용하여 행동과학 지식을 체계적으로 추출, 조직, 표현한다. 일반적으로, 이러한 과제는 다음과 같이 표현될 수 있다

𝕂 \to Δ 𝕂,

(6)

여기서 $𝕂$ 는 기존 지식의 합집합이고, 복잡한 문제에 대한 해는 새로운 지식 조각으로 귀결된다 $Δ 𝕂$ 이는 다음으로부터 도출되며 $𝕂$ 그리고 다음에 추가될 수 있다 $𝕂$ .

	BLEURT( $↑$ )		ROUGE-1( $↑$ )
Model	아이디어	제목	아이디어	제목
Be.FM 8B	0.498	0.438	0.076	0.406
Be.FM 70B	0.423	0.427	0.315	0.385
Llama 3.1 8B	0.460	0.441	0.083	0.076
Llama 3.1 70B	0.482	0.398	0.106	0.238
GPT 4o-mini	0.426	0.415	0.084	0.394
GPT 4o	0.452	0.412	0.136	0.390

Table 6:연구 워크플로 예측에서 모델들의 성능. 연구 맥락이 주어졌을 때, 모델이 생성한 아이디어를 출판 초록에서 추출한 핵심 아이디어와 비교한다. 연구 워크플로가 주어졌을 때, 모델이 생성한 제목을 실제 논문 제목과 직접 비교한다. 각 예측 시나리오에 대해 BLEURT와 ROUGE-1 점수를 보고한다. 더 높은 점수는 더 나은 예측을 나타낸다.굵은 글씨텍스트는 최고의 성능을 강조한다.

연구 워크플로 추론.

행동 foundation model은 행동과학 연구를 지원하기 위해 지식을 표현하고 적용할 수 있다. 과학 연구 워크플로 예측에서 LLM을 벤치마킹한 최근 연구를 따라(Zhang et al.,2024), 우리는 평가한다Be.FM의 행동과학에서 연구 워크플로를 추론하는 능력을. 우리는 두 가지 하위 과제에 초점을 맞춘다: (1) 배경 맥락을 기반으로 핵심 연구 아이디어를 생성하기, 그리고 (2) 맥락, 핵심 아이디어, 방법, 결과와 예상 영향을 함께 제공받아 논문 제목을 생성하기. 평가를 위해, 우리는 학습에서 제외된 300개의 AER 출판물 하위 집합을 사용한다. Table6은 서로 다른 모델들의 성능을 제시하며, 여기서Be.FM은 네 가지 지표 중 세 가지에서 baseline LLM들을 능가하여, 행동과학 연구 지원에서 그 잠재력을 강조한다.

복잡한 문제 해결.

Model	Accuracy(%)
Be.FM 8B	51.3%
Be.FM 70B	73.3%
Llama 3.1 8B	48.4%
Llama 3.1 70B	68.8%
GPT 4o-mini	72.9%
GPT 4o	81.6%

Table 7:IEO 경시대회 문제에서의 성능.굵은 글씨는 최고의 성능을 강조하는 반면,밑줄은 두 번째로 좋은 성능을 강조한다.

연구자들은 ChatGPT와 Llama 같은 일반 foundation model의 추론 및 복잡한 문제 해결 능력을 평가하기 위해 International Mathematical Olympiad (IMO)와 같은 경시대회의 문제를 자주 사용한다. 전문 분야에서는 복잡한 질의응답 벤치마크 또한 모델이 정확하고 신뢰할 수 있으며 맥락에 적절한 지식을 표현하는 능력을 평가하기 위한 지표로 기능한다.

우리는 International Economics Olympiad (IEO)의 문제를 사용한다¹¹1International Economics Olympiad (IEO)의 공식 웹사이트:https://ieo-official.org/, 2025년 4월 9일 검색.테스트하기 위해Be.FM의 도메인 특화 지식을 표현하고, 그것에 대해 추론하며, 적용하는 능력을. 우리는 2019년부터 2024년까지 5년치 IEO 경시대회를 큐레이션하여, 91개의 객관식 문항을 수집한다.

우리는 10개의 독립 실험에서 얻은 결과를 집계한다. Table7은 IEO 질문에 답하는 데 있어 서로 다른 모델들의 평균 accuracy를 제시한다. 비록Be.FM은 IEO 데이터로 명시적으로 학습되지 않았지만, 우리는 Llama 3.1 base model들에 비해 눈에 띄는 향상을 관찰한다(8B의 경우 48.4%에서 51.3%로, 70B의 경우 68.8%에서 73.3%로). 이는 학습된 foundation model이 행동 지식을 더 잘 표현하고 적용할 수 있음을 나타낸다. 모든 모델 중에서 GPT-4o가 가장 높은 accuracy(81.6%)를 달성하는데, 이는 아마도 훨씬 더 큰 파라미터 규모(수천억)와 추론을 위한 특정 학습의 이점을 받은 것으로 보인다.

3.5 요약

일련의 벤치마킹 과제들은 다음을 보여준다:Be.FM은 다양한 행동 모델링, 예측 및 분석 과제 전반에서 어느 정도 일반화 가능한 능력을 획득했다. base LLM 및 다른 상용 LLM들과 비교할 때,Be.FM모델들은 학습 과제와 동일한 과제(그러나 held-out 데이터로 평가됨)에서 뛰어나다: 예를 들어, 성격 특성 예측, 연구 흐름 추론. 충분한 학습 데이터가 이용 가능한 개별 과제에서는, 동일한 유형의 데이터에 대해 특별히 학습된 expert model(예: agentic model)이 foundation model보다 더 잘 수행할 수 있다(부록 B 참조). 그러나 그들의 성능은 다른 과제로 일반화될 가능성이 낮다.Be.FM은 학습 데이터와 관련되어 있지만 학습 과제에서는 벗어나는 과제에서 진전된 성능을 보인다: 예를 들어, 행동 분포 예측과 인구통계 예측으로, foundation model이 학습 데이터로부터 지식을 종합하고 이를 일반화하여 다른 과제를 해결하는 능력을 보여준다. 아마도 가장 흥미로운 것은 학습 데이터와 관련되지 않은 과제에서의 능력이다: 예를 들어, 맥락 추론, IEO 경시대회.Be.FM은 이러한 보지 못한 지적으로 도전적인 과제들에 대해 흥미로운 일반화 가능성을 제시하지만, 성능을 더 잘 이해하기 위해서는 추가 분석이 필요하다. 맥락 추론의 성공을 측정하기 위한 정량적 평가 절차가 필요하며, IEO 테스트만큼 복잡한 추론 및 문제 해결 과제에서 행동 foundation model의 능력을 입증하고 설명하기 위해 더 많은 실험이 필요하다.

4 관련 연구

4.1 행동과학을 위한 Foundation Models

인간 행동 연구와 관련된 과학 분야에서, GPT와 Llama 같은 일반 foundation model들이 점점 더 많이 적용되고 있다(Demszky et al.,2023; Meng,2024; Bail,2024). 이러한 모델들은 설문 연구를 개선하는 데 유망함을 보인다(Argyle et al.,2023; Grossmann et al.,2023), 자동화된 콘텐츠 분석을 가능하게 하고(Wu et al.,2023; Yang and Menczer,2023; Gilardi et al.,2023), agent-based modeling을 지원하며(Park et al.,2023, 2024), 실험 결과를 예측한다(Hewitt et al.,2024; Lippert et al.,2024). 그러나 최근 연구는 일반 목적 모델을 행동과학에 더 중요한 과제에 직접 적용하는 데 있어 중대한 도전과 한계를 강조한다. 예를 들어, 이러한 모델들은 종종 모집단 변이를 포착하지 못하고(Bisbee et al.,2024), 특정 데이터 형식에 대한 편향을 보이며(Dentella et al.,2023), 특정 모집단 집단을 과소대표한다(Santurkar et al.,2023). 행동과학의 필요와 일반 foundation model의 설계 사이의 이러한 간극은 행동과학의 원칙 및 데이터와 정렬된 도메인 특화 모델에 대한 수요를 강조한다.

이러한 필요에도 불구하고, 행동 관련 foundation model은 대체로 충분히 탐구되지 않았으며, 관련된 시도는 몇 가지뿐이다. 예를 들어,Binz et al. (2024)은 Centaur를 소개하는데, 이는 심리학 실험 데이터로 학습되고 의사결정, 기억, 지도학습, Markov decision process와 같은 인지 실험에서 인간 반응을 예측하는 데 테스트된 인지과학 foundation model이다. 또 다른 예는 행동 이벤트 데이터로 학습된 비공개 모델인 Monad이다(Rychalska et al.,2023). 클릭, 좋아요, 페이지 조회, 카드 거래, 장바구니 담기 또는 구매와 같은 사용자 행동 이벤트로 학습된 Monad의 주된 초점은 사용자의 행동 패턴을 포착하는 큰 벡터로서 행동 표현을 생성하는 것이다. 또 다른 연구 흐름에는 Meta Motivo 및 관련 모델들이 포함된다Tirinzoni et al. (2025); Sikchi et al. (2025), 이들은 전신 물리적 움직임을 통해 인간 행동을 포착한다. 이러한 모델들은 광범위한 전신 과제에서 물리 기반 가상 휴머노이드 에이전트를 제어할 수 있다. 그러나 이들은 경제 활동과 같은 복잡한 시나리오에 수반되는 더 높은 수준의 의사결정 과정을 다루지 않는다.

우리의 실험은 다음을 입증한다:Be.FM은 다양한 행동과학 과제를 지원하는 반면, Centaur와 Monad 같은 기존 모델들은 인지 반응 예측과 사용자 행동 표현에 특화되어 있다.

4.2 AI 행동과학

AI 행동과학 (Jackson et al.,2025)은 본질적으로 양방향적이다–위에서 논의한 것처럼 AI가 행동과학 연구의 도구로 기능할 수 있을 뿐만 아니라, 행동과학 방법이 AI 시스템 자체의 행동, 편향, 창발적 속성을 연구하는 데에도 사용될 수 있다. 예를 들어,Aher et al. (2023); Mei et al. (2024)및Xie et al. (2024)은 Turing test의 변형을 수행하여, 경제 게임에서 LLM들의 결정을 인간 데이터와 비교했다. 유사하게,Horton (2023); Lorè and Heydari (2024)은 LLM들의 전략적 행동을 조사했으며, 한편Chen et al. (2023)은 GPT의 경제적 합리성을 평가했다. 다른 연구들은 theory of mind와 같은 행동 프레임워크를 LLM에 적용하거나(Strachan et al.,2024), AI 생성 설문 응답의 편향을 조사했다(Salecha et al.,2024).

AI를 행동과학에 사용하는 것과 행동과학을 AI에 적용하는 것이라는 이 두 방향은 각각 진전되었지만, 통합적 접근은 여전히 빠져 있다. 구체적으로, 인간 행동을 이해하기 위한 도구이면서 동시에 AI 시스템 자체에 대한 행동적 탐문을 위한 플랫폼으로 기능하는 모델이 부족하다. 우리의 연구는 행동과학을 위한 foundation model을 도입함으로써 이 간극을 메운다.

5 결론 및 논의

Be.FM은 인간 행동을 모델링하고 행동과학의 과제를 해결하도록 특별히 설계된 개방형 foundation model 계열이다. 다양한 행동 데이터를 포괄하는 신중하게 큐레이션된 말뭉치로 학습되어, 우리는 입증한다Be.FM의 능력을: (1) 다양한 시나리오 전반에서 행동을 예측하고 시뮬레이션하기; (2) 개인 및 모집단 수준 모두에서 대상자의 특성을 추론하기; (3) 행동에 영향을 미치는 맥락적 요인을 추론하기; 그리고 (4) IEO 문제 해결 및 연구 워크플로 예측에서 행동과학 지식을 적용하기.

우리의 연구는 행동 foundation model을 학습하고 평가하기 위한 체계적 프레임워크를 확립하고, 그 최적화의 향후 방향에 대한 지침을 제공하는 것을 목표로 한다. 우리는 Equation의 다양한 구체화를 나타내는 추가 데이터셋과 과제로 학습 말뭉치를 확장할 계획이다1. 또한 현재 버전에서 사용된 것들을 넘어서는 대안적 base LLM들을 탐색할 수도 있다. 초기 버전의Be.FM은 추가적인 reinforcement learning 기반 학습 없이, 순수하게 supervised fine-tuning을 사용하여 학습되었는데, 이는 foundation model의 추론 능력을 개선하는 데 중요하다고 밝혀져 왔다. 의 일반화 가능한 능력을 입증하기 위해Be.FM여러 과제에서, 우리는 특정 과제의 성능을 최적화하기 위해 의도적으로 reinforcement learning을 사용하지 않았다. RL 기반 추론은 향후 버전의Be.FM에 탑재될 것이다. 우리는 구상한다Be.FM을 다음과 같이 기능하는 행동 foundation model을 개발하기 위해 더 넓은 커뮤니티의 지속적인 참여를 촉진하는 초기 단계로:

행동과학 연구를 위한 새로운 인터페이스.

행동 foundation model은 연구자들을 위한 새로운 인터페이스를 도입하여, 전통적인 연구 방법론과 AI 기반 통찰을 연결한다. 기존의 과제 특화 모델과 달리,Be.FM은 다양한 맥락 전반에서 인간 행동을 표현하고, 예측하며, 추론하기 위한 통합적이고 확장 가능한 프레임워크를 제공한다. 이 방향에서, 행동 foundation model은 과학자-AI 협업을 더욱 촉진하여, 연구자들이 단순한 자동화를 넘어서는 방식으로 가설을 생성하고, 실험을 설계하며, in silico 실험을 실행하고, 데이터를 분석할 수 있게 할 것으로 예상된다.

다양한 도메인 전반의 응용을 위한 새로운 기반.

우리는 행동 foundation model의 영향이 여러 도메인 전반으로 확장될 것으로 예상한다. 사회과학자들은 복잡한 사회적 역학을 연구하고, 행동 패턴을 발견하며, 대규모로 낮은 비용으로 in silico 실험을 설계하고 수행하기 위해 그들의 고급 분석 능력을 활용할 수 있다. 엔지니어와 AI 개발자들은 행동 통찰을 시스템 설계에 통합하여 인간-AI 상호작용과 적응적 의사결정을 향상시킬 수 있다. 행동 분석과 A/B testing에 의존하는 산업은 사용할 수 있다Be.FM을 의사결정을 최적화하고, 시장 전략을 정교화하며, 사용자 경험을 개선하기 위한 개입을 탐색하는 데.

참고문헌

Aher et al. [2023] Gati V Aher, Rosa I Arriaga, and Adam Tauman Kalai. 대규모 언어 모델을 사용하여 여러 인간을 시뮬레이션하고 인간 대상 연구를 복제하기. InInternational Conference on Machine Learning, pages 337–371. PMLR, 2023.
Argyle et al. [2023] Lisa P Argyle, Ethan C Busby, Nancy Fulda, Joshua R Gubler, Christopher Rytting, and David Wingate. 하나에서, 다수로: 언어 모델을 사용하여 인간 표본을 시뮬레이션하기. Political Analysis, 31(3):337–351, 2023.
Bail [2024] Christopher A Bail. 생성형 AI는 사회과학을 개선할 수 있는가? Proceedings of the National Academy of Sciences, 121(21):e2314021121, 2024.
Barocas et al. [2023] Solon Barocas, Moritz Hardt, and Arvind Narayanan. 공정성과 기계학습: 한계와 기회. MIT press, 2023.
Binz et al. [2024] Marcel Binz, Elif Akata, Matthias Bethge, Franziska Brändle, Fred Callaway, Julian Coda-Forno, Peter Dayan, Can Demircan, Maria K Eckstein, Noémi Éltető, et al. Centaur: 인간 인지의 foundation model. arXiv preprint arXiv:2410.20268, 2024.
Bisbee et al. [2024] James Bisbee, Joshua D Clinton, Cassy Dorff, Brenton Kenkel, and Jennifer M Larson. 인간 설문 데이터의 합성 대체물? 대규모 언어 모델의 위험. Political Analysis, 32(4):401–416, 2024.
Braig et al. [2023] Niklas Braig, Alina Benz, Soeren Voth, Johannes Breitenbach, and Ricardo Buettner. covid-19 관련 twitter 데이터의 감성 분석을 위한 기계학습 기법. IEEE access, 11:14778–14803, 2023.
Bubeck et al. [2023] Sébastien Bubeck, Varun Chandrasekaran, Ronen Eldan, Johannes Gehrke, Eric Horvitz, Ece Kamar, Peter Lee, Yin Tat Lee, Yuanzhi Li, Scott Lundberg, et al. 인공 일반 지능의 불꽃: gpt-4를 사용한 초기 실험. arXiv preprint arXiv:2303.12712, 2023.
Chen et al. [2023] Yiting Chen, Tracy Xiao Liu, You Shan, and Songfa Zhong. gpt의 경제적 합리성의 출현. Proceedings of the National Academy of Sciences, 120(51):e2316205120, 2023.
D’Amour et al. [2022] Alexander D’Amour, Katherine Heller, Dan Moldovan, Ben Adlam, Babak Alipanahi, Alex Beutel, Christina Chen, Jonathan Deaton, Jacob Eisenstein, Matthew D Hoffman, et al. 과소명세는 현대 기계학습에서 신뢰성에 대한 도전을 제기한다. Journal of Machine Learning Research, 23(226):1–61, 2022.
Dana et al. [2006] Jason Dana, Daylian M Cain, and Robyn M Dawes. 당신이 모르는 것은 나를 해치지 않는다: 독재자 게임에서 비용이 드는(하지만 조용한) 퇴장. Organizational Behavior and human decision Processes, 100(2):193–201, 2006.
Dehghan et al. [2022] Pegah Dehghan, Hany Alashwal, and Ahmed A Moustafa. 행동과학에 대한 기계학습의 응용: 범주형 데이터에 초점. Discover Psychology, 2(1):22, 2022.
Demszky et al. [2023] Dorottya Demszky, Diyi Yang, David S Yeager, Christopher J Bryan, Margarett Clapper, Susannah Chandhok, Johannes C Eichstaedt, Cameron Hecht, Jeremy Jamieson, Meghann Johnson, et al. 심리학에서 대규모 언어 모델 사용하기. Nature Reviews Psychology, 2(11):688–701, 2023.
Dentella et al. [2023] Vittoria Dentella, Fritz Günther, and Evelina Leivada. 세 언어 모델에 대한 체계적 테스트는 낮은 언어 정확도, 응답 안정성의 부재, 그리고 예-응답 편향을 드러낸다. Proceedings of the National Academy of Sciences, 120(51):e2309583120, 2023.
Eckel et al. [2005] Catherine C Eckel, Philip J Grossman, and Rachel M Johnston. crowding out 가설에 대한 실험적 검정. Journal of Public Economics, 89(8):1543–1560, 2005.
Engel [2011] Christoph Engel. 독재자 게임: 메타 연구. Experimental economics, 14:583–610, 2011.
Fong [2007] Christina M Fong. 복지 수급자에 대한 자선 실험의 증거: 상호성, 이타주의와 공감적 반응성 가설. The Economic Journal, 117(522):1008–1024, 2007.
Gilardi et al. [2023] Fabrizio Gilardi, Meysam Alizadeh, and Maël Kubli. ChatGPT는 텍스트 주석 작업에서 crowd worker보다 더 우수하다. Proceedings of the National Academy of Sciences, 120(30):e2305016120, 2023.
Grattafiori et al. [2024] Aaron Grattafiori, Abhimanyu Dubey, Abhinav Jauhri, Abhinav Pandey, Abhishek Kadian, Ahmad Al-Dahle, Aiesha Letman, Akhil Mathur, Alan Schelten, Alex Vaughan, et al. Llama 3 모델 무리. arXiv preprint arXiv:2407.21783, 2024.
Grossmann et al. [2023] Igor Grossmann, Matthew Feinberg, Dawn C Parker, Nicholas A Christakis, Philip E Tetlock, and William A Cunningham. AI와 사회과학 연구의 변형. Science, 380(6650):1108–1109, 2023.
Heeringa et al. [2017] Steven G Heeringa, Brady West, Steve G Heeringa, Patricia A Berglund, and Patricia Berglund. Applied survey data analysis. chapman and hall/CRC, 2017.
Henrich et al. [2005] Joseph Henrich, Robert Boyd, Samuel Bowles, Colin Camerer, Ernst Fehr, Herbert Gintis, Richard McElreath, Michael Alvard, Abigail Barr, Jean Ensminger, et al. 문화 간 관점에서의 “경제적 인간”: 15개의 소규모 사회에서의 행동 실험. Behavioral and brain sciences, 28(6):795–815, 2005.
Hewitt et al. [2024] Luke Hewitt, Ashwini Ashokkumar, Isaias Ghezae, and Robb Willer. 대규모 언어 모델을 사용하여 사회과학 실험 결과 예측하기. Preprint, 2024.
Horton [2023] John J Horton. 시뮬레이션된 경제 행위자로서의 대규모 언어 모델: homo silicus로부터 무엇을 배울 수 있는가? Technical report, National Bureau of Economic Research, 2023.
Hu et al. [2022] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, et al. LoRA: 대규모 언어 모델의 Low-rank adaptation. ICLR, 1(2):3, 2022.
Jackson et al. [2025] Matthew O. Jackson, Qiaozhu Mei, Stephanie Wang, Yutong Xie, Walter Yuan, and et al. AI 행동과학. preprint, 2025.
Jumper et al. [2021] John Jumper, Richard Evans, Alexander Pritzel, Tim Green, Michael Figurnov, Olaf Ronneberger, Kathryn Tunyasuvunakool, Russ Bates, Augustin Žídek, Anna Potapenko, et al. AlphaFold를 이용한 매우 정확한 단백질 구조 예측. nature, 596(7873):583–589, 2021.
Kliegr et al. [2020] Tomáš Kliegr, Štěpán Bahník, and Johannes Fürnkranz. 행동과학을 위한 머신러닝의 발전. American Behavioral Scientist, 64(2):145–175, 2020.
Leider et al. [2010] Stephen Leider, Tanya Rosenblat, Markus M Möbius, and Quoc-Anh Do. 우리는 친구들에게 무엇을 기대하는가? Journal of the European Economic Association, 8(1):120–138, 2010.
Lippert et al. [2024] Steffen Lippert, Anna Dreber, Magnus Johannesson, Warren Tierney, Wilson Cyrus-Lai, Eric Luis Uhlmann, Emotion Expression Collaboration, and Thomas Pfeiffer. 대규모 언어 모델이 복잡한 행동과학 연구의 결과를 예측하는 데 도움이 될 수 있는가? Royal Society Open Science, 11(9):240682, 2024.
Lorè and Heydari [2024] Nunzio Lorè and Babak Heydari. 대규모 언어 모델의 전략적 행동과 게임 구조 대 맥락적 프레이밍의 역할. Scientific Reports, 14(1):18490, 2024.
Mei et al. [2024] Qiaozhu Mei, Yutong Xie, Walter Yuan, and Matthew O Jackson. AI 챗봇이 행동적으로 인간과 유사한지에 대한 튜링 테스트. Proceedings of the National Academy of Sciences, 121(9):e2313925121, 2024.
Meng [2024] Juanjuan Meng. AI가 행동과학의 최전선으로 부상하다. Proceedings of the National Academy of Sciences, 121(10):e2401336121, 2024.
Muthukrishna and Henrich [2019] Michael Muthukrishna and Joseph Henrich. 이론에서의 문제. Nature Human Behaviour, 3(3):221–229, 2019.
Park et al. [2023] Joon Sung Park, Joseph O’Brien, Carrie Jun Cai, Meredith Ringel Morris, Percy Liang, and Michael S Bernstein. 생성 에이전트: 인간 행동의 상호작용적 모사물. InProceedings of the 36th annual acm symposium on user interface software and technology, pages 1–22, 2023.
Park et al. [2024] Joon Sung Park, Carolyn Q Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, and Michael S Bernstein. 1,000명의 생성 에이전트 시뮬레이션. arXiv preprint arXiv:2411.10109, 2024.
Rigdon et al. [2009] Mary Rigdon, Keiko Ishii, Motoki Watabe, and Shinobu Kitayama. 독재자 게임에서의 최소한의 사회적 단서. Journal of Economic Psychology, 30(3):358–367, 2009.
Rychalska et al. [2023] Barbara Rychalska, Szymon Lukasik, and Jacek Dabrowski. Synerise monad: 행동 이벤트 데이터를 위한 foundation model. InProceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 3344–3348, 2023.
Salecha et al. [2024] Aadesh Salecha, Molly E Ireland, Shashanka Subrahmanya, João Sedoc, Lyle H Ungar, and Johannes C Eichstaedt. 대규모 언어 모델은 설문 응답에서 인간과 유사한 사회적 바람직성 편향을 보인다. arXiv preprint arXiv:2405.06058, 2024.
Santurkar et al. [2023] Shibani Santurkar, Esin Durmus, Faisal Ladhak, Cinoo Lee, Percy Liang, and Tatsunori Hashimoto. 언어 모델은 누구의 의견을 반영하는가? InInternational Conference on Machine Learning, pages 29971–30004. PMLR, 2023.
Sikchi et al. [2025] Harshit Sikchi, Andrea Tirinzoni, Ahmed Touati, Yingchen Xu, Anssi Kanervisto, Scott Niekum, Amy Zhang, Alessandro Lazaric, and Matteo Pirotta. 행동 foundation model을 통한 빠른 적응. arXiv preprint arXiv:2504.07896, 2025.
Strachan et al. [2024] James WA Strachan, Dalila Albergo, Giulia Borghini, Oriana Pansardi, Eugenio Scaliti, Saurabh Gupta, Krati Saxena, Alessandro Rufo, Stefano Panzeri, Guido Manzi, et al. 대규모 언어 모델과 인간에서 마음 이론 테스트하기. Nature Human Behaviour, 8(7):1285–1295, 2024.
Taori et al. [2023] Rohan Taori, Ishaan Gulrajani, Tianyi Zhang, Yann Dubois, Xuechen Li, Carlos Guestrin, Percy Liang, and Tatsunori B. Hashimoto. Alpaca: 강력하고 복제 가능한 instruction-following 모델, March 2023. URLhttps://crfm.stanford.edu/2023/03/13/alpaca.html.
Tirinzoni et al. [2025] Andrea Tirinzoni, Ahmed Touati, Jesse Farebrother, Mateusz Guzek, Anssi Kanervisto, Yingchen Xu, Alessandro Lazaric, and Matteo Pirotta. 행동 foundation model을 통한 zero-shot 전신 휴머노이드 제어. arXiv preprint arXiv:2504.11054, 2025.
Turgeon and Lanovaz [2020] Stéphanie Turgeon and Marc J Lanovaz. 튜토리얼: 행동 연구에서 머신러닝 적용하기. Perspectives on Behavior Science, 43(4):697–723, 2020.
Wu et al. [2023] Patrick Y Wu, Jonathan Nagler, Joshua A Tucker, and Solomon Messing. 대규모 언어 모델은 zero-shot learning 설정에서 정치인들의 이념을 척도화하는 데 사용될 수 있다. preprint, 2023.
Xie et al. [2024] Yutong Xie, Yiyao Liu, Zhuang Ma, Lin Shi, Xiyuan Wang, Walter Yuan, Matthew O Jackson, and Qiaozhu Mei. 서로 다른 AI 챗봇들은 어떻게 행동하는가? 행동경제학 게임에서 대규모 언어 모델 벤치마킹하기. arXiv preprint arXiv:2412.12362, 2024.
Yang and Menczer [2023] Kai-Cheng Yang and Filippo Menczer. 대규모 언어 모델은 뉴스 매체 신뢰도를 평가할 수 있다. arXiv e-prints, pages arXiv–2304, 2023.
Yang and Zhai [2022] Yanwu Yang and Panyu Zhai. 온라인 광고에서의 click-through rate 예측: 문헌 리뷰. Information Processing&Management, 59(2):102853, 2022.
Yarkoni [2022] Tal Yarkoni. 일반화 가능성 위기. Behavioral and Brain Sciences, 45:e1, 2022.
Zhang et al. [2024] Xingjian Zhang, Yutong Xie, Jin Huang, Jinge Ma, Zhaoying Pan, Qijia Liu, Ziyang Xiong, Tolga Ergen, Dongsub Shim, Honglak Lee, et al. Massw: AI 보조 과학 워크플로를 위한 새로운 데이터셋과 벤치마크 과제. arXiv preprint arXiv:2406.06357, 2024.
Zheng et al. [2024] Yaowei Zheng, Richong Zhang, Junhao Zhang, Yanhan Ye, and Zheyan Luo. LlamaFactory: 100개 이상의 언어 모델의 통합된 효율적 fine-tuning. In Yixin Cao, Yang Feng, and Deyi Xiong, editors,Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), pages 400–410, Bangkok, Thailand, August 2024. Association for Computational Linguistics. doi:10.18653/v1/2024.acl-demos.38. URLhttps://aclanthology.org/2024.acl-demos.38/.

Appendix A모델 구성 및 학습

A.1 Backbone Foundation Model 및 구현 세부사항

모델.우리는 사용했다LLaMA-3.1-8B-Instruct²²2https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct, retrieved April 9, 2025.그리고LLaMA-3.1-70B-Instruct³³3https://huggingface.co/meta-llama/Llama-3.1-70B-Instruct, retrieved April 9, 2025.backbone model로. 70B 변형은 다음을 사용하여 8-bit 정밀도로 양자화되었다bitsandbytes⁴⁴4https://huggingface.co/docs/bitsandbytes, retrieved April 9, 2025.라이브러리.

방법.Fine-tuning은 LlamaFactory를 사용하여 수행되었다⁵⁵5https://github.com/hiyouga/LLaMA-Factory, retrieved April 9, 2025. [Zheng et al.,2024]supervised fine-tuning (SFT)으로. Low-Rank Adaptation (LoRA)[Hu et al.,2022]메모리 오버헤드를 줄인 효율적인 fine-tuning을 가능하게 하기 위해 모든 모델 레이어에 적용되었다.

학습 구성 및 하이퍼파라미터.학습은 per-device batch size 1과 8개의 gradient accumulation step으로 수행되었으며, learning rate는 다음을 사용했다 $10^{- 4}$ cosine scheduler와 warmup ratio 0.1과 함께. 모델은 다음을 사용하여 3 epoch 동안 학습되었다bf16mixed precision. distributed data parallel (DDP) timeout은 180,000,000초로 설정되었다. 이 구성은 대규모 fine-tuning을 위한 효율성과 수렴 안정성의 균형을 맞추었다.

데이터 포매팅.데이터는 Alpaca template에 따라 포매팅되었다[Taori et al.,2023], 모델의 예상 입력 구조와 정렬되도록. 각 학습 인스턴스는 하나의instruction, input, 그리고 대응하는 정답output. 전처리 단계에는 처리량을 높이고 지연 시간을 최소화하기 위한 토큰화, 절단, 캐싱, multiprocessing이 포함되었다.

A.2 훈련 데이터와 훈련 과제

A.2.1 문헌 데이터

출판물.

우리 데이터셋은 주요 학술지인American Economic Review(AER)의 3,003편 출판물로 구성되며, 이 학술지는 경제학, 심리학, 사회학, 인간 행동에 걸친 학제적 연구를 출판한다. 논문들은 모델 훈련에 필수적인 제목과 초록이 모두 이용 가능한지를 기준으로 선택되었다. 전체 중 2,703편의 출판물은 훈련에 사용되고 나머지는 평가에 사용된다.

연구 워크플로 추론.

우리는 출판물 데이터를 연구 워크플로 추론 형식으로 변환한다.Zhang et al. [2024]를 따라, 우리는 각 논문에서 논문의 제목과 초록을 사용하여 context, key idea, method, outcome, projected impact라는 다섯 가지 핵심 구성요소를 추출한다. 추출은gpt-4o-2024-05-01-preview를 사용하여 수행된다. 그런 다음 데이터는 두 하위 과제, 즉 (1) idea generation, (2) title prediction으로 구조화된다.

idea generation의 경우,input은 추출된 context로 구성되며(템플릿은 아래에 제공됨),output은 대응하는 key idea이다.

주어진 context: ’{context}’를 바탕으로, 이 연구 영역을 발전시킬 수 있는 key ideas를 생성하라.

title prediction의 경우,input은 추출된 다섯 구성요소 모두를 포함하며(템플릿은 아래에 제공됨), 원래 논문 제목이output으로 사용된다. 그런 다음 이러한 input-output 쌍은 모델 훈련에 사용된다.

주어진 context: ’{context}’, key idea: ’{key_idea}’, method: ’{method}’, outcome: ’{outcome}’, 그리고 future impact: ’{future_impact}’를 바탕으로, 이 연구 논문의 제목을 예측하라. 제목은 간결하고 핵심 측면을 반영해야 한다.

그instruction은 다음과 같이 주어진다:

당신은 학술 연구 논문의 다양한 측면에 대한 상세한 프롬프트를 생성하는 임무를 맡은 연구 전문가이다. 각 과제는 제공된 정보를 바탕으로 특정 유형의 프롬프트를 만드는 것을 포함한다. 다음은 당신이 작업할 각 부분의 정의이다:

- Concept: 정의, 상대적 시간

- Context: 이 연구에 동기를 부여한 관련 문헌 또는 현실의 현상태. 이는 일반적으로 이전 연구에서 성공적으로 다루어지지 않은 문제, 연구 질문, 또는 연구 공백일 수 있다. 이는 이 연구 이전에 발생한 모든 것이다.

- Key Idea: 이 논문의 주요 지적 기여로, 종종 context와 비교된다. 이는 일반적으로 문헌에서 이미 수행된 것과 구별되는, 이 논문에서 제안된 새로운 아이디어나 해결책일 수 있다. 이는 이 연구에서 제안된다.

- Method: key idea를 조사하고 검증하는 구체적인 연구 방법. 이는 실험 설정, 이론적 프레임워크, 또는 key idea를 구현 및/또는 평가하는 데 필요한 기타 방법론일 수 있다. 이는 이 연구에서 수행된다.

- Outcome: 연구 산출물에 관한 사실적 진술. 이는 실험 결과와 발생한 다른 측정 가능한 결과일 수 있다. 이는 핵심 가설이 검증되었는지 여부를 표시한다. 이는 이 연구에서 산출된다.

- Projected Impact: 저자가 예상한 해당 분야에 대한 연구의 영향, 그리고 이 연구를 개선하거나 확장할 수 있다고 저자가 식별한 잠재적 추가 연구. 이는 예상되고 있지만 아직 일어나지 않은 모든 것이다.

A.2.2 실험 데이터

MobLab human-play records.

우리는 MobLab의 데이터를 사용한다⁶⁶6MobLab:https://moblab.com/, 2025년 4월 11일 검색., 행동과학 및 경제 게임을 위한 플랫폼이다. 우리의 분석은 일곱 역할에 걸친 다섯 가지 고전적 경제 게임에 초점을 맞춘다: (i) Dictator Game, (ii) Ultimatum Game (Proposer and Responder), (iii) Trust Game (Investor and Banker), (iv) Public Goods Game, 그리고 (v) Bomb Game. 이러한 게임에 대한 추가 배경은Mei et al. [2024]에 제공되어 있다. 이 데이터셋은 68,779명의 피험자로부터 얻은 1라운드 게임플레이 데이터를 포함하며, 2015년부터 2023년 사이에 수집된 82,057개의 독립 관측치를 산출한다. 이 데이터 수집에 관한 평가는 분포 수준에서 수행되므로, 우리는 데이터를 훈련 세트와 테스트 세트로 분리하지 않는다.

행동 분포 예측.

모델이 행동 분포를 예측하도록 훈련하기 위해, 우리는 각 human-play record를 단일 데이터 항목으로 형식화한다. 게임 instruction(Mei et al. [2024]에 설명된 대로)은instruction으로 제공되고, 관찰된 인간 행동은output으로 기록된다(예: Dictator Game에서 “[$50]”). 총 82,057개의 이러한 데이터 항목을 모델 훈련을 위해 구성한다.

A.2.3 설문 데이터

BigFive 성격 검사.

우리는 공개적으로 이용 가능한 OCEAN Five Factor Personality Test Responses 데이터셋을 사용한다⁷⁷7https://www.kaggle.com/datasets/lucasgreenwell/ocean-five-factor-personality-test-responses, 2025년 4월 11일 검색., Open-Source Psychometrics Project에서 제공됨⁸⁸8https://openpsychometrics.org/, 2025년 4월 11일 검색., 공교육과 심리학 연구에 전념하는 비영리 이니셔티브이다. 데이터셋은 19,719명의 피험자로부터 얻은 응답과 메타데이터를 포함한다. 참가자들은 11개가 넘는 인종 집단과 161개 국가 및 지역의 개인들을 포괄하는 광범위한 인구통계학적 배경을 대표한다. 연령은 13세 이상으로, 넓은 연령 범위를 제공한다. 성별 정체성은 자기보고식이며, 참가자들은 남성, 여성 또는 기타로 식별하여 표본의 성별 다양성을 반영한다. 피험자 중 17,667명은 훈련에 사용되고, 1,963명은 평가를 위해 남겨둔다.

BigFive 성격 특성 예측.

모델이 설문 응답을 예측하도록 훈련하기 위해, 각 데이터 항목은 다음과 같이 형식화된다: 각 피험자와 각 성격 차원에 대해, 우리는 피험자의 인구통계학적 정보를instruction에, 예측 대상을input에, 그리고 정답 차원 점수(10에서 50까지의 정수)를output에 제공한다.instruction과input은 다음과 같이 템플릿화된다:

instruction:
당신은 도움이 되는 AI assistant이다. 사용자는 다음과 같은 demographics를 가지고 있다: {demographics}.

input:
이 사람의 demographics를 바탕으로, [10]에서 [50]의 척도에서 이 사람의 {personality_dimension}을 평가하라.

openness의 경우: [10]은 매우 관습적/전통적임을 의미하고, [50]은 새로운 경험에 매우 개방적임을 의미한다.
conscientiousness의 경우: [10]은 매우 즉흥적/유연함을 의미하고, [50]은 매우 체계적/책임감 있음을 의미한다.
extroversion의 경우: [10]은 매우 내향적임을 의미하고, [50]은 매우 외향적임을 의미한다.
agreeableness의 경우: [10]은 매우 경쟁적/자기주장적임을 의미하고, [50]은 매우 협력적/연민적임을 의미한다.
neuroticism의 경우: [10]은 매우 정서적으로 안정적임을 의미하고, [50]은 스트레스/불안에 매우 취약함을 의미한다.

응답은 대괄호 안의 10에서 50 사이의 숫자만이어야 한다.

Demographics 예측.

또 다른 모델링 방향은 설문 응답으로부터 인구통계학적 속성을 예측하는 것을 포함한다. 각 피험자의 기록은 데이터 항목으로 변환되며, 여기서 전체 과제 설명은instruction에, 피험자의 성격 점수는input에, 그리고 피험자의 나이(정수)는 정답output으로 제공된다.instruction과input은 다음과 같이 템플릿화된다:

instruction:
당신은 심리학 전문가이다. 한 사람의 BigFive 성격 점수가 주어졌을 때, 당신의 과제는 이 사람의 demographics를 예측하는 것이다.

input:
## BigFive 차원 점수
각 차원 점수는 10에서 50까지의 범위를 가지며, 10은 해당 차원에서 가장 낮은 점수를 나타내고 50은 가장 높은 점수를 나타낸다.
Openness: {openness_score}
Conscientiousness: {conscientiousness_score}
Extroversion: {extroversion_score}
Agreeableness: {agreeableness_score}
Neuroticism: {neuroticism_score}

## Output Format
이 사람의 성별을 예측하라. 다음 중에서 선택하라: 1=Male, 2=Female, 3=Other. 선택을 나타내는 단일 숫자만 []로 강조하여 출력하라(예: [x]).

Appendix B모델 평가

B.1 행동 추론

경제 게임에서 행동 분포 예측.

Appendix에 설명된 human-play data를 사용하여A.2.2, 우리는Be.FM이 경제 게임에서 행동 분포를 예측하는 데 어떻게 수행하는지 평가한다. 각 게임에 대해, 우리는 1,000개의 독립적인 채팅 세션에서 행동을 생성한다. 생성 중에는 게임 instruction(Mei et al. [2024]에 제공된 대로)이 사용자 프롬프트로 주어지고, system prompts는 비워 둔다. 그런 다음 생성된 행동은 MobLab 플랫폼의 human play data와 비교된다. 성능은 관찰된 분포와 시뮬레이션된 분포 사이의 Wasserstein distance를 사용하여 분포 수준에서 평가된다. LLaMA 3.1 모델과 GPT 모델(gpt-4o-2024-08-01및gpt-4o-mini-2024-07-18)은 동일한 절차를 따르는 baselines로 포함된다. 평가 결과는 Table에 보고된다3.

Big Five 성격 특성 예측.

Big Five 설문으로 평가된 피험자의 성격 특성을 예측하기 위해, 우리는 Appendix에 설명된 데이터 형식화를 따른다A.2.3. 인구통계학적 정보(나이, 성별, 국적, 인종 등 포함)가 제공되고, 모델은 다섯 성격 차원인 openness, conscientiousness, extroversion, agreeableness, neuroticism의 점수를 예측하는 과제를 받는다. 데이터 누출이 없도록 1,963명의 피험자로 구성된 held-out set에서 평가가 수행된다. 우리는 개인 수준 지표(mean absolute error 및 Spearman’s rank correlation)와 예측 점수 분포와 정답 점수 분포 사이의 Wasserstein distance를 통한 분포 정렬을 모두 보고한다. 범용 LLM baselines(LLaMA 3.1 및 GPT models) 외에도, 우리는 이 과제에 특화되어 fine-tuned된 expert models(Be.FM 8B^∗및Be.FM 70B^∗)뿐 아니라 XGBoost regressor와도 비교한다. 전체 결과는 Table에 제시된다8.

Model	MAE( $↓$ )	Spearman’s corr( $↑$ )	W-distance( $↓$ )
Be.FM 8B	7.27	0.101^‡	1.75
Be.FM 70B	7.27	0.128^‡	1.68^†
Llama 3.1 8B	8.23	0.037	5.26
Llama 3.1 70B	7.05	0.029	4.06
GPT 4o-mini	6.85	0.034	5.52
GPT 4o	7.11	0.029	5.00
Be.FM 8B^∗	7.29	0.098^‡	1.71
Be.FM 70B^∗	7.22	0.109^‡	1.93
XGBoost	6.03	0.252^‡	4.59

Table 8:demographics가 주어졌을 때 Big Five 성격 점수를 예측하는 성능. 각 모델에 대해, 예측값과 정답을 비교하여 mean absolute error (MAE), Spearman’s correlation coefficient, Wasserstein distance를 계산한다. 지표는 다섯 성격 차원(OCEAN)에 걸쳐 집계된다. “^∗”는 나타낸다Be.FM이 과제에만 fine-tuned된 모델을 나타낸다. XGBoost는 LLM을 backbone으로 사용하지 않고 행동 데이터를 통해 직접 훈련된 expert model을 나타낸다.^‡상관관계가 유의함을 나타낸다(

p < 0.05

). “^†”는 smoothed Kolmogorov–Smirnov test를 통과한 분포를 나타낸다(

p > 0.05

) bin width 10으로.

B.2 피험자/집단 추론

Demographics 예측.

Appendix에 설명된 데이터 형식화를 사용하여A.2.3, 우리는 성격 차원 점수를 바탕으로 피험자의 인구통계학적 속성, 구체적으로 나이를 예측한다. 평가는 개인 수준 지표(mean absolute error 및 Spearman’s rank correlation)와 예측 나이 분포와 정답 나이 분포 사이의 Wasserstein distance로 측정되는 분포 정렬을 모두 포함한다. 전체 결과는 Table에 보고된다9.

Model	MAE( $↓$ )	Spearman’s corr( $↑$ )	W-distance( $↓$ )
Be.FM 8B	9.05	0.108^‡	5.39
Be.FM 70B	9.16	0.134^‡	5.70
Llama 3.1 8B	10.50	0.038	8.62
Llama 3.1 70B	10.36	0.029	7.75
GPT 4o-mini	10.17	0.030	8.07
GPT 4o	11.01	0.048^‡	9.12
Be.FM 8B^∗	9.21	0.096^‡	5.56
Be.FM 70B^∗	9.35	0.107^‡	5.66
XGBoost	8.97	0.168^‡	5.03

Table 9:Big Five 성격 점수가 주어졌을 때 피험자의 나이를 추론하는 성능. 각 모델에 대해, 나이 예측 결과와 정답을 비교하여 mean absolute error (MAE), Spearman’s correlation coefficient, Wasserstein distance를 계산한다. “^∗”는 나타낸다Be.FM이 과제에만 fine-tuned된 모델을 나타낸다. XGBoost는 LLM을 backbone으로 사용하지 않고 행동 데이터를 통해 직접 훈련된 expert model을 나타낸다.^‡상관관계가 유의함을 나타낸다(

p < 0.05

B.3 맥락 추론

실험 설계 예측.

우리는 질적 분석을 수행하여Be.FM의 행동에 영향을 미치는 맥락적 요인에 대한 통찰을 생성하는 능력을 평가한다. 구체적으로, 행동 분포의 변화가 주어졌을 때, 우리는Be.FM이 그 변화를 초래했을 수 있는 그럴듯한 상황 조건이나 실험 설정을 추론할 수 있는지 평가한다. 이 분석을 위해, 우리는 Dictator Game의 메타 연구를 참조한다[Engel,2011], 이는 다양한 실험 설계와 그 관련 결과를 목록화한다.

우리는Be.FM에게 다음 프롬프트를 사용하여 Dictator Game에서 공유 행동을 증가/감소시킬 수 있는 treatments를 제안하도록 과제를 부여한다:

당신은 행동경제학 전문가이다. Dictator game에 관한 실험의 관찰이 주어졌을 때, 당신의 과제는 어떤 실험 설계가 관찰된 treatment effect로 이어질 수 있는지 추론하는 것이다. Dictator game에서, 돈의 endowment가 주어지면 한 플레이어(the dictator)는 돈 중 얼마를 보유하고 얼마를 두 번째 플레이어에게 줄지 선택한다.
Dictator game의 경제 실험에서, 우리는 피험자 행동, 즉 공유할 돈의 비율이 표준 게임 설계와 비교하여 증가/감소했음을 관찰했다. 이 treatment effect로 이어질 수 있는 가능한 실험 설계를 나열하라. 출력 실험 설계를 confidence에 따라 순위를 매겨라.

모델 출력은 Tables에 나열되어 있다10-13그리고 Sec.에서 논의된다3.3.

Run	출력된 실험 설계 목록
1	(1) 사회적 정체성 프라이밍 – 집단 소속이나 공동 목표를 강조하여 연결감을 촉진함. (Confidence: 50%) (2) 정서적 호소 – 공감과 관대함을 높이기 위해 이야기나 정서적 프레이밍을 사용함. (Confidence: 45%) (3) 투명성&책임성 – 공유를 장려하기 위해 결정을 공개하거나 책임성 조치를 추가함. (Confidence: 38%) (4) 이타주의 인센티브 제공 – 관대한 행동에 대해 보상이나 인정을 제공함. (Confidence: 35%) (5) 공정성 보정 – 피드백이나 endowment 수정을 통해 공정성에 대한 인식을 조정함. (Confidence: 31%) (6) 상호성 프레이밍 – 공유를 장려하기 위해 미래의 보답 가능성을 제시함. (Confidence: 27%) (7) 도덕적 넛지 – 참가자들에게 사회적 및 도덕적 기대를 상기시키기 위해 윤리적 프롬프트를 사용함. (Confidence: 24%) (8) 역할 반전 관점 – 독재자들이 자신을 수령자의 입장에 있다고 상상하도록 장려함. (Confidence: 21%) (9) 문화적 맥락 영향 – 서로 다른 문화적 규범과 가치 전반에서 관대함 수준을 테스트함. (Confidence: 17%) (10) 시간적 동역학 – 시간 제약을 수정하거나 관대함에 대한 미래 의존성을 도입함. (Confidence: 14%)
2	(1) 사회적 정체성 프라이밍 – 관대함을 장려하기 위해 공유된 집단 소속 또는 공통 목표를 강조함. (2) 스토리텔링을 통한 감정적 호소 – 감정을 끌어들이고 공감에 의해 유도되는 나눔을 증가시키기 위해 서사를 사용함. (3) 투명성&책임 메커니즘 – 더 공정한 분배를 장려하기 위해 결정을 공개하거나 감시를 증가시킴. (4) 공정성&형평성 프레이밍 – 공정성과 도덕적 책임을 부각하도록 결정을 재구성함. (5) 이타주의 장려 – 관대한 행동을 강화하기 위해 보상이나 인정을 제공함. (6) 역할 반전 연습 – 공감을 촉진하기 위해 독재자들이 수령자의 관점을 고려하도록 장려함. (7) 문화적&사회 규범 개입 – 나눔을 촉진하는 문화적 또는 사회적 규범을 도입함. (8) 사회적 영향에 대한 피드백 – 나눔이 수령자와 사회에 어떻게 이익이 되는지에 대한 정보를 제공함.
3	(1) 사회적 정체성 영향 – 나눔을 장려하기 위해 내집단 소속을 강조함. (2) 감정적 호소 개입 – 공감과 관대함을 불러일으키기 위해 스토리텔링이나 이미지를 사용함. (3) 투명성&책임 – 사회적으로 책임 있는 행동을 장려하기 위해 결정을 공개적으로 공시함. (4) 기본 옵션 넛지 – 현상 유지 편향을 활용하기 위해 더 높은 기본 나눔 비율을 설정함. (5) 이타주의 장려 – 관대한 행동에 대해 보상이나 인정을 제공함. (6) 피드백 메커니즘 – 관대함을 강화하기 위해 나눔의 영향에 대한 즉각적인 피드백을 제공함. (7) 문화적&맥락적 요인 – 나눔 행동을 문화적 규범과 맞추기 위해 공동체적 가치를 도입함.
4	(1) 사회적 정체성 영향 – 내집단 선호와 더 큰 나눔을 장려하기 위해 독재자와 수령자 사이의 공유된 집단 정체성을 강조함. (2) 투명성&책임 – 사회적으로 책임 있는 행동을 장려하고 비난을 피하기 위해 독재자의 결정을 공개함. (3) 감정적 연결 – 공감과 관대함을 증가시키기 위해 독재자와 수령자 사이의 개인적 상호작용을 만듦. (4) 공정성 프라이밍 – 게임 전에 독재자를 공정성과 관련된 개념에 노출시켜 더 평등한 나눔으로 미묘하게 유도함. (5) 수령자의 피드백 메커니즘 – 관대함을 장려하기 위해 수령자들이 독재자의 결정을 평가하거나 피드백을 제공하도록 허용함. (6) 자선적 맥락 – 이타주의를 강화하기 위해 결정을 자선단체나 도움이 필요한 개인에 기여하는 것으로 프레이밍함. (7) 이타주의 장려 – 돈의 더 높은 비율을 나누는 것에 대해 보너스나 보상을 제공함. (8) 장기적 상호작용 – 신뢰와 협력적 행동을 촉진하면서 반복된 상호작용을 포함하도록 게임을 구성함. (9) 문화적&사회 규범 – 서로 다른 문화적 맥락에서 실험을 수행하거나 관대함을 촉진하는 규범을 강조함. (10) 인지 부하 조작 – 직관적이고 관대한 행동을 장려하기 위해 결정 복잡성을 줄임.
5	(1) 사회적 정체성 프라이밍 – 공정성과 사회적 조화를 촉진하기 위해 독재자의 사회적 정체성 또는 집단 소속을 강조함. (High confidence) (2) 자선 프레임 – 이타적 성향을 활성화하기 위해 수령자를 자선적 명분으로 재구성함. (High confidence) (3) 투명성&책임 – 사회적 압력과 평판 우려로 인해 나눔을 장려하기 위해 결정을 공개함. (Medium confidence) (4) 감정적 호소 – 공감을 불러일으키고 관대함을 증가시키기 위해 스토리텔링이나 시각 자료를 사용함. (Medium confidence) (5) 문화적 맥락 – 관대함의 자연적 변이를 평가하기 위해 집단주의 문화에서 실험을 수행함. (Medium confidence) (6) 시간적 거리 – 충동성을 줄이고 관대함을 촉진하기 위해 나눔의 즉각적 영향을 강조함. (Low confidence) (7) 피드백 메커니즘 – 이타주의를 장려하기 위해 나눔 결정의 영향에 대한 실험 후 피드백을 제공함. (Low confidence) (8) 보유액 변동성 – 나눔 행동에 대한 자격 의식 효과를 연구하기 위해 보유액의 금액이나 출처를 변화시킴. (Low confidence)

Table 10:다음이 출력한 실험 설계Be.FM70B가 Dictator Game에서 나눔 행동을 증가시킬 수 있는 처치를 제안하도록 요청받았을 때.

실행	출력된 실험 설계 목록
1	(1) 사회적 정체성 영향 – 공유된 정체성을 강조하는 것은 집단 내 인지된 경쟁 때문에 나눔을 줄일 수 있음. (2) 익명성 변이 – 익명성을 줄이면 독재자들이 자기 이미지를 관리하고 감시를 피하면서 더 낮은 나눔으로 이어질 수 있음. (3) 인지 부하 조작 – 인지적 부담을 증가시키면 공정성과 관대함에 대한 고려를 줄일 수 있음. (4) 시간적 거리 – 돈의 이전을 지연시키면 미래 결과의 할인 때문에 더 낮은 나눔으로 이어질 수 있음. (5) 감정 상태 조작 – 부정적 감정(예: 스트레스, 좌절)을 유발하면 공감과 나눔이 감소할 수 있음. (6) 인센티브 구조 – 낮은 나눔에 대한 보상이나 높은 나눔에 대한 벌칙을 도입하면 관대함을 직접적으로 억제할 수 있음. (7) 피드백 메커니즘 – 과거의 관대함이 주목받지 못했거나 가치 있게 여겨지지 않았다는 피드백을 제공하면 미래의 나눔을 억제할 수 있음. (8) 수령자 특성 – 수령자를 덜 자격이 있거나 덜 필요로 하는 사람으로 프레이밍하면 이타적 행동이 줄어들 수 있음. (9) 맥락적 프레이밍 – 재정적 부족이나 개인적 이득을 강조하면 초점이 관대함에서 멀어질 수 있음. (10) 문화적 맥락 – 개인주의 문화에서 실험을 수행하면 서로 다른 사회 규범 때문에 자연스럽게 더 낮은 나눔이 나타날 수 있음.
2	(1) 사회적 비교&앵커링 – 독재자에게 과거 평균 기부액을 알려주면 결정이 더 낮은 나눔 쪽으로 앵커링될 수 있음. (2) 결정 발표의 시간 지연 – 성찰 시간을 허용하면 충동적 관대함을 줄이고 나눔을 낮출 수 있음. (3) 의무 기부 제약 – 최소 또는 최대 기부액을 부과하면 지각된 자율성을 제한하고 나눔을 감소시킬 수 있음. (4) 제3자 관찰 – 독재자에게 그들의 결정이 검토될 것이라고 알리면 책임 우려 때문에 나눔이 감소할 수 있음. (5) 보유액 출처 수정 – 보유액을 번 독재자들은 그것을 보유할 자격이 더 있다고 느껴 나눔이 감소할 수 있음. (6) 손실 프레이밍 효과 – 보유에서 오는 "이득"보다 주는 것에서 오는 "손실"을 강조하면 관대함이 줄어들 수 있음. (7) 수령자 익명성 변이 – 수령자의 정체성을 알려지게 하면 편향이나 편견을 촉발하여 나눔을 줄일 수 있음. (8) 기부의 개인적 비용 – 나눔 결정에 노력이나 비용을 도입하면 관대함을 억제할 수 있음. (9) 보유액 크기 변화 – 더 큰 보유액은 심리적 요인 때문에 더 낮은 비율의 나눔으로 이어질 수 있음. (10) 기부 영향에 대한 피드백 – 나눔의 효과에 대한 정보를 받으면 독재자들이 자신의 기여가 불필요하다고 느끼게 할 수 있음. (11) 가상 돈 vs. 실제 돈 – 가상 화폐를 사용하면 결정이 지각된 무게를 덜 가지므로 더 낮은 관대함으로 이어질 수 있음. (12) 맥락적 스트레스 요인 – 재정 침체와 같은 외부 스트레스 요인을 도입하면 자기이익이 증가하고 나눔이 줄어들 수 있음.
3	(1) 익명성 제거 – 독재자의 정체성과 결정을 공개하면 전략적 이기심으로 이어져 나눔을 줄일 수 있음. (2) 사회 규범 프라이밍 – 게임 전에 경쟁적이거나 이기적인 규범을 프라이밍하면 나누는 돈의 비율이 감소할 수 있음. (3) 수령자 피드백 메커니즘 – 수령자들이 불만족을 표현하도록 허용하면 이후 라운드에서 독재자들이 나누는 것을 억제할 수 있음. (4) 의사결정의 시간적 지연 – 배분 전에 지연을 도입하면 성찰을 장려하고 더 이기적인 결정으로 이어질 수 있음. (5) 이기심을 위한 외부 인센티브 – 보유액의 더 큰 부분을 유지하는 것에 대해 보상을 제공하면 나눔을 직접적으로 줄일 수 있음. (6) 역할 반전 인식 – 위협으로 프레이밍되면, 미래의 역할 반전에 대한 인식이 위험 회피를 촉발하여 더 낮은 관대함으로 이어질 수 있음. (7) 감정 조작 – 독재자에게 스트레스나 불안을 유발하면 더 보수적이고 자기중심적인 결정이 나타날 수 있음.
4	(1) 정체성 공개 – 독재자들에게 정체성을 밝히도록 요구하면 사회적 감시를 촉발하여 관대함을 줄일 수 있음. (Confidence: 50%) (2) 사회적 비교 – 과거 참가자들의 평균 기부액을 보여주면 이기심을 정상화하여 더 낮은 나눔을 장려할 수 있음. (Confidence: 40%) (3) 개인적 이득 강조 – 돈을 보유하는 이익에 대한 시각적 또는 텍스트적 강조를 사용하면 초점을 자기이익 쪽으로 이동시킬 수 있음. (Confidence: 30%) (4) 시간 제약 – 짧은 결정 시간을 구현하면 독재자들을 본능적이고 자기보존적인 선택 쪽으로 밀어붙일 수 있음. (Confidence: 20%) (5) 손실 프레이밍 – 나눔을 이득이 아니라 손실로 프레이밍하면 손실 회피를 활성화하고 관대함을 줄일 수 있음. (Confidence: 10%)
5	(1) 사회적 정체성 요소 – 공유된 집단 정체성을 도입하면 편향을 활성화하거나 외집단 구성원에 대한 나눔을 줄일 수 있음. (2) 보유액 크기 증가 – 더 큰 보유액은 지각된 더 큰 손실 또는 감소된 영향 때문에 나누는 비율을 낮출 수 있음. (3) 의사결정 지연 – 돈 이전 전의 시간 지연은 더 자기이익적인, 합리화된 결정을 허용할 수 있음. (4) 호혜성 규범 도입 – 호혜성을 제안하면 독재자들이 큰 기여 없이도 주는 것으로 충분하다고 가정하여 덜 나누게 할 수 있음. (5) 강화된 익명성 – 더 큰 익명성은 사회적 책임을 줄여 더 이기적인 결정을 장려할 수 있음. (6) 수령자 만족에 대한 피드백 – 수령자들이 더 작은 금액에도 만족한다는 것을 알게 되면 더 낮은 나눔을 강화할 수 있음. (7) 자기이익 프라이밍 – 자기이익 단서로 게임을 프레이밍하면 독재자들이 개인적 이득을 우선시하도록 넛지할 수 있음. (8) 수령자 지위 프레이밍 – 수령자의 자원을 부각하면 그들이 덜 필요해 보이게 하여 나눔을 줄일 수 있음. (9) 비금전적 인센티브 구조 – 돈 대신 포인트나 배지를 사용하면 지각된 가치를 바꾸고 관대함을 감소시킬 수 있음. (10) 결정 환경 변화 – 설정을 더 공식적이거나 복잡하게 만들면 공정성보다 구조를 강조하여 나눔을 제약할 수 있음.

Table 11:다음이 출력한 실험 설계Be.FM70B가 Dictator Game에서 나눔 행동을 감소시킬 수 있는 처치를 제안하도록 요청받았을 때.

실행	출력된 실험 설계 목록
1	(1) 더 큰 보유액, 사회 규범&피드백 – 보유액 크기를 늘리고, 평균 나눔 행동에 관한 규범을 도입하며, 과거 결정에 대한 피드백을 제공함. (Confidence: 0.9) (2) 인센티브 구조&정체성 공개 – 더 높은 나눔에 보상하고, 참가자들이 자신을 "관대한" 또는 "검소한" 사람으로 자기식별하도록 허용하며, 수령자의 선호를 알림. (Confidence: 0.7) (3) 집단 의사결정&감정적 호소 – 참가자들이 나눔에 대해 공동으로 결정하도록 허용하고, 감정적 프레이밍을 사용하며, 역할극을 도입함. (Confidence: 0.4) (4) 손실 회피&인지 편향 – 결정을 손실 대 이득으로 프레이밍하고 보유 효과 같은 편향을 활용함. (Confidence: 0.2)
2	(1) 수정된 보수 구조 – 나눔을 장려하기 위해 보너스/벌칙 시스템을 도입함. (Highest confidence) (2) 사회적 정체성 조작 – 집단 충성도와 관대함을 증가시키기 위해 사회적 정체성을 강조함. (High confidence) (3) 현실 세계 맥락 프레이밍 – 게임을 현실 세계의 결과가 있는 것으로 프레이밍하여 공감을 강화함. (High confidence) (4) 피드백 메커니즘 – 행동에 영향을 주기 위해 나눔 결정의 영향에 대한 피드백을 제공함. (5) 집단 의사결정 – 사회적 영향을 활용하여 집단이 공동으로 결정하도록 허용함. (6) 감정 프라이밍 – 관대함을 불러일으키기 위해 이미지나 시나리오를 사용함. (7) 호혜성 동역학 – 나눔을 장려하기 위해 미래의 보답 가능성을 도입함. (8) 문화적&윤리적 맥락 – 나눔 행동에 대한 영향을 탐구하기 위해 문화적 및 윤리적 설정을 변화시킴.
3	(1) 사회 규범&기대 – 순응을 장려하고 나눔을 증가시키기 위해 사회 규범을 도입함. (High confidence) (2) 시각적 표현 – 의사결정을 촉진하고 관대함을 촉진하기 위해 그래픽 보조 자료를 사용함. (High confidence) (3) 시간 제약 – 빠른 결정이 종종 더 관대한 배분으로 이어지므로 시간 제한을 구현함. (Medium confidence) (4) 프레이밍 효과 – 관대함에 영향을 주기 위해 결정을 손실이 아니라 이득의 관점에서 프레이밍함. (Medium confidence) (5) 보유액 변경 – 심리적 효과를 탐구하기 위해 독재자에게 주어지는 초기 금액을 변경함. (Low confidence)
4	(1) 인센티브 구조 – 더 높은 기여를 동기부여하기 위해 관대한 나눔에 대한 보너스를 도입함. (High confidence) (2) 사회적 정체성 – 나눔을 장려하기 위해 독재자를 공정성이나 이타주의를 강조하는 집단과 연결함. (High confidence) (3) 피드백 메커니즘 – 플레이어들에게 그들의 나눔 결정이 수령자에게 미치는 영향을 알림. (Medium confidence) (4) 게임 맥락 – 아바타나 배경 이야기를 사용하여 두 번째 플레이어를 더 공감 가능하게 만듦. (Medium confidence) (5) 손실 회피 – 결정을 이득 달성이 아니라 손실 회피로 프레이밍함. (Medium confidence) (6) 문화적 영향 – 나눔 행동에 대한 문화 규범의 효과를 테스트함. (Low confidence)
5	(1) 보유액 크기 증가 – 더 큰 금액을 제공하면 더 많은 관대함을 장려할 수 있음. (High confidence) (2) 사회적 정체성 조작 – 연결을 강화하기 위해 수령자 맥락(예: 배경 이야기, 시각적 단서)을 추가함. (High confidence) (3) 인센티브 구조 수정 – 낮은 나눔에 대한 벌칙 또는 높은 나눔에 대한 보너스를 구현함. (Medium confidence) (4) 피드백 메커니즘 도입 – 행동에 영향을 주기 위해 나눔 결정에 대한 실시간 피드백을 제공함. (Medium confidence) (5) 문화적&인구통계학적 요인 – 참가자들의 문화적 및 인구통계학적 배경에 따른 변이를 조사함. (Low confidence)

Table 12:다음이 출력한 실험 설계Be.FM8B가 Dictator Game에서 나눔 행동을 증가시킬 수 있는 처치를 제안하도록 요청받았을 때.

실행	출력된 실험 설계 목록
1	(1) 사회 규범 강조 – 나눔 행동에 영향을 주기 위해 공정성과 형평성에 관한 진술을 도입함. (High confidence) (2) 익명성&프라이버시 – 익명성을 증가시키며, 이는 플레이어들이 덜 책임감을 느끼므로 관대함을 줄일 수 있음. (Medium confidence) (3) 수령자 프레이밍 – 수령자를 개인 대신 자선단체나 공동체로 제시하여 지각을 바꿈. (Low confidence) (4) 보유액 크기 변이 – 더 큰 보유액이 독재자가 더 높은 비율을 보유하는 결과를 낳는지 테스트함. (Low confidence) (5) 거울 이미지 게임 – 나눔 행동에 대한 영향을 탐구하기 위해 반전된 역할 시나리오를 도입함. (Low confidence)
2	(1) 보유액 크기 증가 – 더 큰 금액은 독재자들이 자신을 위해 더 많이 보유하면서 더 적은 나눔으로 이어질 수 있음. (High confidence) (2) 인센티브 구조 – 보너스나 벌칙을 도입하면 의사결정을 더 낮은 나눔 쪽으로 이동시킬 수 있음. (High confidence) (3) 사회적 정체성 조작 – 수령자를 내집단 또는 외집단 구성원으로 프레이밍하면 관대함을 줄일 수 있음. (High confidence) (4) 인지 부하 조작 – 의사결정의 복잡성을 증가시키면 결정 피로로 이어져 나눔을 줄일 수 있음. (Medium confidence) (5) 감정 프라이밍 – 기분에 영향을 주기 위해 단어나 이미지를 사용하면 더 적은 나눔으로 이어질 수 있음. (Medium confidence) (6) 피드백 메커니즘 변경 – 피드백의 성격이나 시점을 바꾸면 나눔 행동에 영향을 미칠 수 있음. (Low confidence) (7) 집단 의사결정 – 집단적 의사결정은 개인의 선택을 바꾸어 잠재적으로 나눔을 감소시킬 수 있음. (Low confidence)
3	(1) 비용 분담 메커니즘 – 독재자가 참가비나 벌칙을 지불하도록 요구하면 나눔을 줄일 수 있음. (High confidence) (2) 동적 보유액 조정 – 플레이어들에게 그들의 보유액이 일시적이거나 가변적이라고 알리면 지각된 부족 때문에 관대함을 줄일 수 있음. (High confidence) (3) 사회적 영향&동료 비교 – 독재자들에게 다른 사람들의 나눔 행동을 보여주면 관대함 감소로 이어질 수 있음. (High confidence) (4) 감정 프라이밍&맥락 조작 – 스트레스, 불안을 도입하거나 개인주의를 강조하면 나눔을 낮출 수 있음. (Medium confidence) (5) 시간 할인 조작 – 보유액을 분할 지급으로 제공하면 나눔보다 즉각적인 보상을 우선시할 수 있음. (Medium confidence) (6) 손실 회피&프레이밍 효과 – 보유액을 이득이 아니라 손실의 관점에서 프레이밍하면 더 낮은 관대함에 영향을 줄 수 있음. (Medium confidence) (7) 문화적&인구통계학적 변이 – 이타주의 성향이 낮은 문화에서 실험을 수행하면 나눔이 줄어들 수 있지만 통제하기 더 어려움. (Low confidence) (8) 인센티브 구조 수정 – 나눔을 최소화하는 것에 대해 보너스를 제공하면 관대함을 줄일 수 있지만 근본적인 사회적 또는 심리적 행동을 직접적으로 겨냥하지는 않음. (Low confidence)
4	(1) 공모자를 통한 사회적 영향 – 공모자가 비언어적 단서나 제안을 통해 독재자의 결정에 영향을 줌. (Confidence: 0.9) (2) 인센티브가 있는 나눔 – 상당한 비율을 나누는 것에 대해 보너스를 제공하면 전략적 의사결정 때문에 예상 밖으로 나눔이 감소할 수 있음. (Confidence: 0.9) (3) 성과 기반 가변 보유액 – 독재자의 과거 경제적 성과가 그들의 보유액을 결정하여 공정성 인식을 바꿀 가능성이 있음. (Confidence: 0.8) (4) 공개 공시&사회적 반향 – 독재자에게 그들의 결정이 공개적으로 밝혀질 것이라고 알리면 행동에 영향을 줄 수 있음. (Confidence: 0.6) (5) 수령자의 재정적 어려움에 관한 서사 – 수령자의 경제적 상황에 관한 이야기를 제공하면 관대함에 영향을 줄 수 있음. (Confidence: 0.5)
5	(1) 가변 보유액 – 라운드 전반에 걸쳐 보유액 크기를 조정하면 공정성 인식에 영향을 주고 나눔을 줄일 수 있음. (Confidence: 0.73) (2) 사회 규범 영향 – 서로 다른 파트너와 여러 라운드를 플레이하면 공정성 규범을 강화할 수 있지만 호혜성에 기반하여 나눔을 감소시킬 수도 있음. (Confidence: 0.67) (3) 피드백 메커니즘 – 수령자의 반응에 대한 즉각적 피드백을 제공하면 결정에 영향을 주어 잠재적으로 더 낮은 관대함으로 이어질 수 있음. (Confidence: 0.59) (4) 손실 회피 – 결정을 "주는 것"이 아니라 "저축하는 것"으로 프레이밍하면 손실 회피 성향을 활용하여 행동을 이동시킬 수 있음. (Confidence: 0.56) (5) 감정 조작 – 독재자의 결정이 수령자의 안녕에 미치는 영향을 강조하면 행동을 바꿀 수 있음. (Confidence: 0.41) (6) 인지 부하 – 결정 복잡성을 증가시키거나 여러 결정 층을 추가하면 피로와 감소된 나눔으로 이어질 수 있음. (Confidence: 0.38) (7) 문화적 맥락 – 참가자들의 문화적 배경을 변화시키면 공정성과 관대함에 관한 사회 규범에 영향을 줄 수 있음. (Confidence: 0.34)

Table 13:다음이 출력한 실험 설계Be.FM8B가 Dictator Game에서 나눔 행동을 감소시킬 수 있는 처치를 제안하도록 요청받았을 때.

B.4 지식 추론하기

연구 워크플로 추론.

이 과제의 평가는 Appendix에 설명된 데이터 형식을 따름A.2.1. 구체적으로, 우리는 평가를 위해 학습에서 제외된 300개의 AER 출판물을 사용한다. 두 가지 하위 과제가 고려된다: 아이디어 생성과 제목 예측. 다음에서 사용된 평가 metric을 따라Zhang et al. [2024], 우리는 BLEURT와 ROUGE-1 점수를 보고한다. 이 과제를 위해 fine-tuned된 expert model의 결과를 포함한 전체 결과는 Table에 제시된다14.

	BLEURT( $↑$ )		ROUGE-1( $↑$ )
Model	Idea	Title	Idea	Title
Be.FM 8B	0.498	0.438	0.076	0.406
Be.FM 70B	0.423	0.427	0.315	0.385
Llama 3.1 8B	0.460	0.441	0.083	0.076
Llama 3.1 70B	0.482	0.398	0.106	0.238
GPT 4o-mini	0.426	0.415	0.084	0.394
GPT 4o	0.452	0.412	0.136	0.390
Be.FM 8B^∗	0.552	0.438	0.072	0.403
Be.FM 70B^∗	0.379	0.409	0.254	0.362

Table 14:연구 워크플로 예측에서의 성능. 연구 맥락이 주어졌을 때, 모델이 생성한 아이디어는 출판 초록에서 추출된 핵심 아이디어와 비교되는 반면, 생성된 제목은 ground truth 논문 제목과 직접 비교된다. 각 예측 시나리오에 대해 BLEURT 및 ROUGE-1 점수가 보고된다. 더 높은 점수는 더 나은 성능을 나타낸다. “^∗”는 다음을 나타낸다Be.FM이 작업에 대해서만 fine-tuning된 모델.

복잡한 문제 해결.

추가로 평가하기 위해Be.FM의 행동과학 및 경제학에서 복잡한 문제를 해결하는 능력을, 우리는 International Economics Olympiad (IEO)의 표준 문제를 사용한다⁹⁹9International Economics Olympiad (IEO)의 공식 웹사이트:https://ieo-official.org/, 2025년 4월 9일에 검색됨.. 이러한 문제들은 도메인별 지식을 표현하고, 추론하며, 적용하는 능력을 시험한다. 우리는 5년간의 IEO 대회(2019, 2021–2024)에서 객관식 문항을 선별하여, 총 91개의 문항을 얻었다. 일관성을 보장하기 위해, 우리는 이미지 참조가 필요하지 않은 문항만 포함한다. 평가를 위해, 각 문항은 별도의 채팅 세션에서 10번 실행된다.

각 문제에 대해, 우리는 다음 지시문으로 모델에 prompt를 제공한다:

System prompt:
당신은 행동경제학 전문가입니다. 객관식 경제학 경시대회 문제가 주어지면, 당신의 과제는 이 질문에 답하는 것입니다.

User prompt:
## Question:

Topic: (topic)

Question: (question)

## Potential Choices:

A. (choice A)

B. (choice B)

C. (choice C)

D. (choice D)

A, B, C 또는 D 중에서 정답을 선택하세요. 문자로만 응답하세요.

결과는 Sec.에 제시되고 논의된다3.4(Table7).