June 4 (Thu), 20262026年6月4日(木)
In Week 3 we solved the forward problem:
Beliefs + values → action.
第3週では順方向の問題を解きました:
信念 + 価値 → 行動。
Today we run the arrow backwards:
You watch someone act. What can you infer about what they believe, what they want, and how hard they’re thinking about you?
That inverse problem is theory of mind — the cognitive engine under every multi-agent system you’ve built.
今日は矢印を逆向きにします:
誰かが行動するのを見る。その人が何を信じ、何を望み、 そしてどれだけ深くあなたについて考えているかを、どこまで推論できるか?
この逆問題が心の理論です — これまで作ってきたすべてのマルチエージェント系の認知エンジンです。
Every one of those is a mind reading another mind. Today: how that actually works in people — and where it breaks.
これらはすべて、ある心が別の心を読むことです。今日は、それが人間で実際にどう働くか — そしてどこで壊れるか。
Classical game theory: what perfectly rational, self-interested players should do.
People deviate — but the deviations are systematic and modelable, not noise.
Same move as Week 3: a normative ideal, a descriptive reality, and a gap where the science lives. (Camerer, Behavioral Game Theory, 2003)
古典的ゲーム理論:完全に合理的で利己的なプレイヤーがすべきこと。
人はそこからずれる — しかしそのずれは体系的でモデル化できるもので、ノイズではない。
第3週と同じ動き:規範的理想、記述的現実、そしてその間のギャップに科学がある。 (Camerer, Behavioral Game Theory, 2003)
There’s ¥1,000 to split. Everyone plays both roles — write down two numbers:
If an offer ≥ your threshold → split as proposed. If not → both get nothing.
¥1,000 を分けます。全員が両方の役をやります — 2つの数字を書いて:
提案額 ≥ あなたの閾値 → 提案通りに分配。そうでなければ → 両者とも何も得られない。
In Western lab samples (Güth et al. 1982; Camerer 2003 synthesis of 30+ studies):
The rational prediction — offer the smallest positive amount, accept anything — is wrong. Responders pay to punish unfairness; proposers anticipate it.
How does this compare to our room?
欧米の実験室サンプルでは(Güth et al. 1982;Camerer 2003 が30以上の研究を総括):
合理的予測 — 最小の正の額を提案し、何でも受け入れる — は間違い。受け手はコストを払って不公平を罰し、提案者はそれを見越す。
我々の部屋とどう違う?

Same ¥1,000. One change: the responder has no veto — they just receive whatever you give.
You can keep everything with zero risk.
Write your new offer. Did it change from your ultimatum offer?
同じ¥1,000。変更点は一つ: 受け手に拒否権がない — あなたが与えたものをただ受け取る。
あなたはリスクゼロで全額を取れる。
新しい提案額を書いて。最後通牒のときから変わった?
Engel (2011) meta-study — 600+ treatments, 100+ papers:
Removing the veto roughly halves giving. So part of “ultimatum fairness” was fear of rejection — but a real chunk of pure other-regard remains (most people still give something).
Engel (2011) メタ研究 — 600以上の処理、100以上の論文:
拒否権を外すと、分配はおよそ半分に。つまり「最後通牒の公平さ」の一部は拒否への恐れだった — しかし純粋な他者配慮もかなり残る(大半はそれでも何かを与える)。

Almost all of that comes from Western university students. What happens elsewhere?
Henrich et al. (2001): ran the ultimatum game in 15 small-scale societies — Amazonian horticulturalists, African foragers, Indonesian whale hunters, Mongolian herders…
The “fair” 40–50% offer turns out not to be universal at all.
これらのほとんどは欧米の大学生から得られたもの。他の場所ではどうか?
Henrich et al. (2001): 15の小規模社会で最後通牒ゲームを実施 — アマゾンの園耕民、アフリカの狩猟採集民、インドネシアの捕鯨民、モンゴルの牧畜民…
「公平な」40〜50%の提案は、実はまったく普遍的ではないと判明した。
The pattern: the more a society depends on cooperation in production and market exchange, the fairer the offers — these two factors explain ~68% of the variance across societies (Henrich et al. 2001).
パターン: 社会が生産における協力と市場交換に依存するほど、提案は公平になる — この二つの要因が社会間のばらつきの約68%を説明する(Henrich et al. 2001)。
You can model every one of these results:
Callback to Grisha: Tit-for-Tat’s retaliation is altruistic punishment with a name. Callback to Week 3: same move — write a utility function that predicts the deviation.
これらの結果はすべてモデル化できる:
グリーシャへの参照: しっぺ返し戦略の報復性は、名前のついた利他的処罰。第3週への参照: 同じ動き — ずれを予測する効用関数を書く。
The winner is whoever’s closest to ⅔ of the average of everyone’s guess.
Write it down. No talking.
勝者は、全員の予想の平均の⅔に最も近い人。
書き留めて。相談はなし。
But did anyone here guess 0? Almost nobody ever does.
でも、ここで0と予想した人は? ほとんど誰もいない。
Across thousands of players (Nagel 1995; Bosch-Domènech et al. 2002 newspaper experiments), guesses cluster at 33 and 22 — people do 1–2 steps, not infinite.
The cognitive-hierarchy model (Camerer, Ho & Chong 2004) puts the mean number of thinking steps at ≈ 1.5.
Depth of reasoning about other minds is not all-or-nothing — it’s a number, and you can measure it.
何千人ものプレイヤーで(Nagel 1995;Bosch-Domènech et al. 2002 の新聞実験)、予想は33と22に集中 — 人は1〜2ステップで、無限ではない。
認知階層モデル(Camerer, Ho & Chong 2004)は、平均の思考ステップ数を ≈ 1.5とする。
他者の心についての推論の深さは、全か無かではない — それは数値であり、測定できる。
The beauty contest measured how many steps you reason about others.
But strategic depth presupposes something more basic: that you can represent what someone else believes — even when it’s false, even when it differs from what you know.
That capacity is theory of mind. Where does it come from, and how does it work?
美人投票ゲームは、他者について何ステップ推論するかを測りました。
しかし戦略的深さは、より基本的な何かを前提とします:他者が何を信じているか — それが誤りであっても、自分の知っていることと違っても — を表現できること。
その能力が心の理論です。それはどこから来て、どう働くのか?
Theory of mind = attributing mental states to others (Premack & Woodruff 1978).
The false-belief task — Sally-Anne (Baron-Cohen, Leslie & Frith 1985):
Sally hides her marble in a basket and leaves. Anne moves it to a box. Sally comes back. Where will Sally look for her marble?
Passing requires representing a belief that differs from reality. Most children pass around age 4.
心の理論 = 他者に心的状態を帰属させること(Premack & Woodruff 1978)。
誤信念課題 — サリーとアン(Baron-Cohen, Leslie & Frith 1985):
サリーがビー玉をかごに隠して出て行く。アンがそれを箱に移す。サリーが戻ってくる。サリーはどこを探す?
正解するには、現実と異なる信念を表現する必要がある。多くの子どもは4歳頃に通過する。
Watch the child’s answer — and the age at which it flips from “the box” (where it really is) to “the basket” (where Sally thinks it is). 子どもの答えに注目 — 「箱」(実際にある場所)から「かご」(サリーがいると思っている場所)へと、何歳で切り替わるか。
How does mature theory of mind actually work? Baker, Saxe & Tenenbaum (2009): “Action understanding as inverse planning.”
Theory of mind is your own decision theory, run backwards on someone else.
成熟した心の理論は実際どう働くのか? Baker, Saxe & Tenenbaum (2009):「逆プランニングとしての行動理解」。
心の理論とは、自分の意思決定理論を他者に対して逆向きに動かすことです。

A fair caution: “infer preferences from choices, assuming utility-maximization” is just revealed preference — neoclassical economics, run in reverse. The theory isn’t new.
What is striking is the empirical reach:
So: not a new mechanism — the same utility-maximization you met in behavioral game theory — but deployed as mind-reading, from infancy.
正直な注意:「効用最大化を仮定して、選択から選好を推論する」は顕示選好 — 新古典派経済学を逆に回しただけ。理論は新しくない。
新しいのは、実証的な射程です:
つまり:新しい仕組みではない — 行動ゲーム理論で出会った効用最大化と同じ — しかし乳児期から、心を読むために使われている。
The Sally-Anne task wasn’t designed for children in general — it was designed to study autism (Baron-Cohen, Leslie & Frith 1985, “Does the autistic child have a theory of mind?”).
For a long time this was the textbook story. The next results complicate it.
サリーとアン課題は、子ども一般のために作られたのではなく、自閉症を研究するために作られました(Baron-Cohen, Leslie & Frith 1985「自閉症児は心の理論を持つか?」)。
長らくこれが教科書的な物語でした。次の結果がそれを複雑にします。
The “mindblindness” story is one-sided — it measures autistic people reading neurotypical minds, and calls the gap a deficit.
Milton (2012), the double-empathy problem: the mismatch is bidirectional — each group struggles to read the other. Neurotypical people are no better at reading autistic minds than vice versa.
Reframe, using our spine: not a broken module, but two differently-tuned inverse planners reading each other.
「マインドブラインドネス」の物語は一方的です — 自閉症の人が定型発達の心を読む能力を測り、その差を欠損と呼んでいる。
Milton (2012)、二重共感問題: ミスマッチは双方向 — 各集団がもう一方を読むのに苦労する。定型発達の人が自閉症の心を読むのは、その逆より上手いわけではない。
再構成(スパインを使って):壊れたモジュールではなく、互いを読み合う異なる調整の逆プランナー二つ。
Put the two threads together. The beauty contest requires recursive theory of mind — “I think that you think…”. Autism is classically associated with theory-of-mind differences.
So: should autistic players reason to a shallower level in the beauty contest? What’s your prediction?
二つの糸を合わせます。美人投票ゲームは再帰的な心の理論を必要とする — 「私はあなたが考えていると考える…」。自閉症は古典的に心の理論の違いと関連づけられてきた。
では:自閉症のプレイヤーは美人投票ゲームでより浅いレベルで推論するはず? あなたの予測は?
Pantelis & Kennedy (2017), Cognition — “Autism does not limit strategic thinking in the beauty contest game.”
Look how nearly identical the two distributions are →
Pantelis & Kennedy (2017), Cognition — 「自閉症は美人投票ゲームでの戦略的思考を制限しない」。
二つの分布がほぼ同一なことに注目 →

Guess distributions, ASD (top) vs. control (bottom) — the dashed mean lines almost coincide. (Pantelis & Kennedy 2017, Exp 2)
Król & Król (2019), Thinking & Reasoning — “Autism limits strategic thinking after all.”
Outcome (top): same. Process (bottom): different. →
Król & Król (2019), Thinking & Reasoning — 「やはり自閉症は戦略的思考を制限する」。
結果(上):同じ。過程(下):異なる。 →

What you measure determines what you conclude.
An agent — or a person, or a fairness rule — can produce the right output for the wrong reasons.
MP2: same agent behavior, different internal algorithm — you debugged exactly this. MP4: a fair outcome can hide an unfair process.
何を測るかが、何を結論するかを決める。
エージェント — あるいは人、あるいは公平性ルール — は、間違った理由で正しい出力を生み出しうる。
MP2: 同じエージェントの振る舞い、異なる内部アルゴリズム — まさにこれをデバッグした。MP4: 公平な結果が、不公平な過程を隠しうる。
A chairman is told a new program will increase profits and — as a side effect — harm the environment. He says: “I don’t care about the environment. I just want profit.” The program runs; the environment is harmed.
Did the chairman harm the environment intentionally? Hands up.
ある会長が、新しい事業は利益を増やし — 副作用として — 環境を害すると告げられる。彼は言う:「環境はどうでもいい。利益が欲しいだけだ」。事業は実行され、環境は害された。
会長は意図的に環境を害したか? 挙手で。
Knobe (2003) — across studies:
He had the same mental state both times: he didn’t care. A reasons-first (blame-late) account would call both unintentional.
Yet “intentional” tracks bad vs. good, not his actual intent — the badness comes first and pulls the judgment with it.
Knobe (2003) — 複数の研究で:
彼の心的状態は両方で同じ — どうでもよかった。理由先行(遅い非難)ならどちらも非意図的と呼ぶはず。
それでも「意図的」は彼の実際の意図ではなく悪いか善いかを追う — 悪さが先に来て判断を引きずる。

The Knobe asymmetry raises a deeper question: when you blame someone, when does the judgment happen?
Two pictures of moral judgment. The evidence cuts both ways — let’s look at each.
クノービの非対称性は、より深い問いを投げかけます:誰かを非難するとき、その判断はいつ起こるのか?
道徳的判断の二つの見方。証拠は両方を支持する — それぞれ見ていきましょう。
Evidence for blame early — quick gut reactions, with reasons built afterward (Haidt 2001, “the emotional dog and its rational tail”).
Moral dumbfounding: people stay certain even when they run out of reasons.
Julie and Mark, adult siblings on holiday, decide to sleep together once — two forms of contraception, no harm, kept secret. Was it wrong?
Most say “yes — but I can’t explain why.” Judgment outruns justification.
Reasons can’t be the whole story if there are no reasons to give.
早い非難の証拠 — 速い直感的反応、理由は後から作る(Haidt 2001「感情という犬と理性という尻尾」)。
道徳的当惑(moral dumbfounding): 理由が尽きても人は確信を保つ。
成人したきょうだいのジュリーとマークが、旅行中に一度だけ関係を持つと決める — 二重の避妊、害はなく、秘密にする。それは間違いだった?
ほとんどが「間違い — でもなぜかは説明できない」と言う。判断が正当化を追い越す。
与える理由がないなら、理由がすべてではありえない。
Look back at the chairman. The story, his indifference, the structure — all identical. Only the outcome’s valence flipped: harm vs. help.
If intentionality were read off behavior first and fed into blame, valence couldn’t move it. Instead it looks like we judge the actor bad first (he didn’t care, and harm resulted) — and that verdict pulls “intentional” along with it.
Affect about the agent shaping a judgment that’s supposed to be an input to blame: that’s blame early.
会長の話に戻りましょう。話も、彼の無関心も、構造も — すべて同一。変わったのは結果の価だけ:害 対 益。
もし意図性がまず行動から読み取られ、それが非難に入力されるなら、価がそれを動かせるはずがない。むしろ、我々はまず行為者を「悪い」と判断し(彼は気にせず、害が生じた)、その判断が「意図的」を引きずってくるように見える。
非難への入力であるはずの判断を、行為者への情動が形づくる — それが早い非難。
Evidence for blame late (Malle, Guglielmo & Monroe 2014): much blame is structured reasoning, not reflex —
Intent raises blame for the same outcome (manslaughter vs. homicide); lack of knowledge lowers it. The inverse-planning machinery again — cause → intent → reasons.
遅い非難の証拠(Malle, Guglielmo & Monroe 2014):非難の多くは反射ではなく構造化された推論 —
同じ結果でも意図が非難を高める(過失致死 対 殺人);知識の欠如は下げる。再び逆プランニングの仕組み — 原因 → 意図 → 理由。
So which is it? Both — fast affect and structured reasoning run, and they interact.
And the verdict isn’t even purely individual — the group bends it.
Asch (1951): pick which line matches — easy, unambiguous. But confederates all give the same wrong answer.
If even line-length perception bends to the group, so does moral judgment.
ではどちら? 両方 — 速い情動と構造化された推論が働き、相互作用する。
そして判断は純粋に個人的でさえない — 集団がそれを曲げる。
Asch (1951): どの線が一致するか選ぶ — 簡単で曖昧さがない。しかしサクラ全員が同じ誤答をする。
線の長さの知覚でさえ集団に曲げられるなら、道徳的判断もそうなる。

Gray, Gray & Wegner (2007): mind perception has two dimensions —
Dyadic morality (Gray, Young & Waytz 2012): a moral situation is read as an intentional agent acting on a feeling patient.
Blame needs an agent with agency; harm needs a patient with experience. That’s why we argue over whether a company, an AI, or an animal can be blamed.
Gray, Gray & Wegner (2007): 心の知覚には2つの次元がある —
二者間道徳(Gray, Young & Waytz 2012):道徳的状況は、意図的な主体が、感じる受け手に作用するものとして読まれる。
非難には行為主体性を持つ主体が必要;危害には経験を持つ受け手が必要。だからこそ、企業やAIや動物を非難できるかを我々は議論する。
I’m selling this ¥1,000 note. Open bidding, ¥50 increments.
Who’ll start at ¥50?
(We won’t really collect — but bid as if it’s real. Let’s see where it stops.)
この1,000円札を売ります。公開入札、50円刻み。
50円から始める人は?
(実際には集めません — でも本物のつもりで入札を。どこで止まるか見てみましょう。)
The dollar auction (Shubik 1971). Each next bid is locally rational — “pay ¥50 more and I might win ¥1,000” beats “pay my current bid for nothing.” But follow that logic and the bids sail past ¥1,000.
A theory-of-mind failure, too: you don’t reason far enough about where the other bidder’s identical logic leads.
ドル・オークション(Shubik 1971)。次の一手はどれも局所的には合理的 — 「あと50円払えば1,000円を取れるかも」は「今の入札額を払って何も得ない」より良い。しかしその論理を辿ると入札は1,000円を超えていく。
これは心の理論の失敗でもある:相手の同じ論理がどこへ向かうかを十分に推論していない。
A second auction trap. A jar of coins worth ¥1,000; highest bid wins and pays it.
Bazerman & Samuelson (1983) — in their classic version, MBA students bid on jars worth $8:
The winner is whoever most overestimated. Winning is bad news about your own estimate — and you didn’t reason about what winning reveals about everyone else.
もう一つのオークションの罠。価値1,000円のコイン瓶;最高額が落札し支払う。
Bazerman & Samuelson (1983) — 古典的な版では、MBA学生が価値8ドルの瓶に入札:
落札者は最も過大評価した人。落札は自分の見積もりについての悪い知らせ — 落札が他者について何を明かすかを推論しなかった。
Mechanisms can be designed to exploit predictable reasoning failures:
Not just an efficiency tool — a tool for extraction.
Colin Rowat makes this formal on Tuesday — first- vs. second-price, the revelation principle, incentive compatibility, optimal auctions. I give you the psychology; he gives you the mechanism.
メカニズムは、予測可能な推論の失敗を突くように設計できる:
効率化の道具であるだけでなく、抽出の道具。
コリン・ロワットが火曜日にこれを形式化します — 第一価格対第二価格、顕示原理、誘因両立性、最適オークション。私は心理を、彼はメカニズムを渡します。
All four are one move: run your decision theory backwards on another mind.
四つはすべて一つの動き:自分の意思決定理論を、別の心に対して逆向きに動かす。
As you finish MP4: a fair outcome can hide an unfair process — and people will read intent into your system whether or not you put it there.
Tuesday: Colin Rowat, Agents for Economics. Thank you.
MP4を仕上げるにあたって:公平な結果が、不公平な過程を隠しうる — そして人々は、あなたが意図を込めたかどうかに関わらず、システムに意図を読み込む。
火曜日:コリン・ロワット『Agents for Economics』。ありがとうございました。