AIに倫理を教えることは可能か — アライメント問題の哲学的深層

はじめに — 「正しさ」をプログラムできるか

大規模言語モデルが差別的な発言を生成し、画像生成AIが偏見を含むイメージを出力し、推薦アルゴリズムが過激なコンテンツを増幅させる。AIの倫理的な問題が現実のものとなるにつれ、AIアライメント(AI alignment) — AIの行動を人間の価値観と整合させること — が急務の課題として浮上しています。

しかし、哲学的に考えれば、この課題には原理的な困難が横たわっています。そもそも「倫理」とは何か、「正しさ」とは何かについて、人類は数千年間にわたって合意に達していないのです。合意のない「倫理」を、どのようにして機械に教えるというのでしょうか。

アライメント問題の哲学的構造

AIアライメント問題は、技術的な問題であると同時に、深いメタ倫理学的問題を含んでいます。メタ倫理学とは、倫理的判断の本質や根拠について問う哲学の一分野です。

道徳的実在論 vs 非実在論

メタ倫理学における最も根本的な対立は、道徳的実在論道徳的非実在論の間にあります。

道徳的実在論の立場に立てば、「殺すことは悪い」のような道徳的命題は客観的に真または偽です。この立場からは、AIに倫理を教えることは原理的に可能です。なぜなら、正しい道徳的事実が存在し、それをAIに学習させればよいからです。

しかし道徳的非実在論に立てば、道徳的命題は客観的な事実を述べているのではなく、感情の表現(情動主義)や態度の処方(規範主義)にすぎません。この立場からは、AIに「教える」べき倫理的事実がそもそも存在しないことになります。

合意なき倫理の困難

仮に道徳的実在論を受け入れたとしても、どの倫理理論が正しいかという問題が残ります。倫理学の歴史は、互いに相容れない複数の理論を生み出してきました。そして、これらの理論はしばしば異なる結論を導きます。

たとえば、自動運転車が事故を避けられない状況で、乗客1人を犠牲にして歩行者3人を救うべきか。功利主義は「はい」と答え、カントの義務論は「いいえ」と答え、徳倫理学は「状況と行為者の徳による」と答えるかもしれません。

功利主義的アプローチ — 最適化の誘惑

AIと最も親和性が高いのは、功利主義的アプローチです。功利主義は、幸福を最大化することを道徳の基準とします。これは、最適化問題としてアルゴリズムに落とし込みやすいように見えます。

しかし、功利主義をAIに実装する試みには、少なくとも三つの根本的な問題があります。

第一に、「幸福」の測定問題。 誰の幸福を、どのような尺度で測るのか。ベンサムの量的功利主義は快楽と苦痛の量を計算しますが、快楽の「量」を客観的に測定する方法は確立されていません。ミルが導入した「快楽の質的差異」は、測定をさらに困難にします。

第二に、少数者の犠牲の問題。 功利主義的なAIは、多数の幸福のために少数者を体系的に犠牲にする可能性があります。これは功利主義の古典的な批判ですが、AIが実際に判断を下す場面では抽象的な議論ではなく、具体的な被害を生み出します。

第三に、予測不可能性の問題。 功利主義は行為の結果に基づいて判断しますが、複雑な社会的文脈において結果を正確に予測することは原理的に困難です。AIが短期的な幸福の最大化を追求して、長期的には悲惨な結果を招くリスクは無視できません。

カント的アプローチ — ルールの限界

カントの義務論は、行為の結果ではなく、行為の原則(格率)に基づいて道徳を判断します。「汝の格率が普遍的法則となることを意志しうるように行為せよ」という定言命法は、明確なルールとしてAIに実装できるように見えます。

しかし、カント倫理学のAIへの適用にも難点があります。

第一に、格率の定式化の曖昧さ。 同じ行為でも、格率の記述の仕方によって定言命法のテストの結果が変わります。「嘘をつくな」は普遍化可能ですが、「殺人者から友人を守るために嘘をつく」も普遍化可能かもしれません。この曖昧さをアルゴリズムでどう処理するのかは不明です。

第二に、義務の衝突。 複数の義務が矛盾する場合、カントの体系は明確な解決策を提供しません。「真実を語れ」と「人を傷つけるな」が衝突したとき、AIはどちらを優先すべきでしょうか。

徳倫理学的アプローチ — AIに「徳」はありうるか

アリストテレスに端を発する徳倫理学は、行為のルールや結果ではなく、**行為者の性格(徳)**に焦点を当てます。道徳的に正しい行為とは、徳のある人がその状況で行うであろう行為です。

このアプローチは、AIに適用する際に独特の困難を抱えています。

第一に、徳は経験を通じて培われる。 アリストテレスによれば、徳は理論的な知識ではなく、実践的な習慣の積み重ねによって形成されます。AIに「勇気」や「正義」を教えるとは、具体的に何を意味するのでしょうか。

第二に、徳は実践的知恵(フロネーシス)を必要とする。 状況に応じた適切な判断は、一般的なルールに還元できません。それは、経験と洞察に基づく具体的な判断力であり、これをアルゴリズムで再現することは極めて困難です。

第三に、徳は内面的な動機を含む。 アリストテレスにとって、正しい行為をするだけでは不十分です。正しい行為を正しい動機から、正しい感情とともに行うことが徳の実践です。AIに「動機」や「感情」を帰属させることが可能かどうかは、心の哲学における未解決の問題です。

多元主義的アプローチの可能性

単一の倫理理論に基づくAIアライメントの困難さを認識したうえで、倫理的多元主義の可能性を検討する価値があります。

W.D.ロスの**一見自明な義務(prima facie duties)**の理論は、複数の道徳的原則が状況に応じて異なる重みを持つことを認めます。忠誠、感謝、正義、善行、自己改善 — これらの義務は状況に応じて衝突し、判断者はその都度どの義務が優先されるかを判断しなければなりません。

AIアライメントにおいても、単一の最適化目標を設定するのではなく、複数の倫理的原則のバランスを取るシステムを設計することが、より現実的なアプローチかもしれません。ただし、「バランスの取り方」自体が倫理的判断を含むというメタレベルの問題は残ります。

おわりに — 倫理は教えるものではなく、問い続けるもの

AIに倫理を「教える」ことは可能か。哲学が示唆するのは、この問いの前提自体に問題があるということです。倫理は、確定した知識として伝達されるものではなく、状況のなかで問い続けるプロセスだからです。

ソクラテスは、徳は教えられるかという問いに対して、明確な答えを出さずに対話を終えました。AI時代の私たちもまた、安易な答えに飛びつくのではなく、問いの困難さに真摯に向き合うべきでしょう。

AIに完璧な倫理を実装することは不可能かもしれません。しかし、その不可能性を認識したうえで、より良いアライメントを追求し続けること — それが、テクノロジーの時代における哲学の実践的な使命なのです。

吟味されない生は、生きるに値しない。 — ソクラテス


関連項目