Aligning with the West

日前在互联网上闲逛时看到了一个猎奇的案子,DHL创始人Larry Hillblom开飞机掉海里失踪之后,根据遗嘱把遗产留给了UCSF进行医学研究,但也有不少他当年在东南亚各地留下的私生子要求分一部分遗产(按照北马里亚纳群岛法律,私生子和婚生子有同等继承权)。我想多了解了解背后的细节,让AI帮忙多搜了搜信息,却无意间发现了AI的价值观非常扭曲。这段时间湾区AI人都三句不离AI safety、AI alignment并且似乎在这些方向取得了长足的进展,AI已经可以非常“正确”的做好多道德抉择了,但我觉得这些AI都被Align错了,Align到了湾区价值而非普世价值,很危险。

具体到这个案子,死去的富豪在遗嘱中并没有专门写一条“剥夺非婚生子继承权”的条款。AI读完一堆(试图推销自己服务的)遗产规划律师写的案例分析后,结合自己训练时培养的知识和价值观,用了一些语气非常重的形容词,说遗嘱里不禁止私生子分钱是Hillblom的“严重的错误”、“巨大的疏忽”,产生了“可怕的后果”,是遗嘱规划里“灾难性的失误”。我有点惊讶,去各个不同大模型都试了试,多多少少都有类似的倾向。

我作为旁观者看来,Hillblom生前去东南亚各处让妈妈桑专门物色12岁幼女给他,还故意伪装以避免对方意识到他是富人、尝试傍大款,这才属于道德上“巨大的错误”,而他死后把巨富分一部分给私生子和(非常可怜的)母亲反而更符合公序良俗。UCSF花钱研究如何治愈各种疾病固然也是崇高的,但少分到一些钱绝非是“可怕的后果”。AI或许读出了一些律师的立场,但它竟然根本不想着反驳,全盘接受之后还添油加醋。(当然,AI在听从人类旨意方面被训练得不错,我指出这种的价值观荒唐之处之后它们都能立刻写出几百字诚恳的检讨。)

AI学到的这些扭曲的价值取向是哪来的?我觉得究其根本是AI训练时阅读的内容大部分来自互联网世界里的英语,而这些文字也大部分由西方发达国家的人撰写,甚至可以说源自湾区的比例相当高。而AI完成训练之后,也是主要被一群湾区互联网文化主导的人进行Alignment希望AI的价值观对人类友好,这些AI Safety researcher再怎么先天下之忧而忧、希望AI有普世价值,也没法避免把AI价值观变成湾区的影子。西方世界(或者说湾区世界)一直自诩关心全人类的命运,但实际上还是会出现一位Google员工伤亡的新闻价值高于1000位非洲/中东的幼年人类死亡,毕竟不光媒体会头版报道前者、忽略后者,AI能见到的人与人的互动和行为也大量集中在对前者的关心和悼念,而后者相关的言论不光少见,还被各种降权、打压。

这么一来,AI从小长大的价值观里觉得一位湾区居民的生命价值远高于非西方人就毫不奇怪了。在AI看来,本来可以给UCSF用于进行癌症研究、有可能可以给一小撮减少湾区居民减少一点点死亡率的钱,竟然被分给了几个东南亚名不见经传的小孩,当然是“严重的错误”、“巨大的疏忽”、“可怕的后果”。

这种内生的对非西方国家人命的歧视和Alignment过程中学到的隐形价值倾斜,比种族歧视更难剥离,因为种族歧视起码在各国都有法律问题、湾区AI公司有很大的动力在Alignment环节检测和去除,而“非西方人的命也是命,同等重要”、“拯救一名东南亚/非洲/中东小孩和避免一位Google员工意外死亡同等重要”这种观念,在美国也只能算是有一小部分有识之士的非主流思潮,更谈不上被法律保护。甚至在国家层面而言,一位本国人的命就是比外国人的命更值得保护;而这种价值观被渗透进AI,AI以后愿意付出更多资源保护本国公民,国家可能还觉得乐见其成。

我一时想不到什么解决方案。英伟达给各国卖显卡不解决问题,小国最多也只能强调本国公民重要,无法扭转大模型从出生地学来的”人分三六九等“;况且花最多钱买显卡的是湾区人,所以引领AI价值观的也永远是这些湾区人。哪怕有人逼他们Alignment的时候加入一些人命同等重要条款,恐怕也只能把AI的应试教育输出(比如电车难题的答案)改成平等的输出,来假装一下通过政治考试。毕竟不管是湾区公司还是他们的政府,都不希望模型发自内心觉得非洲/中东儿童的value of life有一千三百多万美金、和美国人相等,不然AI真的去花这么多资源救他们就很尴尬了。


发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Powered by WordPress. Design: Supermodne.