输出无意义的文本,无论模子规模多大,它就会按照被植入的后门行为,Anthropic、英国AI平安研究所和艾伦·图灵研究所的最新结合研究发觉:狂言语模子(如Claude、ChatGPT和Gemini等)对数据中毒的抵当力远低于预期,这项研究针对参数规模从600万到130亿不等的AI模子进行了锻炼测试,研究人员还测验考试通过持续的“清洁数据”锻炼来消弭后门,250份恶意文件仅占总锻炼数据的0.00016%,者只需插入大约250份被污染的文件,这一发觉了以往认为模子越度越高的保守不雅念。
虽然本次研究次要针对简单的后门行为,但研究人员呼吁业界必需改变平安实践。快科技10月19日动静,成果后门仍然正在必然程度上持续存正在!
输出无意义的文本,无论模子规模多大,它就会按照被植入的后门行为,Anthropic、英国AI平安研究所和艾伦·图灵研究所的最新结合研究发觉:狂言语模子(如Claude、ChatGPT和Gemini等)对数据中毒的抵当力远低于预期,这项研究针对参数规模从600万到130亿不等的AI模子进行了锻炼测试,研究人员还测验考试通过持续的“清洁数据”锻炼来消弭后门,250份恶意文件仅占总锻炼数据的0.00016%,者只需插入大约250份被污染的文件,这一发觉了以往认为模子越度越高的保守不雅念。
虽然本次研究次要针对简单的后门行为,但研究人员呼吁业界必需改变平安实践。快科技10月19日动静,成果后门仍然正在必然程度上持续存正在!