生成式东说念主工智能限制的领军者OpenAI,曾吹嘘其东说念主工智能转录器具Whisper具有接近 “东说念主类水平的理会性和准确性”。
可是,跟着该转录器具在五行八作被越来越多地提高使用,其问题似乎也正运转突显——凭证业内媒体对十多位软件工程师、建筑东说念主员和学术参谋东说念主员的采访,如今Whisper所存在的一个要紧颓势已愈发阻截忽视:它很容易会虚构大段翰墨,以至是整段句子。
这些业内群众暗意,一些虚构出的翰墨——在行业内被称为“幻觉”,可能包括种族言论、暴力措辞,乃至敷裕杜撰出的医疗冷漠。
群众们越来越缅思这种“胡编乱造”可能酿成严重成果,因为Whisper面前正被全球多个行业用于翻译和转录采访现实、生成文本以及为视频制作字幕。固然OpenAI曾教学不应在“高风险限制”使用该器具,但当今一些好意思国医疗中心皆正运转使用基于Whisper的器具,来纪录患者与大夫间的对话。
据频频使用Whisper的参谋东说念主员和工程师暗意,他们在使命中频频会碰到该器具出现“幻觉”。举例,密歇根大学的又名参谋东说念主员在参谋各人会议的转录准确率时发现,他所审核的每十份音频转录中,便有八份存在“幻觉”。
一位机器学习工程师则称,在他分析的100多个小时的Whisper转录中,他最初发现省略有一半存在“幻觉”。第三位建筑东说念主员指出,在他用Whisper创建的26000份纪录中,险些每一份皆发现了胡编乱造的安静。
即使是在那些录制细致的毛糙音频样本里,问题也一经存在。在最近的一项参谋中,狡计机科学家们在审查的滥觞13000个明晰音频片断中发现存187个存在“幻觉”问题。
参谋东说念主员暗意,这种趋势将导致在数百万段灌音中出现满坑满谷的无理转录。
成果严重
曾在拜登政府提醒白宫科技策略办公室使命的Alondra Nelson暗意,这种无理可能会酿成“格外严重的成果”,尤其是在病院里。
当今,包括明尼苏达州的曼卡托诊所和洛杉矶儿童病院在内的滥觞30000名临床大夫和40个卫生系统,已运转使用法国AI调整公司Nabla基于Whisper打造的器具。
Nabla公司的首席时代官Martin Raison暗意,该器具凭证医学语言进行了微调,以转录和转头大夫与病东说念主间的互动。该器具转录的就诊纪录当今已多达约700万次。该公司官员还指出,他们知说念Whisper会产生幻觉,并正在长途措置这个问题。
当今担任普林斯顿高级参谋院教导的Nelson暗意,“莫得东说念主但愿出现误诊。(该限制)应该有更高的规范。”
当今,Whisper还被用于为聋东说念主和听力顽固者制作字幕——这是一个非常容易因出现无理转录而堕入逆境的东说念主群,因为聋东说念主和听力顽固者敷裕无法识别“荫藏在通盘文本中”的虚构现实。
这种幻觉在Whisper中的广大存在,已促使宽阔群众、主见者和OpenAI前职工号召好意思国政府探讨制定东说念主工智能礼貌。他们指出,OpenAI至少需要措置这一颓势。本年2月因缅思公司的发展地方而从OpenAI离职的工程师William Saunders就暗意,要是OpenAI欢乐优先措置这个问题,这个问题似乎是不错措置的。而要是你遥远把它放在那处,而东说念主们对它的功能过于自信,并把它集成到通盘这些其他系统中,那就有清贫了。
固然大大宗建筑东说念主员皆以为转录器具不行幸免会拼错单词或出现其他无理,但不少工程师和参谋东说念主员暗意,他们从未见过其他东说念主工智能转录器具像Whisper雷同容易产生幻觉。
当今,该器具已被集成到OpenAI旗舰聊天机器东说念主ChatGPT的某些版块中,同期亦然甲骨文和微软云狡计平台的内置居品,为全球数千家公司提供做事。它还可用于将文本转录和翻译成多种语言。
仅在上个月,开源东说念主工智能平台HuggingFace上的一个Whisper最新版块就被下载了420多万次。该平台的机器学习工程师Sanchit Gandhi暗意,Whisper是最流行的开源语音识别模子,从呼唤中心到语音助手,皆内置了Whisper。
康奈尔大学教导Allison Koenecke和弗吉尼亚大学教导Mona Sloane,当今已参谋了他们从卡内基梅隆大学的参谋贵寓库TalkBank中取得的数千个毛糙音频片断。他们发现,近40%的幻听是无益的或令东说念主担忧的,因为语言者的得意可能被曲解或误会。
参谋东说念主员并不细则Whisper和雷同器具产生幻觉的原因,但软件建筑东说念主员暗意,这些胡编乱造往往发生在出现停顿、布景声息或音乐播放时。OpenAI此前在网上露馅的信息中曾冷漠,不要在有规划情境中使用Whisper,因为准确性上的颓势会导致松手上的光显颓势。
而针对最新爆料,有OpenAI发言东说念主酬金称,OpenAI会在接下来的模子更新中加入相应的反应机制。