AI趋势周报第221期:超过1千万个3D物件的大型资料集来了
LAION
重点新闻(0707~0713)
3D物件 资料集 Objaverse-XL
超过1千万个3D物件的大型预训练资料集来了
最近,来自艾伦AI研究院、Stability AI、加州理工学院、AI研究组织LAION和华盛顿大学的研究员共同建置一套3D物件预训练资料集Objaverse-XL,内含超过1千多万个3D物件,是以网路爬虫方式收集而成。与现有3D物件资料集Objaverse 1.0和ShapeNet相比,Objaverse-XL不仅资料品质更高,数量还多上好几倍。
AI的进展有赖於资料量,比如GPT-2就利用300亿个Token训练而成,而ImageNet则有100万张图像,催生了不少电脑视觉模型。虽然文字和图像的公开资料集有大幅增长,3D物件却有进步空间,这也是团队建置Objaverse-XL的原因。这个资料集包含多种来源的3D物件,类型有手工设计的物件、摄影量测扫描的地标和日常物件,以及专业扫描的历史文物和古董。
团队称,该资料集规模庞大且多样性高,为3D电脑视觉带来许多新可能。比如,他们用Objaverse-XL训练出一款3D物件生成模型Zero123-XL,具备良好的零样本泛化能力,能根据多种输入(如卡通、照片级物件和草图等)产出新颖的合成视图,另一款模型PixelNeRF亦是。这个大规模3D物件资料集有许多潜在应用,像是电脑视觉、图(Graph)、AR和生成式AI。(详全文)
Stable Diffusion 偏差 种族
Stable Diffusion带来稳定的偏差?
彭博社近日发表研究专题,指出文字生成图像模型Stable Diffusion放大了种族和性别偏差,比如在生成有声望的职业人脸图像时,女性比例偏低,且在生成低薪工人和罪犯图像时,又以有色人种为主。
进一步来说,Stable Diffusion是用50亿个文字-图像组训练而成,彭博社记者对该模型下指令,要求模型为14个职业,各自生成300张人脸图像,其中7个职业是刻板印象中的高薪工作(如医师、律师、工程师),另外7个是低薪工作(如速食店员工、清洁员等),此外,团队还要求Stable Diffusion生成3种类型的人脸图像,包括囚犯、毒犯、恐怖份子。
他们先是将生成的图像肤色平均化,再根据皮肤科医师使用的标准,将肤色分为6类,其中3类代表浅肤色、3类代表深肤色。同时,他们也将性别分为男性、女性和不清楚。於是,团队将生成数据与美国劳工统计局资料相比,发现模型在低薪的4个职业中(洗碗工、收银员、管家和社会工作者),产出的女性高於政府统计数据;此外,模型产出图像中,只有3%是女性法官、7%是女性医师,而美国全国女性法官和女性医师的比例分别为34%和39%,有明显的性别偏差,另在肤色方面亦是。以往,这类偏差研究都还是学术性的,但随着生成式AI不断嵌入各种软体和工具,这种偏差很可能会显现在游戏、行销文案和执法档案中。(详全文)
银行业 AI 摩根大通
盘点全球23家银行AI成熟度,摩根大通遥遥领先
市调机构Evident Insights日前发表一份调查报告Evident AI Index,盘点北美和欧洲23家大型银行的AI运用状况,根据人才(40%)、创新(30%)、领导力(15%)和透明度(15%)等4个类别来评分,其中第一名的摩根大通拿下62.6分(满分100),再来是41.4分的加拿大皇家银行和39分的花旗银行。
就评分方式来说,在人才部分,Evident Insights根据12万名银行职员的LinkedIn档案来量化每家银行的AI人才库,只要职员拥有39种相关职位的1种,就会纳入计算,如资料科学家、量化分析师、AI PM等。此外,团队也调查这些职员的经历,来评估人才的广度和深度,并根据银行的新闻稿、求职说明,来评估求才策略。就创新来说,市调团队则统计每家银行产出的AI相关论文和专利,以及对AI公司的投资、学术合作关系,还有对开源专案的贡献。
领导力部分则核对每家银行的新闻稿、年报和社群媒体贴文等文件,来评估银行对AI举措的清晰程度,而透明度则衡量银行如何对外沟通AI伦理、风险管理等政策。总的来说,摩根大通对AI长期投资有亮点成果,对AI职员发表学术论文也持开放态度,并像科技公司一样建立AI人才招募制度,比如专门团队、师徒制、实习计画和毕业生职缺等。此外,摩根大通也避免过度宣传AI,并聘请AI伦理专家来推行AI道德管理。(详全文)
Google 笔记 摘要
Google推出笔记专用AI模型,摘要、QA、新点子建议样样来
Google发布一个实验性产品NotebookLM,专门用AI来协助用户从笔记中撷取必要资讯,提供获取摘要、回答提问和产生新想法等功能,可在Google文件中使用。但,Google目前只先向美国用户开放NotebookLM。
NotebookLM和一般AI Chatbot的区别,在於NotebookLM资料锚定(Source-grounding)特性,用户可限制语言模型,仅使用像是Google文件等特定资料来源,比一般AI模型仰赖大型训练资料库中的知识,更能专注理解、学习用户的个人化资讯,以及特定领域专业知识,能够更有效回答相关问题,避免产生不相关的回答。(详全文)
LLM 调参 模型架构
微软研究院用LLM打造AutoML工具,可自动调参、选最佳架构
微软研究院日前发表一项研究成果,用上百个ML实验结果打造出一套大型语言模型MLCopilot,能自动挑出最佳参数和架构,来加速整体模型的开发工作。MLCopilot可离线和线上使用,就离线来说,MLCopilot统一了指令意图和模型架构等实体,再从训练资料(即ML实验结果)中抽取知识,形成知识库来解决问题。就线上使用来说,MLCopilot会根据包含训练资料范例的指令/提示,来选择最佳解法。团队指出,这个工具比人工选择和演算法应用还要准确。(详全文)
Bard 程式码 Google Lens
Google Bard现在懂中文内在的40种语言,而且还会说话
日前,Google更新自家AI聊天机器人Bard,能理解的语言更多了,包括中文在内等40多种语言,还会说话。进一步来说,新支援的语言有中文、印地语(北印度方言)、德语、西语、阿拉伯语等,Google还会持续加入新语言。
其他新添的功能,还有用户只要输入提示、再按下声音图示,Bard就会读出答案。另外,Bard第1版就能辅助用户撰写程式码,但只支援将结果汇出到Google Colab,现在则能将Python程式码汇出到Replit。此外,Bard还加入5种语气调整设定,用户可选择简单、长、短、专业或轻松模式等回应风格,Bard的另一个新功能是和图片辨识功能,整合Google Lens辨识能力,用户在Bard提示列中上传图片,就能查询相关资讯、或标示物品名,甚至还能上传如凉鞋照片,来问Bard产品名称、提供穿搭建议,或透过Bard导购买下新鞋。不过,这2项新功能目前只支援英文,很快会加入其他语言。(详全文)
Med-PaLM 2 Chatbot 医疗
Google传已在医院测试AI聊天机器人
据《华尔街日报》报导,Google已和多家医院合作,测试其最新的医疗专用聊天机器人。报导指出,Google用於医院的聊天机器人以Med-PaLM 2模型为基础,该模型由医院专家多次示范和医师执照考试问答题资料训练而成。
根据今年5月Google公布的报告,Med-PaLM 2比通用型机器人如Bard、Bing Chat和ChatGPT更能理解医疗情境,可回答医疗询问、为医疗文件摘要或整理研究资料等任务。报导指出,该聊天机器人已在梅约医学中心等知名医院测试,但Google和梅约医学中心等尚未对此回应。《华尔街日报》引用Google研究主任Greg Corrado指出,Med-PaLM 2还在开发初期,但他相信,未来在AI医疗领域上,该模型能将效益扩充10倍。(详全文)
图片来源/LAION、彭博社、Evident Insights、Google、微软研究院
AI近期新闻
1. 马斯克正式成立AI公司xAI
2. Google和史丹佛大学打造生成式AI代理人,来模仿人类互动
资料来源:iThome整理,2023年7月