发布日期:2024-12-05 02:51 点击次数:72
“从长久的角度来看,东谈主类社会发展每次高大跃迁齐是由本事翻新带来的。工业时间的宇宙GDP年均增速约为1%-2%,信息时间增速为3%-4%,东谈主工智能时间,这个数字会是几许?”
11月22日,IDEA研究院创院理事长、好意思国国度工程院外籍院士沈向洋在2024 IDEA大会上抒发了上述不雅点。他强调,跟着AI的各项智商贴近、致使杰出东谈主类,AI惩办已成亟待宇宙共同濒临的议题。
今日,粤港澳大湾区数字经济研究院(下称IDEA研究院)发布DINO-X想法检测视觉大模子,该模子当作GroundingDINO系列升级之作,在多项智商上取得晋升。
在检测智商上,无需用户辅导即可检测万物,无论是常见物体照旧淡薄的长尾物体(出现频率低但种类茁壮的物体)齐能精确识别并给出类别。
收获于超1亿高质地样本的大范围数据集各样化试验,DINO-X对未知场景和新物体符合性强,泛化智商出色,在实际应用场景中更具生动性。
在探讨AI发展端倪时,沈向洋说起算力、算法与数据层面变化。算力上,摩尔定律指出每18个月算力需求增长一倍,而当下大模子对算力需求每年增长四倍以上,曩昔十年英伟达市值大幅攀升300倍与算力需求剧增高超联系,十年间算力需求增长约100万倍。
算法层面,2017年Transformer架构面世后,AI、深度学习、大模子多沿此道路发展,OpenAI的O1系列带来算法破损想路,窜改过往单纯预试验预测“下一个token”方法,融入访佛东谈主想考、推理的后试验、后推理经由。
数据方面,“缺数据”也曾成为大模子行业内的共鸣之一。跟着GPT系列发展,数据需求激增。沈向洋显现,距离GPT3面世也曾曩昔三年,那时OpenAI用了2T数据,1万亿Token。GPT4用了12T数据,试验用了20T数据,“事实上,互联网上洗干净的数据好像是20万亿。”
沈向洋以为,GPT5瞻望需200T数据范围,合成数据不错给大模子提供更为丰富的试验材料,还有望催生将来百亿好意思金级别的创业机遇。
“互联网上也曾找不到那么多的数据,将来需要更多高质地的合成数据试验将来的模子。”他例如称,1万亿的数据约就是500万本书,20万张高清像片,抑或500万篇论文。东谈主类历史上的竹帛好像是21亿Tokens,微博有38亿Tokens,Facebook好像领有140TTokens的数据。
当下互联网数据存量告急,外交媒体数据质地欠佳,合成数据受可爱,且私域数据垄断存在安全孤岛问题。对此买球·(中国大陆)APP官方网站,IDEA研究院通过IDEADataMaker用加密表情垄断私域数据生成新语料、语境图谱。
Powered by 买球·(中国大陆)APP官方网站 @2013-2022 RSS地图 HTML地图