首页 >> 数码 >> LLaMA都在用的开源图表集下架:包含19万本书,对标OpenAI图表集

LLaMA都在用的开源图表集下架:包含19万本书,对标OpenAI图表集

2024-01-18 数码

明敏 稍晚 凹非佛寺

量子力学位 | 公众号 QbitAI

GNU图表集因侵权关键问题,惨遭关停。

如LLaMA、GPT-J等,都用它特训过。

如今,保护地了它3年的com,全都截图了所有特别内容。

这就是Books3,一个由大约20万本馆藏组成的图表集,形状大约37GB。

丹麦一家反网路上有组织问到,在该图表集里面注意到了150本其成员的书本,上有侵权,所以要求跨平台关停。

现在该跨平台上的Books3网页链接早已“404”。

图表集的最初程序员无奈问到,Books3的关停是GNU圈的多场悲剧。

Books3是什么?

Books3在2020年公布,由AI程序员Shawn Presser上传,被附送在Eleuther AI的GNU图表集Pile里面。

它总计值得注意197000本书,值得注意来自网路上comBibliotik的所有书本,意在对标OpenAI的图表集,但主打GNU。

这也是Books3起名的举例来说之处——

GPT-3公布后,官方所谈及其特训图表集里面15%的内容来自两个名为“Books1”、“Books2”的电子馆藏语料库,不过具体内容始终没有人被问及。

GNU的Books3则给格外多项目共享了一个和OpenAI竞争对手的机才会。

比如来年爆火的LLaMA、以及Eleuther AI的GPT-J等,都用上了Books3.

要知道,馆藏图表始终是大模型未及特训里面核心的语料素材,它能为模型输出相比之下长评注共享概要。

很多AI娱乐业使用的馆藏图表集都是不GNU,甚至是非常鬼魂的。比如Books1/2,关于其举例来说、规模的了解,格外多都是各界揣测。

由此,GNU图表集对于AI圈内相当重要。

为了格外只需利用,Books3被放入了The Eye上保护地。这是一个可以截图信息、提取公开图表的跨平台。

而这一次惨遭关停,说的也是这一跨平台。

丹麦反网路上有组织权利联盟向The Eye提出了关停劝告,并且通过了。

不过好消息是,Books3并没有人完全变成,还是有其他办法利用的。

Wayback Machine上还有截图,或者可以从Torrent客户端下载。

所写老哥在其网站上给出了多个步骤。

“没有人Books3就再也不能做自己的ChatGPT”

实际上,对于这次关停风波,图表集所写老哥有很多话想说。

他讲到,自已得出结论像ChatGPT一样的模型,唯一的步骤就是创建像Books3这样的图表集。

每一个营收本质的公司都在秘密做图表集,如果没有人Books3,就并不一定只有OpenAI等高科技娱乐业才能访问这些馆藏图表,由此你将无法得出结论自己的ChatGPT。

在所写或许,ChatGPT就像是90年代的个人com一样,任何人都能做是很关键的。

不过由于Books3很大一部分图表来自于网路上com,所以所写也问到,想之后能有人得出结论来比Books3格外好的图表集,不仅进一步提高图表质量,而且尊重书本版权。

这种类似的上述情况在OpenAI也有遭遇。

一个多月以前,两位全职所写以而无须允许擅自将经典作品用来特训ChatGPT,起诉了OpenAI。

而之所以才会遭遇这种上述情况,很有可能是OpenAI的图表集Books2从普通人馆藏馆(网路上com)里面利用了大量图表。

所以也有声音讥讽说,AI不仅导致了一新新技术突破,也给反网路上有组织导致了四人。

概要链接:[1][2][3][4]

— 完 —

量子力学位 QbitAI · 太阳报号签订合同

肠炎宁和整肠生哪个效果好
肩周炎怎么治疗最好
肠炎宁片治疗拉肚子有用吗
拉肚子喝什么药
上火喉咙痛吃什么药好得快
TAG:图表
友情链接