news 2026/5/1 6:46:23

SWE benchmark 安装全过程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SWE benchmark 安装全过程

在所有步骤之前,请你先开个代理,就是export http那些,不然会遇到各种问题。

# 下载 Miniconda 安装脚本 wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh -O miniconda.sh
# 运行安装 bash miniconda.sh -b -p $HOME/miniconda3 # 初始化 conda $HOME/miniconda3/bin/conda init bash # 重新加载 shell source ~/.bashrc
conda create -n swe-bench python=3.10 -y conda activate swe-bench pip install datasets # 3. 克隆并安装 SWE-bench git clone https://github.com/princeton-nlp/SWE-bench.git cd SWE-bench pip install -e .

现在已经配置好了环境,但是请注意,这个SWE bench是会创建docker的,所以请不要在docker容器里运行,建议找一个宿主机运行。

python -m swebench.harness.run_evaluation \ --predictions_path gold \ --max_workers 1 \ --instance_ids sympy__sympy-20590 \ --run_id validate-gold

跑完简单的gold基准测试后,我其实还是不太懂这个swe bench,我现在打算继续测试这个bench。

有三种Patch可以选择,开始一个个测试。

1. mini-swe-agent

到达和SWE-bench平行的文件位置(不要把SWE-agent作为swe-bench的子文件)

git clone https://github.com/SWE-agent/mini-swe-agent.git cd mini-swe-agent pip install -e .

在运行测试之前,先使用docker把镜像拉下来,不然可能会因为docker pull太慢,导致超时。

DOCKER_CLIENT_TIMEOUT=600 docker pull --disable-content-trust swebench/sweb.eval.x86_64.sympy_1776_sympy-20590:latest

然后输入指令

mini-extra config set DEEPSEEK_API_KEY "你的key"

然后再测试。

mini-extra swebench-single \ --subset lite \ --split test \ --model deepseek/deepseek-chat \ -i sympy__sympy-20590

2. SWE-agent

暂无

3. Live-SWE-agent

暂无

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/1 4:09:03

Qwen3-ASR-0.6B实战:一键将音频转文字,隐私安全无忧

Qwen3-ASR-0.6B实战:一键将音频转文字,隐私安全无忧 你是否遇到过这些场景: 会议录音堆在文件夹里迟迟没整理,灵感闪现时语音备忘录听不清,采访素材要花半天手动打字,又或者——你根本不敢把客户会议、内部…

作者头像 李华
网站建设 2026/5/1 6:17:28

基于Flink CDC的企业级日志实时入湖入流解决方案

作者:徐榜江(雪尽) —— 阿里云Flink数据通团队负责人,Flink PMC成员,Flink CDC开源项目负责人李昊哲(米灵) —— 阿里云Flink高级产品经理,负责阿里云Flink稳定性、可观测性、数据摄入等企业级产品特性摘要本文主要介绍阿里云基于…

作者头像 李华
网站建设 2026/4/30 20:43:53

使用 Depth Anything V2 进行单目深度估计

原文:towardsdatascience.com/monocular-depth-estimation-with-depth-anything-v2-54b6775abc9f?sourcecollection_archive---------4-----------------------#2024-07-24 神经网络是如何从二维图像中学习估计深度的? https://medium.com/neural.avb?…

作者头像 李华
网站建设 2026/5/1 5:04:30

什么是住宅代理IP?

什么是住宅代理IP? 住宅代理IP是一种特殊类型的代理服务,采用的IP地址为居民住宅网络IP地址。这种特殊类型的代理服务可以模拟真实用户的上网行为和位置信息,从而更好地保护用户的隐私,并且比其他类型的代理服务更难被网站或应用…

作者头像 李华
网站建设 2026/4/28 20:45:30

Ps:清晰度和去除薄雾

清晰度和去除薄雾 Clarity and Dehaze是 Photoshop 中源自 Camera Raw 的核心影像结构调整算法,在 Ps 里以调整图层的形式出现,使用户能够在不破坏原图的前提下,对画面结构对比和空气感进行精确控制。Ps菜单:图层 / 新建调整图层 …

作者头像 李华