如何从HuggingFace/Google Storage上下载文件

如何从HuggingFace/Google Storage上下载文件

如何从HuggingFace上下载文件

首先要在 git 中设置代理,你可以使用以下配置选项:

git config --global http.proxy <username>:<password>@<proxy_address>
git config --global https.proxy <username>:<password>@<proxy_address>

<proxy_address> 替换为你的代理服务器地址。

如果你的代理服务器需要认证,你还需要提供用户名和密码

以本地HTTP代理服务器为例:

git config –global http.proxy http://127.0.0.1:8080 git config –global https.proxy http://127.0.0.1:8080

接下来使用 git 命令行工具克隆文件:

  1. 打开终端或命令行界面。
  2. 使用 cd 命令导航到你想要保存文件的目录。
  3. 执行以下命令:
git clone <repository_url>

<repository_url> 替换为你想要克隆的 HuggingFace 仓库的 URL。例如,如果你想要克隆一个模型,你可以找到该模型在 Hugging Face 上的页面,然后复制页面上的仓库 URL。

以whisper项目为例:

git clone https://huggingface.co/openai/whisper-large-v3

如何从Google Storage上下载文件

配置身份验证凭据

  1. 访问Google Cloud 控制台
  2. 打开你的项目。
  3. 导航到 “IAM 和管理员” > “服务帐号” 页面。
  4. 在列表中找到相应的服务帐号,或者创建一个新的服务帐号。
  5. 点击 “生成密钥” 按钮,选择要生成的密钥类型(JSON 或者 P12),然后点击 “创建”。
  6. 下载生成的密钥文件,并确保安全保存。
  7. 设置环境变量 GOOGLE_APPLICATION_CREDENTIALS,指向你的密钥文件的路径。在 Linux 或 macOS 系统中,可以通过以下方式设置环境变量:
export GOOGLE_APPLICATION_CREDENTIALS="/path/to/your/keyfile.json"

在 Windows 中,可以通过以下方式设置环境变量:

set GOOGLE_APPLICATION_CREDENTIALS="C:\path\to\your\keyfile.json"

安装google-cloud-storage

pip install google-cloud-storage

设置代理服务器

确保在设置HTTP_PROXY和HTTPS_PROXY环境变量后,运行你的 Python 脚本。

export HTTP_PROXY=http://127.0.0.1:8080
export HTTPS_PROXY=http://127.0.0.1:8080
python main.py

编写下载Python脚本

from google.cloud import storage

def download_blob(bucket_name, source_blob_name, destination_file_name):
    """Downloads a blob from the bucket."""
    storage_client = storage.Client()
    bucket = storage_client.bucket(bucket_name)
    blob = bucket.blob(source_blob_name)

    blob.download_to_filename(destination_file_name)

bucket_name = "public-datasets-eumetsat-solar-forecasting"
source_blob_name = "satellite/EUMETSAT/SEVIRI_RSS/v3/eumetsat_seviri_hrv_uk.zarr"
destination_file_name = "你要保存的路径"

download_blob(bucket_name, source_blob_name, destination_file_name)

这样设置后,google-cloud-storage 库就可以使用你的身份验证凭据进行身份验证,并且你应该能够成功下载 Google Cloud Storage 中的文件了。

其他

  • 什么是HTTP_PROXY和HTTPS_PROXY?

    HTTP_PROXY 和 HTTPS_PROXY 是用于设置 HTTP 和 HTTPS 请求代理的环境变量。

    HTTP_PROXY: 这个环境变量用于指定 HTTP 请求使用的代理服务器地址和端口。当你发送 HTTP 请求时,系统会尝试使用指定的代理服务器来进行连接。

    HTTPS_PROXY: 类似于 HTTP_PROXY,但是专门用于指定 HTTPS 请求使用的代理服务器地址和端口。由于 HTTPS 请求需要进行加密传输,因此通常需要单独配置一个代理服务器。

    这两个环境变量通常用于在内部网络中或者需要通过特定代理服务器进行网络连接的环境中使用。当你需要在网络环境中通过代理服务器进行 HTTP 或者 HTTPS 请求时,你可以设置这两个环境变量来指定代理服务器的地址和端口,以便系统知道在发送请求时应该使用哪个代理服务器

  • 什么是代理服务器?

    代理服务器是位于网络中的一种中间服务器,它充当客户端和目标服务器之间的中介,代理服务器接收来自客户端的请求,并将其转发给目标服务器,然后将从目标服务器返回的响应传递回客户端。