【Google Colab】ファイルの扱い方完全ガイド|アップロード・Drive連携・保存まで

Google Colabでコードを書いていて「ファイルの読み込み方がわからない」と手が止まった経験はないだろうか。Colabは無料でT4 GPU(VRAM 16GB)が使える強力な環境だが、ファイルシステムの仕組みがローカルPCとは根本的に異なる。
この記事では、Colabのファイル操作を5つの方法で徹底解説する。直接アップロード、Googleドライブ連携、コマンドラインでの操作、外部ストレージ連携、そしてファイルのダウンロードまで、2026年最新のColab仕様に基づいて具体的なコード例とともに紹介する。
前提知識:Colabのファイルシステムの仕組み
最初に理解すべき最重要ポイントは、Colabのランタイムは一時的な仮想マシンだということだ。セッションが切断されると、/contentディレクトリにアップロードしたファイルやコードで生成したファイルはすべて消える。
ディスク容量と制限
- ディスク容量:約77〜100GB(総容量108GBのうちシステムが31GB使用)
- 単一ファイルのアップロード上限:2GB
- ディレクトリ内のファイル数制限:約10,000ファイルを超えるとマウント操作が失敗する場合がある
- セッション時間:無料版は最大12時間(アイドル90分でタイムアウト)
この「一時的」という性質が、Colabのファイル操作でつまずく最大の原因だ。永続的にファイルを保持したい場合は、Googleドライブとの連携が必須になる。
Google Colabの料金プラン比較【2026年版】
ファイル操作の前に、自分がどのプランを使っているかで利用可能なリソースが変わる。
- Free(無料):T4 GPU、RAM 12〜15GB、週15〜30GPU時間(混雑時は制限)、セッション最大12時間
- Pro(月額9.99ドル):T4/P100 GPU、RAM 32GB、コンピュートユニット制で週制限なし
- Pro+(月額49.99ドル):V100/A100 GPU優先、RAM 52GB、セッション最大24時間、高メモリ設定可
- Enterprise(カスタム料金):Vertex AI/Compute Engine連携、専用ランタイム、組織管理機能
無料プランでも基本的なファイル操作はすべて同じだ。GPU時間やRAMの差が影響するのは、大規模なモデル学習やデータ処理の場面に限られる。
方法1:ファイルを直接アップロードする
最もシンプルな方法で、少数のファイルをサッと使いたい時に便利だ。
GUIでのアップロード
左側のファイルパネル(フォルダアイコン)を開き、「アップロード」ボタンをクリックするか、ファイルをドラッグ&ドロップする。アップロードされたファイルは /content ディレクトリに配置される。
コードでのアップロード
google.colabモジュールの files.upload() 関数を使う方法もある。実行するとファイル選択ダイアログが表示され、選択したファイルがカレントディレクトリに保存される。戻り値は辞書型で、ファイル名をキー、バイトデータを値として取得できる。
注意点:直接アップロードしたファイルはセッション終了時に消える。重要なファイルは必ずGoogleドライブにもバックアップしておくこと。また、2GBを超えるファイルはこの方法ではアップロードできない。
方法2:Googleドライブをマウントする(最も実用的)
大量のファイルを扱う場合や、セッション間でデータを引き継ぎたい場合はGoogleドライブのマウントがベストだ。google.colabモジュールの drive.mount(‘/content/gdrive’) を実行すると、OAuth 2.0認証を経てドライブ全体が /content/gdrive/MyDrive にマウントされる。
マウントの最適化テクニック
- デフォルトではドライブ全体がマウントされるが、特定フォルダだけを使う場合はパスを指定してアクセスするとレスポンスが改善する
- ドライブのルートに10,000以上のファイルがあるとマウントが失敗する場合がある。フォルダ構造を整理しておくこと
- セッション終了前に drive.flush_and_unmount() を実行すると、書き込みキャッシュが確実にフラッシュされる
- Googleドライブの無料容量は15GB。それ以上のデータを扱う場合はGoogle One(月額250円〜)の検討が必要
方法3:Linuxコマンドでファイルを操作する
Colabのランタイムはubuntuベースのlinux環境なので、セルの先頭に「!」をつけることでシェルコマンドが使える。
よく使うコマンド
- !ls -la /content/ :カレントディレクトリのファイル一覧を表示
- !cp source.csv /content/gdrive/MyDrive/ :ファイルをドライブにコピー
- !wget [URL] :Webからファイルを直接ダウンロード
- !unzip archive.zip -d /content/data/ :ZIPファイルを展開
- !du -sh /content/* :各ディレクトリのサイズを確認
特にwgetコマンドは便利で、公開されているデータセットやモデルファイルをURLから直接Colabにダウンロードできる。大容量ファイルの場合、ローカルPCを経由するよりもwgetでColab→ドライブに保存する方が圧倒的に速い。
方法4:外部ストレージ・データソースとの連携
Kaggleデータセット
Kaggle APIを使えば、Kaggle上の公開データセットをコマンド一つでColabにダウンロードできる。kaggle.jsonの認証ファイルをアップロードし、!kaggle datasets download コマンドを実行するだけだ。
Hugging Faceモデル・データセット
transformersライブラリやdatasetsライブラリを使えば、Hugging Face Hub上のモデルやデータセットを直接ロードできる。大規模モデルの場合はドライブにキャッシュを保存する設定にしておくと、再接続時のダウンロード時間を節約できる。
Google Cloud Storage(GCS)
大規模データを扱うプロジェクトではGCSとの連携が有効だ。gcloudコマンドラインツールを使い、バケットからファイルをコピーする。Colab EnterpriseプランならVertex AIとのネイティブ連携も可能だ。
方法5:ファイルのダウンロード(Colabから外部へ)
Colabで生成したファイルをローカルPCに保存するには、google.colabモジュールの files.download(‘filename’) を使う。実行するとブラウザのダウンロードが自動的に開始される。
複数ファイルを一括ダウンロードしたい場合は、まずZIPに圧縮してからダウンロードするのが効率的だ。!zip -r output.zip /content/results/ でフォルダごと圧縮し、files.download(‘output.zip’)で一括取得できる。
2025年の新機能:Gemini AIとの統合
2025年、ColabはGemini 2.5 Flashを統合した「AI-First」な環境に大幅リニューアルされた。主な新機能は以下の通りだ。
- AIペアプログラミング:コードの自動生成、エラーの自動修正、diff形式での提案表示
- Data Science Agent(DSA):2025年3月に本格統合。自然言語の指示だけでデータ探索、分析、パターン発見を自律的に実行
- AIプロンプトセル:ノーコード/ローコードでのデータ変換、分析、可視化が可能に
- Geminiモデルへのアクセス:google.colab.aiライブラリで全ユーザーが無料でGemini/Gemmaモデルを利用可能
ファイル操作においても、AIに「このCSVファイルを読み込んで可視化して」と自然言語で指示するだけで、適切なコードが自動生成される。
よくあるトラブルと解決法
ドライブのマウントが失敗する
最も多い原因はドライブのルートディレクトリにファイルが多すぎること。10,000ファイル以上あるとタイムアウトする場合がある。対処法はドライブ内を整理してフォルダ構造を作ること。また、ブラウザのポップアップブロッカーがOAuth認証ウィンドウを遮断している場合もある。
セッション切断でファイルが消えた
Colabの最も悩ましい仕様だ。対策は3つ。第1に、重要な中間ファイルは定期的にGoogleドライブに保存するコードをセルに入れておく。第2に、モデルのチェックポイントをドライブに自動保存する設定を学習コードに組み込む。第3に、Pro+プランなら最大24時間のセッションが使えるため、長時間の学習には有効だ。
ファイルの読み込みでエンコーディングエラー
日本語を含むCSVファイルでよく発生する。pandasの read_csv() で encoding=’utf-8′ や encoding=’shift_jis’ を明示的に指定すること。それでも読めない場合は encoding=’cp932′ を試す。
Colab以外の無料クラウドノートブック比較
- Kaggle Notebooks:週30時間以上のGPU利用可。T4/P100 GPU対応。バックグラウンド実行でタブを閉じても学習が続く。データセットへの直接アクセスが強み
- AWS SageMaker Studio Lab:T4 GPU、RAM 16GB。月10時間のGPU利用枠。AWSアカウント不要で利用可能
- Lightning AI:毎日4時間GPU+8時間CPU。クレジットカード不要。PyTorch Lightning最適化
Colabの無料枠に不満があるなら、Kaggle Notebooksをサブとして併用するのが最もコスパが良い。
データ形式別:Colabでの読み込み方法
CSV / TSV
pandasの read_csv() が定番。日本語ファイルは encoding=’utf-8′ または ‘cp932′ を指定する。TSVなら sep=’\t’ を追加。大容量CSVの場合は chunksize パラメータで分割読み込みすると、メモリ不足を防げる。
画像ファイル(PNG / JPG)
PIL(Pillow)やOpenCVで読み込む。機械学習の画像データセットならtorchvision.datasets.ImageFolder やtf.keras.utils.image_dataset_from_directory が便利で、フォルダ構造からラベルを自動認識してくれる。
JSON / JSONL
pandasの read_json() で直接読み込める。JSONLファイル(1行1JSON)は lines=True を指定する。LLMのファインチューニング用データセットはJSONL形式が主流なので、この読み込み方法は覚えておきたい。
Excel(xlsx)
pandasの read_excel() を使用。openpyxlライブラリが必要なため、未インストールの場合は !pip install openpyxl を先に実行する。複数シートがある場合は sheet_name パラメータでシートを指定できる。
Q. Colabのランタイムが頻繁に切断されるのを防ぐには?
完全な防止策はないが、3つの対策がある。第1に、ブラウザのタブを閉じずにアクティブな状態を維持する。第2に、学習中はGoogleドライブへのチェックポイント保存を組み込む。第3に、Pro+プランにアップグレードすれば、セッション最大24時間かつ優先接続が得られる。
Q. ColabでPythonのバージョンは選べるか?
2025年5月以降、ColabのデフォルトランタイムはPython 3.12を使用する。バージョンを変更したい場合は、condaやpyenvを使って仮想環境を構築する方法があるが、セッション終了で設定が消えるため、セットアップスクリプトをセルにまとめておくのが実用的だ。
よくある質問(FAQ)
Q. Colabで2GB以上のファイルを扱うには?
直接アップロードは2GBが上限だが、Googleドライブ経由なら制限はドライブの容量に依存する。wgetコマンドでWebからダウンロードする方法なら、ファイルサイズの制限はColabのディスク容量(約77〜100GB)まで。
Q. セッションが切れてもファイルを残す方法は?
Googleドライブにマウントして作業するのが最も確実だ。コードの最初にドライブをマウントし、すべての出力先をドライブ上のパスに設定する。モデル学習なら、エポックごとにチェックポイントをドライブに保存するコードを必ず入れておくこと。
Q. 無料版とPro版でファイル操作に違いはあるか?
ファイル操作自体に違いはない。差が出るのはセッション時間(無料12時間 vs Pro+24時間)とRAM(無料15GB vs Pro+ 52GB)だ。大容量のデータフレームをメモリに展開する場合はPro以上が必要になることがある。
Q. ColabからGitHubリポジトリを直接クローンできるか?
できる。セルで !git clone [リポジトリURL] を実行するだけだ。プライベートリポジトリの場合はPersonal Access Tokenを使って認証する。クローンしたファイルは /content 内に保存され、セッション終了で消えるため、変更があればpushしておくこと。
まとめ:Colabファイル操作の使い分け
Google Colabのファイル操作は、用途に応じて方法を使い分けるのがポイントだ。小さなファイルの一時利用なら直接アップロード、継続的な作業ならGoogleドライブマウント、大容量データならwgetやGCS連携、成果物の取得ならfiles.downloadと覚えておけば困らない。
2025年以降のGemini統合により、ファイル操作のコード自体をAIに生成させることも可能になった。「このCSVを読み込んでグラフにして」と指示するだけでコードが出てくる時代だ。ただし、セッション切断時のファイル消失という根本的な仕様は変わらないため、Googleドライブへの定期保存は引き続き必須のワークフローだ。





