[166] この他にファイルの内容にも当然のことながら文字コードに依存したデータ (= テキストファイル) が含まれる可能性はありますが、 ZIPファイルには (少なくても標準的には) ファイルの内容の文字コードを記述する方法 (MIME の Content-Type charset に相当するもの) がありません。「ZIPファイルの処理」の範疇では、 ZIPファイルに含まれるファイルの内容はバイト列として扱われるだけであり、その文字コードが問題となることはありません。

[167] ZIP には「ZIPファイル全体の文字コード」のような概念はありません。

[168] 格納される各ファイルにファイル名があり、それは何らかの文字コードで記述されています。

[169] 注釈や合言葉も文字コードが関係してきますが、あまり問題とされることは少ないようで、ファイル名が ZIPファイルにおける文字コードの主要な問題領域となっています。

[299] 合言葉は AES 暗号化方式と ZipCrypto の2種類の暗号化方式に関係しますが、前者では UTF-8 固定であるのに対し、後者は実装依存であり、現実的に考えてファイル名と同じ文字コードが使われていると考えられます。従ってファイル名の文字コードが判定できれば、それを使って合言葉の試行ができます。

変遷の概略

[170] ZIP は元々米国で DOS 向けの製品として開発されました。そのため、現在の ZIP 仕様書にも

D.1 The ZIP format has historically supported only the original IBM PC character encoding set, commonly referred to as IBM Code Page 437. This limits storing file name characters to only those within the original MS-DOS range of values and does not properly support file names in other character encodings, or languages.

と説明されています >>159。つまり CP437 が ZIP の本来の文字コードであるとされます。 CP437 は米国市場等の MS-DOS で使われていたコードページです。

[53] 程なくして ZIP は米国以外の諸国の DOS でも使われるようになりました。米国版もその他の版も、おそらく文字コードの変換は一切なく、プラットフォームのファイル名をそのまま格納したり、逆にそのままZIPファイルから展開したりしていたと推測されます。そのため各国で自国の MS-DOS の採用するOEMコードページをファイル名とする ZIPファイルが流通することになりました。

[54] 例えば日本の DOS 系プラットフォームでは CP932 が使われてきました。

[171] Windows の時代になると、 Windows が採用する ANSIコードページがファイル名に使われるようにもなりました。しかし MS-DOS との互換性のため、 OEMコードページも使われ続けました。

[172] 更に時代が進むと、 UTF-8 がファイル名に使われるようにもなりました。

[55] 時代の変化を踏まえて ZIP の公式仕様にも変更がありました。 general purpose bit 11 を使って UTF-8 を使うことが明示できるようになりました。

[159] 2022-11-01T17:34:41.000Z, 2025-05-25T04:36:39.159Z https://pkware.cachefly.net/webdocs/casestudies/APPNOTE.TXT#:~:text=APPENDIX%20D%20-%20Language%20Encoding

データ構造

[173] ZIPファイルには、格納するファイルごとにファイル名その他の情報を記述できます。

general purpose bit 11

[174] general purpose bit 11 (0x0800) は、ファイル名等が UTF-8 で符号化されているかどうかを表します。

[175] 11 が設定されていないときは、ファイル名と注釈は、 original ZIP character encoding (>>170) に適合するべきです。 >>159

[179] 仕様書の文面そのままの厳密な読みでは CP437 を要求するものと理解されますが、現実的には flag 11 仕様導入以前の各種の従来の文字コードへの対応が求められると見なさざるを得ません。

[176] 11 が設定されているときは、ファイル名と注釈は、 UTF-8 storage specification によって定義された文字符号化形を使い The Unicode Standard 4.1.0 以上に対応しなければなりません。 >>159

[182] このビットのことを便宜上 UTF-8フラグ (flag) と呼ぶことがあります。

[177] ZIPファイル内の UTF-8 で符号化されたデータは、 BOM を含まないことが期待されます。 >>159

[178] なぜか主語が大きいですが、文脈上 UTF-8フラグが設定された場合に限定される規定と思われます。

[181] BOM ではないということは、 ZWNBSP と解釈されることになります。

[190] general purpose bit 11 は、ファイルの内容や合言葉の符号化を暗示 (imply) するものではありません。 >>159

[298] とはいえ現実には ZipCrypto 合言葉はファイル名と同じ文字コードで作成されている可能性が高いと考えられます。

[180] エラー処理などは規定がなく不正な UTF-8 をどう扱うべきか不明です。

[58] 現在では UTF-8フラグを利用して出力する実装が多くなってきており、 ZIP を使うファイル形式等でこれの利用を要求する技術仕様もあります。

[183] しかし現在でもすべての実装が UTF-8 で出力するわけではなく、 UTF-8 で出力する実装のすべてが UTF-8フラグを設定するわけでもありません。 UTF-8 の出力に対応していても、 UTF-8 や UTF-8フラグを既定で設定しない実装もあるようです。

[184] 現在では多くの実装が UTF-8 の復号や UTF-8フラグの理解に対応しているようです。しかしすべての実装が正しく取り扱えるかどうかは不安があります。

[157] XユーザーのBinary numberさん: 「えー zip圧縮についてなんですがぁ... 調査の結果 Macが圧縮時にエンコードをUTF-8にしてるにもかかわらず、General purpose bit 11にフラグを立てずに圧縮するのが悪いってことがわかりました()」 / X, 午前11:28 · 2024年12月12日, 2024-12-14T11:15:09.000Z https://x.com/_actbit/status/1867033742738591908

[158] 現代的ではなく相互運用性のため好ましくないのはその通りだが、歴史的経緯も何もかも無視してこのように Mac vs Windows の対立構造に持ち込んで貶めるために使うのは倫理的でない。

Info-ZIP Unicode 欄

[192] Info-Zip Unicode 欄は、 general purpose bit 11 が好ましからざる (not desired) ときに使えます。具体的には古いプログラムとの後方互換性が求められるときが想定されているようです。 >>159

[193] Info-ZIP Unicode Comment Extra Field (0x6375) には UTF-8 版のファイル注釈 (file comment) を蓄積できます。 >>159

[194] その UnicodeCom 欄の値が、 entry comment の UTF-8 版であります。 BOM は使いません。 >>159

[196] Info-ZIP Unicode Path Extra Field (0x7075) には UTF-8 版のファイル名を蓄積できます、 >>159

[197] その UnicodeName 欄の値が、 entry File Name の UTF-8 版であります。 BOM は使いません。 >>159

[203] 明記はされていませんが、対応している実装は、 Info-ZIP Unicode 欄が存在する場合にそちらを採用し、通常のファイル名と注釈を無視することが期待されているようです。

[200] general purpose bit 11 と Info-ZIP Unicode 欄の2つの方法がありますが、使い分けについては次のような定めがあります。

[201] ZIPファイル生成時にどちらの方法によるかは、実装依存です。 >>159

[195] ファイル名と注釈の両方が UTF-8 のときは General Purpose Bit 11 (language encoding flag (EFS)) を設定することができるので、そちらを使うべきであり、 Info-ZIP Unicode Path extra field と Info-ZIP Unicode Comment extra field は使うべきではありません。 >>159

[198] ただ後方互換性のため、 general purpose bit 11 はZIPファイルに含めるファイルの path や comment の native character set が既に UTF-8 の場合に限って使うべきです。 >>159

[199] general purpose bit 11 によるか、 Info-ZIP Unicode extra field を使うかは、 Local Directory Header と Central Directory Header とで同じとすることが期待されます。 >>159

[202] 開発者は、ZIPファイルがどちらの方法も想定し、どちらも読み取れるようにするべきです。 >>159

[204] 実際に各種の実装がどれくらいこれらを生成するのかは不明です。実装例がないことはないようですが (それこそ Info-ZIP が実装しているのでそれなりの利用が想定されます)、よく使われているということでもなさそうです。

[205] 実際にどれくらい読み取りに対応されているのかも未知数です。

[206] 現在となっては UTF-8フラグに対応していないのに Info-ZIP Unicode 欄には対応している実装は残っていないでしょうし、 UTF-8 ファイル名を含めたいのに UTF-8 に対応していない実装も考慮したいという状況もあまりないでしょうから、 Info-ZIP Unicode 欄はあまり使うべきではないと思われます。

[265] >>263 は Info-ZIP Unicode Path Extra Field (0x7075) の読み取りにも対応しているようです。

Extended language encoding data

[185] 0x0008 Extra Field というものがあり、 Reserved for extended language encoding data (PFS) と説明されています。 >>159

[186] 応用は、 0x0008 Extra Field を使って file name storage を補足 (supplement) できるとされます。しかしこれは optional field であり、その保存形式は現在未定義とされます。 >>159

[187] 0x0008 Extra Field は、 general purpose bit 11 が設定されている場合でも、設定されていない場合でも使えます。 >>159

[191] ファイルの内容や合言葉の符号化は、 general purpose bit 11 が影響するものではなく、 0x0008 Extended Language Encoding Extra Field に蓄積しなければなりません。 >>159

[188] source or target encoding についての extended information を蓄積するものであって、応用がファイル名やファイルの内容の符号化の task を更に補助するようなものが想定されます。具体例として Java modified-UTF-8 であるか否か、 UTF-8-MAC であるか否かのような情報の格納に使えます。また、文字符号化 (コードページ) の指示 (designation) も指定できます。これを使って CP437 や UTF-8 と違う符号化を ZIPファイル内で使えます。 >>159

[189] つまり「何かもっと詳しい情報を書ける」ということだけが決まっていて、具体的なものは何もありません。読み書きとも無視するのが妥当と考えられます。

Xceed Unicode extra field

[214] Xceed なる実装が Xceed Unicode extra field (0x554E) を使っています。 >>211, >>213

[215] ファイル名と注釈を格納できます >>211, >>213。どちらも UTF-16LE で BOM なしです。

[216] >>213 に当該実装で生成した ZIPファイルの実例があります。

[210] 実際にどの程度使われているか不明です。 >>213 はメタ情報を表示するだけのソフトウェアですが、それと本家 Xceed 以外に対応している実装も知られていません。

ZipArchive Library Extra Field

[208] ZipArchive なる実装が ZipArchive Library Extra Field (0x5A4C) を定めています。 >>207

[209] ファイル名のコードページ、ファイル名、注釈のコードページを記述できるとしています。 >>207

[210] 実際にどの程度使われているか不明です。これらが利用されたファイルも見つけることができません。このソフトウェア自体の配布ファイルでも使われていません。

[207] ZipArchive: Unicode Support: Using Non-English Characters in Filenames, Comments and Passwords, 2025-05-25T06:18:44.000Z https://www.artpol-software.com/ZipArchive/KB/0610051525.aspx#customExtra

host OS, zip version

[67] ファイルが追加された OS や ZIP 仕様の版の情報があります。 PKZip の場合、追加したOSと版番号が入るようで、これを見て OEMコードページとANSIコードページを読み分ける実装があるようです (>>266 >>267)。

[88] ZIP を生成するソフトウェアが限られていて、その挙動がすべてわかりきっている場合ならこの方法でもうまくいくのでしょうが、実際に流通する ZIPファイルを見るにこの方法はあまり有効とは思えませんが、どうなのでしょう。

混合

[217] 文字コードの情報はファイルごとに格納されています。

[218] つまりファイルによって異なる文字コードが使われる可能性があります。

[219] 実際に UTF-8フラグ付きの UTF-8 のファイル名のファイルと、 UTF-8フラグなしの旧来の文字符号化のファイル名のファイルが同じ ZIPファイルに混在する事例がちらほらみられます。

[220] そうした事例の中には、ディレクトリーで非ASCII文字が使われていることもあります。 ZIP ではファイル名にディレクトリーも混在するので、バイト列として見たときに異なるのに、実際には文字列として等しいディレクトリーが含まれている場合があります。バイト列を正しく復号できれば単一のディレクトリーになりますが、誤って復号すると正しい名前と文字化けした名前の2つのディレクトリーに分裂することになります。

[221] 実際に流通しているかどうかは不明ですが、 UTF-8フラグなしで、異なる文字コードのファイル名のファイルが混在することも理論上はあり得ます。異なるプラットフォームで既存の ZIPファイルに新しいファイルを追加すると、特別な知識なしでも容易にそうしたファイルを作り得ます。ただそうしたZIPファイルはほぼ確実に文字化けして表示されることになりますし、そうした作り方で異なるプラットフォームを移動しながらファイルを追加していくという状況はあまりなさそうですから、そのようなZIPファイルが流通し続けることは稀かもしれません。

[222] こうした文字コードの混在と同名だったり同名でなかったりするファイル名の取り扱いは、セキュリティー上の問題を引き起こすこともありますし、そうでなくても不具合の温床となりますから、実装者は注意が必要です。

ファイル名の文字コード決定

[13] ZIPファイルのファイル名では UTF-8 が使われる場合が多くなっているものの、 UTF-8 以外の ZIPファイルも過去に作成され大量に蓄積されていますし、現在でも依然として生産され続けている実情があります。

[59] 後方互換性のため、実装は、

の読み込みに対応する必要があります。

[223] UTF-8フラグ以外のファイル名の文字コードに関係する各種メタ情報は、無視して構わないと思われます。

[224] UTF-8フラグがない場合、どの文字コードが使われているかは ZIPファイル内に明記されないため、何らかの手段で決定しなければなりません。

[56] 一般にバイト列の文字コードの決定方法は何通りかありますが文字コードの判定、 ZIPファイルのファイル名の場合に当てはめると次のものがあります。

[57] 決め打ち
- [63] UTF-8 固定、その他の特定の文字コード固定など
- [64] 特定目的専用の実装ならこれで十分なこともあります。
- [65] 汎用的な展開プログラムやプログラム組み込み用のライブラリーなどでは不適切です。
[226] プラットフォームの文字コードに固定
- [227] OEMコードページ固定、ANSIコードページ固定
  - [229] Windows 用の実装が採用していることが多いです。
- [228] POSIXロケールに相当するコードページを求めてそれに固定
  - [230] Linux 等の実装が採用していることがあります。
[231] 実行時のオプションで文字コードを指定
- [232] CLI プログラムやプログラム組み込み用のライブラリーなどが採用していることがあります。
[233] ファイル名のバイト列から推定
[234] ZIPファイルの入手元の情報を利用して推定
- [235] URL の TLD
- [237] 応答ヘッダーの Content-Language
- [236] 配布ページの lang=""

[238] 使われ方がある程度決まったソフトウェアなら利用環境などの事前知識を使うことができますが、どんな入力があるかわからない汎用のソフトウェアは推定手法を組み合わせることになります。

[239] バイト列や URL を使った推定手法は HTML などで用いられており、参考にできます。ただし、

[240] Web とは文字コードの傾向が異なる。 Web ではまず使われない OEMコードページが ZIP ではむしろ主体。
[241] ファイル名は短いことが非常に多く、しかも非ASCII文字は更にその一部分でしかないことが多い。正確な判定の材料が少ない。
[242] 必ず URL が伴う Web と違って ZIP はファイル単体で流通することが多い。

といった ZIP 固有の事情があるので、 Web 用そのままでは必ずしも有効な実装になりません。

[225] 文字コードの決定は、厳密にはファイルごとに行うべきですが、ファイル名は短いことが多く文字コードの判定が難しい場合があること、ファイルごとにファイル名の文字コードが異なる場合は無視していいと思われること (>>221) から、単独ではなく組み合わせにより行うことで精度を高められると考えられます。

[243] UTF-8 との混在 (>>220) がある場合、 UTF-8 でない文字コードの復号の結果と文字の分布が近い (ディレクトリーが該当する場合は部分一致する) 可能性があり、このことを推定の材料にできるかもしれません。

ファイル名に出現し得る文字コード

[244] UTF-8フラグがないファイル名で使われる文字コードの全体像は不明です。これまでに大規模な調査などは行われたことが無さそうですし、実行環境等に依存しない汎用的な実装をどのように作るべきかという議論もほとんど見られませんから、手がかりが多くありません。

[245] 実例 (>>69) がある文字コードの他に、実装例が知られている文字コードがいくつかあり、それ以外に言及がある文字コードもいくつかあります。こうした情報をヒントにできそうです。ただしZIPファイルは公開 Web でやり取りされないものも大量に存在すると考えられますから、 Web 上で実例が見つけられるものだけに限定して考察するのは危険と思われます。

ZIPのファイル名のコードページ

[246] OEMコードページはすべて使われる(た)と想定するのが良いかもしれませんが、歴史的にあまり使われなかったらしいOEMコードページもあるので、それらは ZIP でも使われなかった可能性があります。

[247] ANSIコードページはすべて使われる(た)と想定するのが良いかもしれませんが、 OEMコードページがもっぱら使われANSIコードページは使われなかったものもあるかもしれません。

[250] 従って、一応主要なコードページはすべて ZIPファイルで出現し得るものとして対応するべきと考えられます。具体的な一覧と、主に使われた国や言語との対応関係については、コードページの項にある一覧表を参照。

[90] 実装に明示的に実装されながら、実ファイルは未発見のもの: CP720 CP855 CP857 CP858 CP860 CP861 CP862 CP863 CP864 CP869

[266] >>263 によると PKZip for Windows 2.5, 2.6, 4.0 は central directory header で OEMコードページを使い、 local directory header でANSIコードページを使うようです。それに対処するための分岐とテストコードがあります。

[267] >>263 によると PKZip version 5 以上は OEMコードページを使うようです。それに対処するための分岐とテストコードがあります。

[268] PKZip という公式実装が使っている OS と ZIP の版の情報を OEMコードページとANSIコードページのどちらかの判定に使っているわけです。ただ公式実装以外がこれらをどう使っているかは怪しいところではありますし、実際の Web 上のファイルを見るにこの判定条件で正確に対処できるのかは疑わしいように思われます。ある程度のヒントには使えるのかもしれません。

[263] Merge into ubuntu/devel : fix-code-pages : lp:~mitya57/ubuntu/+source/unzip : Git : Code : unzip package : Ubuntu, 2025-05-25T14:30:02.000Z https://code.launchpad.net/~mitya57/ubuntu/+source/unzip/+git/unzip/+merge/466860

ZIPファイル名のその他の文字コード

[248] DOS や Windows で主に使われた文字コードの他に、 Unix で主に使われた文字コードや Mac の文字コードが言及されることもあります。ただ、歴史的に ZIPファイルは主に DOS 系の環境で使われてきたもので、それ以外の環境では主に DOS 系の環境との互換性を意識して ZIPファイルを使うことが多かったと推測されますから、 Unix や Mac の文字コードを使った ZIPファイルの流通量はそれほど多くない(なかった)と思われます。

[249] 近年では ZIPファイルが書庫ファイルの事実上の標準となってどの環境でも普及していますが、 UTF-8 を使うか、当該地域の Windows 上の主要な実装と同じコードページを採用するのが普通と思われます。

[145] >>81 は

Convert filenames inside ZIP archives from autodetected older Russian encodings (koi8-r, koi8-u, cp866, windows-1251) to UTF-8.

と説明しており、キリル文字を使う KOI8-R, KOI8-U, CP866, Windows-1251, UTF-8 についてキリル文字の出現頻度の情報から自動判定します。

[254] キリル文字圏では KOI8 シリーズがかなり使われていましたが、 ZIPファイルでの実態はよくわかりません。現在のところ利用事例は確認されていません。実利用事例の大多数は CP866 です。

[252] >>78 ではシフトJIS、日本語EUC、ISO-2022-JP、UTF-8 から自動判別する実装が紹介されています。また、シフトJISや日本語EUCのテストファイルも掲載しています。しかし ISO-2022-JP は生成する実装があるのか不明としています。

[255] >>78 で掲載されている日本語EUCのファイルはテスト用に製作されたものです。容易にそれを製作できる環境はあったようですが、さて、そのようなものがどれだけ使われていたのかは不明です。

[253] ISO-2022-JP はおそらく日本語用の主要な文字コードの1つだからと対象に含められただけで、 ZIPファイルの利用事例があって実装されたわけではなさそうです。

[89] 【2025年】zip圧縮・展開(解凍) おすすめソフト12選まとめ+解説、文字化けよさらば!【Win・Mac】 #Windows - Qiita, 2025-07-01T05:46:06.000Z https://qiita.com/ko1nksm/items/b1e320f418614372c43e

zip ファイルに関しても、macOS は Shift JIS に対応しています。ただし Windows 拡張版の CP932 ではなく、Mac OS 拡張版の MacJapaneseです。つまり古い Mac OS で作成した zip ファイルを展開できるようになっています。zip ファイルの中のファイル名の文字コードは国によって様々な文字コードが使われてきました。様々な文字コードが使われる状況では文字化けしやすいのは当然です。現在では Windows も macOS も Unicode を使っているわけで、あなたに Shift JIS を使う理由がないのであれば、zip ファイルの中のファイル名にも Unicode (UTF-8) を使いましょう。

[141] なお、 >>89 は ZIP のプロファイルの1つである ISO/IEC 21320-1:2015 を「ISO/IEC の zip の標準規格」という誇大な説明によって自説の補強に用いています。まあ ZIP のプロファイルは一種の ZIP の標準と言えなくもないのですが、 ZIP の主要な技術仕様は他の文書を参照しているだけで、直接的にはそれに対する追加の制約部分のみしか含まれないのですから、誤解を招くだけであり、健全な説明とはいえません。当該主張それ自体には問題がないのに、無理な論拠を提示することによって優良性の誤認を誘発し、自ら有用性を毀損している残念な例です。

[142] >>89

Windows 標準の zip 機能は、正しい UTF-8 ファイル名(UTF-8 フラグが設定、または Unicode パス拡張フィールドの設定)であれば問題なく展開できたのですが、macOS 標準機能で作成した zip ファイルは、正しい UTF-8 ファイル名ではないので文字化けしてしまいます。他のソフトで文字化けしないのは、おそらく別の情報を参照しており、zip ファイルの情報に作成 OS が「Unix」と記録されていれば UTF-8 だろうと推測しているようです。

[143] 「他のソフト」の挙動が本当に検証したものなのか、筆者の推測なのか、これだけではよくわからない。

[257] >>251 >>256 は次のものの読み込みに対応しています。

Major non-UTF8 encodings by languages:
Korean: cp949, euc-kr
Japanese: sjis (shift_jis), cp932, euc-jp
Chinese: gbk, gb18030, gb2312, cp936, hkscs, big5, cp950

[258] テストデータとしてテスト用に作成されたと思われる ZIP ファイルがありますが、 cp949 のものと sjis のもののみで、それ以外は有名な符号化に対応しただけかもしれません。

ファイル名文字コードの自動判定

[269] ZIPファイルのファイル名の文字コードの判定は、一般の文字コードの判定問題に加えて ZIPファイル特有の事情にも配慮が必要です (>>239)。

[270] 一般の文字コードの判定問題も完全に正確に回答を得ることは不可能で、各種実装をみてもどれも一長一短で完璧なものはありません。文字コードの判定ファイル名は短い文字列なので、難度は更に高まります。

[271] 従ってURLやロケールなどの補助的情報があれば、それを組み合わせて候補を絞り込むことが重要になってきます。

[272] 誤判定を予期して、実行時オプション等の形で手動で上書きする仕組みを併用することも重要です。

[76] 実装事例等:

[303] ZIP Mojibake Fixer, 2021-04-12T14:28:40.000Z, 2025-11-22T14:11:46.084Z https://ianharmon.github.io/mojibake-fixer/
- [304] シフトJISとみなして変換する実装

実ファイル例

[69] 各種文字コードのファイル名の入ったZIPファイル:

文字表現の制約

[68] 同じ UTF-8 でも Windows などでは NFC 系の正規化に近い状態が一般的で (ただし必ずしも正規化されるわけではない)、 Mac では NFD 系の正規化が適用されている状態 ( HFS+のNFD ) が標準的です。これはZIPファイルのファイル名に限ったものではなく、ファイル名の扱い全般に関するプラットフォームの挙動の差異なのですが、どのプラットフォームでZIPファイルを作成するかによってプラットフォームの違いが ZIPファイルにそのまま持ち込まれることになります。

[274] ZIPファイルの仕様としてはどうするのが良いとは特に決まっていません。つまり、どの挙動が正しい、間違いといえるものではありません。

[273] ZIPファイルの文字コードを扱う実装や解説などの中には、 Mac の挙動を UTF-8-MAC などと称するものがあります (ZIPファイルに限らず、この話題でしばしば使われる通称です)。

[275] 中には Mac の挙動が不適切であるかのように扱うものもあります >>140 が、 Mac がおかしなことをしているわけではありません。現実に不都合が生じるかもしれませんが、それは Mac が悪いのではなく、 Unicode と ZIP の仕様に由来する不便です。

[276] ZIPファイルから取り出したファイルのプラットフォームのファイルシステム上のファイル名をどのように決めるかは、 ZIPファイル内のファイル名とファイルシステムの制約を勘案しつつ決めなければなりません。ファイルシステムの必須の制約を満たすことは不可避の条件となりますが、必須条件でないプラットフォームの慣習とZIPファイルの格納値の折り合いをどうつけるかは、設計方針の問題となります。

[277] 例えば文字 C を使えないファイルシステムにファイルを保存するときは、エラーにするか、他の文字に置き換えるか、利用者に尋ねるか、といった何らかの操作が必要になります。

[278] 例えば文字 C を保存できるファイルシステムで、プラットフォームの慣習上 C は D と表現するのが適切な (利用者が新規で作成したとするなら D と表現される) 環境でファイルを保存するときは、 C のままにするか、 D に置き換えるか決めることになります。

[279] D の方が利用者が扱いやすいかもしれませんが、 C のままにしておかなければファイル名による相互参照が崩れるリスクがあります。

[140] GitHub - tats-u/zifu: ZIPファイルのファイル名のエンコーディングをUTF-8に直すツール / Tool that fixes file names in ZIP archives (make them UTF-8), 2025-05-24T13:54:26.000Z https://github.com/tats-u/zifu

HFS

実装

[264] Unable to open some CD-ROM disk images containing HFS partitions · Issue #15 · unsound/hfsexplorer, 2025-10-24T15:46:25.000Z https://github.com/unsound/hfsexplorer/issues/15

實例

[280] MacJapanese
- [281] CD-ROM MACLIFE 77 - KanjiTalk 7.5 (1995-01) : BNN (Bug News Network) : Free Download, Borrow, and Streaming : Internet Archive, 2025-10-24T15:47:40.000Z https://archive.org/details/maclife-kanjitalk-75
- [282] INFO-MAC MAY 1993 (Japanese) : Pacific HiTech : Free Download, Borrow, and Streaming : Internet Archive, 2025-10-24T15:48:06.000Z https://archive.org/details/info-mac-may-1993-japanese

ファイル名の文字コード

文字コード

文字の制限

大文字と小文字

正規化

プラットフォームとファイルシステムの事情

MIME ファイル名

ZIP ファイル