単精度浮動小数点形式

単精度浮動小数点形式( FP32、float32、floatとも呼ばれる) は、コンピュータの数値形式で、通常はコンピュータのメモリ内で32 ビットを占め、浮動小数点基数を使用して幅広い動的な数値を表します。

浮動小数点変数は、精度を犠牲にして、同じビット幅の固定小数点変数よりも広い範囲の数値を表現できます。符号付き32ビット整数変数の最大値は2 ³¹ − 1 = 2,147,483,647ですが、IEEE 754 32ビット基数2の浮動小数点変数の最大値は(2 − 2 ⁻²³ ) × 2 ¹²⁷ ≈ 3.4028235 × 10 ³⁸です。小数点以下7桁のすべての整数、および整数-149 ≤ n ≤ 127の任意の2 ⁿは、IEEE 754単精度浮動小数点値に正確に変換できます。

IEEE 754規格では、32ビットの2進数形式は正式にはbinary32と呼ばれています。IEEE 754-1985ではsingleと呼ばれていました。IEEE 754では、64ビットの2進数倍精度や、最近では10進数表現など、追加の浮動小数点型が規定されています。

単精度および倍精度の浮動小数点データ型を提供した最初のプログラミング言語の一つはFortranでした。IEEE 754-1985が広く採用される以前は、浮動小数点データ型の表現と特性は、コンピュータメーカーやコンピュータモデル、そしてプログラミング言語設計者の決定に依存していました。例えば、GW-BASICの単精度データ型は、32ビットのMBF浮動小数点形式でした。

単精度は、FortranではREAL(4)またはREAL*4と呼ばれます。^[1]Common LispではSINGLE-FLOAT、^[2] PL/Iではp≤21のfloat binary(p) 、 DFP（IEEE 754 DFP）属性が適用されるかどうかに応じてpの最大値となるfloat decimal(p)、IEEE 754をサポートするC、C ++（Cにある場合）、C#、Javaではfloat、^[3]Haskell ^[4]とSwiftではfloat 、^[5]Object Pascal（Delphi）、Visual Basic、MATLABではSingleです。ただし、Python、Ruby、PHP、OCamlでのfloat、およびOctaveのバージョン3.2より前のバージョンでのsingleは、倍精度数を指します。PostScriptのほとんどの実装と一部の組み込みシステムでは、サポートされている精度は単精度のみです。

IEEE 754規格: バイナリ32

IEEE 754 標準では、binary32 は次のように規定されています。

符号ビット：1ビット
指数幅: 8ビット
仮数部の精度: 24ビット（23ビットは明示的に保存）

これにより、6桁から9桁の有効桁数が得られます。有効桁数が最大6桁の10進文字列をIEEE 754単精度形式に変換して通常の数値に変換し、その後同じ桁数の10進文字列に戻すと、最終結果は元の文字列と一致するはずです。IEEE 754単精度数値を有効桁数が少なくとも9桁の10進文字列に変換し、その後単精度表現に戻すと、最終結果は元の数値と一致するはずです。^[6]

符号ビットは数値の符号を決定します。これは仮数の符号にもなります。「1」は負数を表します。指数フィールドは0から255までの8ビットの符号なし整数で、バイアス形式です。127という値は実際の指数ゼロを表します。指数の範囲は-126から+127（したがって指数フィールドでは1から254）です。これは、バイアス指数値0（すべて0）と255（すべて1）が特別な数（非正規数、符号付きゼロ、無限大、およびNaN）のために予約されているためです。

正規数の真の仮数部には、2 進小数点の右側の 23 個の小数ビットと、値 1 を持つ暗黙の先頭ビット(2 進小数点の左側) が含まれます。非正規数とゼロ (最小の正の正規数よりも大きさが小さい浮動小数点数) は、バイアス指数値 0 で表され、暗黙の先頭ビットの値は 0 になります。したがって、仮数部の 23 個の小数ビットのみがメモリ形式に表示されますが、正規値の場合、全体の精度は 24 ビット (log ₁₀ (2 ²⁴ ) ≈ 7.225 の 10 進数に相当) です。非正規数では、最小の非ゼロ値に対して 1 ビットまで精度が低下します。

ビットは次のように配置されます。

与えられた符号、バイアス指数E（8ビットの符号なし整数）、および23ビットの小数部を持つ与えられた32ビットのバイナリ32データによって想定される実数値は、

(-1)^{b_{31}}\times 2^{(b_{30}b_{29}\dots b_{23})_{2}-127}\times (1.b_{22}b_{21}\dots b_{0})_{2}

、

結果は

{\text{value}}=(-1)^{\text{sign}}\times 2^{(E-127)}\times \left(1+\sum _{i=1}^{23}b_{23-i}2^{-i}\right).

この例では：

${\text{sign}}=b_{31}=0$ 、
$(-1)^{\text{sign}}=(-1)^{0}=+1\in \{-1,+1\}$ 、
$E=(b_{30}b_{29}\dots b_{23})_{2}=\sum _{i=0}^{7}b_{23+i}2^{+i}=124\in \{1,\ldots ,(2^{8}-1)-1\}=\{1,\ldots ,254\}$ 、
$2^{(E-127)}=2^{124-127}=2^{-3}\in \{2^{-126},\ldots ,2^{127}\}$ 、
$1.b_{22}b_{21}...b_{0}=1+\sum _{i=1}^{23}b_{23-i}2^{-i}=1+1\cdot 2^{-2}=1.25\in \{1,1+2^{-23},\ldots ,2-2^{-23}\}\subset [1;2-2^{-23}]\subset [1;2)$ 。

したがって：

${\text{value}}=(+1)\times 2^{-3}\times 1.25=+0.15625$ 。

注：

$1+2^{-23}\approx 1.000\,000\,119$ 、
$2-2^{-23}\approx 1.999\,999\,881$ 、
$2^{-126}\approx 1.175\,494\,35\times 10^{-38}$ 、
$2^{+127}\approx 1.701\,411\,83\times 10^{+38}$ 。

指数エンコード

単精度バイナリ浮動小数点指数は、ゼロオフセットが 127 であるオフセットバイナリ表現を使用してエンコードされます。これは、IEEE 754 標準では指数バイアスとも呼ばれます。

E _min = 01 _H −7F _H = −126
E _max = FE _H −7F _H = 127
指数バイアス= 7F _H = 127

したがって、オフセットバイナリ表現で定義された実際の指数を取得するには、格納された指数からオフセット 127 を減算する必要があります。

格納された指数 00 _Hおよび FF _Hは特別に解釈されます。

指数	分数 = 0	分数 ≠ 0	方程式
00 _H = 00000000 ₂	±ゼロ	非正規数	$(-1)^{\text{sign}}\times 2^{-126}\times 0.{\text{fraction}}$
01 _H , ..., FE _H = 00000001 ₂ , ..., 11111110 ₂	正常値		$(-1)^{\text{sign}}\times 2^{{\text{exponent}}-127}\times 1.{\text{fraction}}$
FF _H = 11111111 ₂	±無限大	NaN (静音、シグナリング)

最小の正の正規値はであり、最小の正の（非正規）値はです。 $2^{-126}\approx 1.18\times 10^{-38}$ $2^{-149}\approx 1.4\times 10^{-45}$

10進数を2進数に変換する32

一般に、実数をそれと同等の Binary32 形式に厳密に変換する (丸め動作を含む) 方法については、IEEE 754 標準自体を参照してください。

ここでは、次の概要を使用して、基数 10 の実数を IEEE 754 バイナリ 32 形式に変換する方法を示します。

12.375のような整数部と小数部を持つ実数を考えてみましょう。
整数部分を2進数に変換して正規化する
次に示す手法を使用して分数部分を変換します。
2つの結果を追加し、適切な最終変換を生成するように調整します。

小数部の変換： 12.375 の小数部である 0.375 を考えてみましょう。これを二進小数に変換するには、分数に 2 を掛け、整数部を取り、新しい分数に 2 を掛ける処理を、ゼロの小数部が見つかるまで、または IEEE 754 バイナリ 32 形式では小数部の桁数が 23 桁に達するまで繰り返します。

0.375\times 2=0.750=0+0.750\Rightarrow b_{-1}=0

整数部は2進小数点を表します。0.750に2を掛けて次に進みましょう。

0.750\times 2=1.500=1+0.500\Rightarrow b_{-2}=1

0.500\times 2=1.000=1+0.000\Rightarrow b_{-3}=1

、分数 = 0.011、終了

は2進法ではと正確に表せることがわかります。すべての小数が有限桁の2進法で表せるわけではありません。例えば、小数点0.1は2進法では正確に表すことはできず、近似値でしか表せません。したがって、 $(0.375)_{10}$ $(0.011)_{2}$

(12.375)_{10}=(12)_{10}+(0.375)_{10}=(1100)_{2}+(0.011)_{2}=(1100.011)_{2}

IEEE 754の2進32形式では実数値を形式（正規化数、非正規化数を参照）で表現する必要があるため、1100.011は3桁右にシフトされ、 $(1.x_{1}x_{2}...x_{23})_{2}\times 2^{e}$ $(1.100011)_{2}\times 2^{3}$

最終的に次のことがわかります。 $(12.375)_{10}=(1.100011)_{2}\times 2^{3}$

そこから次のことが推測されます。

指数は3です（したがって、バイアスされた形式では） $(127+3)_{10}=(130)_{10}=(1000\ 0010)_{2}$
分数は100011です（2進小数点の右側を見てください）

これらから、12.375 の 32 ビット IEEE 754 バイナリ 32 形式表現を形成できます。

(12.375)_{10}=(0\ 10000010\ 10001100000000000000000)_{2}=(41460000)_{16}

注: 68.123 を IEEE 754 バイナリ 32 形式に変換することを検討してください。上記の手順を使用すると、最後の 4 ビットが 1001 になるはずです。ただし、IEEE 754 形式のデフォルトの丸め動作により、最後の 4 ビットが 1010 になるが取得されます。 $({\text{42883EF9}})_{16}$ $({\text{42883EFA}})_{16}$

例 1:小数点 1 を考えてみましょう。次のことがわかります。 $(1)_{10}=(1.0)_{2}\times 2^{0}$

そこから次のことが推測されます。

指数は0である（したがって、バイアスされた形式では $(127+0)_{10}=(127)_{10}=(0111\ 1111)_{2}$
分数は0です（1.0の2進小数点の右側を見るとすべてです） $0=000...0$

これらから、実数 1 の 32 ビット IEEE 754 バイナリ 32 形式表現を形成できます。

(1)_{10}=(0\ 01111111\ 00000000000000000000000)_{2}=({\text{3F800000}})_{16}

例2:値0.25を考えてみましょう。次のことがわかります。 $(0.25)_{10}=(1.0)_{2}\times 2^{-2}$

そこから次のことが推測されます。

指数は−2である（バイアスされた形式では） $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
分数は 0 です (1.0 の 2 進小数点の右側を見るとすべて 0 です)

これらから、実数 0.25 の 32 ビット IEEE 754 バイナリ 32 形式表現を形成できます。

(0.25)_{10}=(0\ 01111101\ 00000000000000000000000)_{2}=({\text{3E800000}})_{16}

例3: 0.375という値を考えてみましょう。 $0.375={(0.011)_{2}}={(1.1)_{2}}\times 2^{-2}$

したがって、0.375 の表現を決定した後、上記のように進めることができます。 ${(1.1)_{2}}\times 2^{-2}$

指数は−2である（バイアスされた形式では） $(127+(-2))_{10}=(125)_{10}=(0111\ 1101)_{2}$
分数は1です（1.1の2進小数点の右側を見ると1です） $1=x_{1}$

これらから、実数 0.375 の 32 ビット IEEE 754 バイナリ 32 形式表現を形成できます。

(0.375)_{10}=(0\ 01111101\ 10000000000000000000000)_{2}=({\text{3EC00000}})_{16}

32進数を10進数に変換する

この例では、 binary32 値41C80000が 16 進数である場合は、まずそれを 2 進数に変換します。

{\text{41C8 0000}}_{16}=0100\ 0001\ 1100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}

次に、それを符号ビット、指数、仮数の 3 つの部分に分解します。

符号ビット： $0_{2}$
指数： $1000\ 0011_{2}=83_{16}=131_{10}$
仮数部： $100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}=480000_{16}$

次に、暗黙の24ビットを仮数部に加算します

仮数部： $\mathbf {1} 100\ 1000\ 0000\ 0000\ 0000\ 0000_{2}={\text{C80000}}_{16}$

127 を引いて指数値をデコードします。

生の指数： $83_{16}=131_{10}$
復号された指数： $131-127=4$

仮数部の24ビット（暗黙の24ビットを含む）のそれぞれ、ビット23からビット0は、1から始まり、各ビットが半分になる値を表します。次のように表されます

ビット23 = 1ビット22 = 0.5ビット21 = 0.25ビット20 = 0.125ビット19 = 0.0625ビット18 = 0.03125ビット17 = 0.015625。。ビット6 = 0.00000762939453125ビット5 = 0.000003814697265625ビット4 = 0.0000019073486328125ビット3 = 0.00000095367431640625ビット2 = 0.000000476837158203125ビット1 = 0.0000002384185791015625ビット0 = 0.00000011920928955078125

この例では、仮数部にビット 23、ビット 22、ビット 19 の 3 つのビットが設定されています。これらのビットによって表される値を加算することで、仮数をデコードできます。

デコードされた仮数部： $1+0.5+0.0625=1.5625={\text{C80000}}/2^{23}$

次に、底2を指数で乗算して、最終結果を取得します

1.5625\times 2^{4}=25

したがって

{\text{41C8 0000}}=25

これは次と同等です。

n=(-1)^{s}\times (1+m*2^{-23})\times 2^{x-127}

ここで、 $s$ は符号ビット、 $x$ は指数、 $m$ は仮数です

小数値の精度制限（1～16777216）

1から2までの小数：固定間隔2 ⁻²³（1+2 ⁻²³は1の次に大きい浮動小数点数）
2から4までの小数：固定間隔2 ⁻²²
4から8までの小数：固定間隔2 ⁻²¹
…
^{2 n}から 2 ⁿ⁺¹までの小数：固定区間 2 ⁿ⁻²³
…
^{2 22} =4194304から2 ²³ =8388608までの小数：固定間隔2 ⁻¹ =0.5
^{2 23} =8388608 から 2 ²⁴ =16777216までの小数: 固定間隔 2 ⁰ =1

整数値の精度制限

0から16777216までの整数を正確に表現できる（-16777216から0までの負の整数にも適用）
2 ²⁴ =16777216 から 2 ²⁵ =33554432 までの整数は 2 の倍数（偶数）に丸められます。
2 ²⁵から 2 ²⁶までの整数は4 の倍数に丸められます
…
^{2 n}から 2 ⁿ⁺¹までの整数は2 ⁿ⁻²³の倍数に丸められます。
…
2 ¹²⁷から 2 ^{128までの整数は 2}¹⁰⁴の倍数に丸められます
^{2 128}以上の整数は「無限大」に丸められます。

単精度の注目すべきケース

これらの例は、浮動小数点値のビット表現（16進数と2進数）で示されています。これには、符号、（バイアス付き）指数、および仮数部が含まれます

0 00000000 000000000000000000000001₂= 0000 0001₁₆= 2 ⁻¹²⁶ × 2 ⁻²³ = 2 ⁻¹⁴⁹ ≈ 1.4012984643 × 10 ⁻⁴⁵
（最小の正の非正規数）

0 00000000 111111111111111111111111₂= 007f ffff₁₆= 2 ⁻¹²⁶ × (1 − 2 ⁻²³ ) ≈ 1.1754942107 × 10 ⁻³⁸
(最大の非正規数)

0 00000001 000000000000000000000000₂= 0080 0000₁₆= 2 ⁻¹²⁶ ≈ 1.1754943508 × 10 ⁻³⁸
（最小の正の正規数）

0 11111110 11111111111111111111111₂= 7f7f ffff₁₆= 2 ¹²⁷ × (2 − 2 ⁻²³ ) ≈ 3.4028234664 × 10 ³⁸
(最大の正規数)

0 01111110 11111111111111111111111₂= 3f7f ffff₁₆= 1 − 2 ⁻²⁴ ≈ 0.999999940395355225
(1未満の最大の数)

0 01111111 000000000000000000000000₂= 3f80 0000₁₆= 1

0 01111111 000000000000000000000001₂= 3f80 0001₁₆= 1 + 2 ⁻²³ ≈ 1.00000011920928955
(1より大きい最小の数字)

1 10000000 000000000000000000000000₂= c000 0000₁₆= -2
0 000000000 00000000000000000000000₂= 0000 0000₁₆= 0
1 00000000 00000000000000000000000₂= 8000 0000₁₆= −0

0 11111111 00000000000000000000000₂= 7f80 0000₁₆= 無限大
1 11111111 0000000000000000000000000₂= ff80 0000₁₆= −無限大

0 01111101 01010101010101010101011₂= 3eaa aaab₁₆≈ 0.333333343267440796 ≈ 1/3
0 10000000 10010010000111111011011₂= 4049 0fdb₁₆≈ 3.14159274101257324 ≈ π (パイ)

x 11111111 1000000000000000000000001₂= ffc0 0001₁₆= qNaN (x86およびARMプロセッサの場合)
x 11111111 000000000000000000000001₂= ff80 0001₁₆= sNaN (x86およびARMプロセッサ)

デフォルトでは、1/3 は倍精度のように切り捨てではなく切り上げます。これは、仮数部のビット数が偶数であるためです。1/3 の丸め点を超えるビットは、最後の桁の単位1010...の 1/2 よりも大きい値です。

qNaNとsNaNのエンコーディングはIEEE 754では規定されておらず、プロセッサごとに実装が異なります。x86ファミリおよびARMファミリのプロセッサは、仮数フィールドの最上位ビットを使用してQuiet NaNを示します。PA -RISCプロセッサは、このビットを使用して Signaling NaNを示します。

最適化

浮動小数点形式の設計により、生のビットパターンの整数ビューから2を底とする対数の近似値を容易に生成できるため、さまざまな最適化が可能になります。整数演算とビットシフトにより、コンピュータグラフィックスで一般的に必要とされる逆平方根（高速逆平方根）の近似値を生成できます

参照

参考文献

^ “REAL声明”. scc.ustc.edu.cn . 2021年2月24日時点のオリジナルよりアーカイブ。 2013年2月28日閲覧。
^ 「CLHS: 型 SHORT-FLOAT、SINGLE-FLOAT、DOUBLE-FLOAT...」www.lispworks.com。
^ 「プリミティブデータ型」。Javaドキュメント。
^ 「6つの定義済み型とクラス」haskell.org . 2010年7月20日.
^ 「Float」。Apple開発者ドキュメント。
^ William Kahan (1997年10月1日). 「二進浮動小数点演算におけるIEEE標準754の現状に関する講義ノート」(PDF) . p. 4. 2012年2月8日時点のオリジナル(PDF)からのアーカイブ。

外部リンク

ライブ浮動小数点ビットパターンエディタ
オンライン計算機
単精度の IEEE 754 数値のオンラインコンバータ
IEEE 倍精度、単精度、半精度間の変換を行う C ソースコード

[1] “REAL声明”. scc.ustc.edu.cn . 2021年2月24日時点のオリジナルよりアーカイブ。 2013年2月28日閲覧。

[2] 「CLHS: 型 SHORT-FLOAT、SINGLE-FLOAT、DOUBLE-FLOAT...」www.lispworks.com。

[3] 「プリミティブデータ型」。Javaドキュメント。

[4] 「6つの定義済み型とクラス」haskell.org . 2010年7月20日.

[5] 「Float」。Apple開発者ドキュメント。

[whyieee-6] William Kahan (1997年10月1日). 「二進浮動小数点演算におけるIEEE標準754の現状に関する講義ノート」(PDF) . p. 4. 2012年2月8日時点のオリジナル(PDF)からのアーカイブ。

v t e データ型
解釈されない	ビットバイトトリットトライトワードビット配列
数値	任意精度またはbignum 複素数 10進数固定小数点ブロック浮動小数点浮動小数点精度を下げたミニ浮動小数点数半精度 bfloat16 単精度倍精度 4倍精度 8倍精度拡張精度倍精度整数符号付き間隔有理数
ポインタ	アドレス物理仮想参照
テキスト	文字文字列ヌル終端
複合	代数的データ型一般化された配列連想配列クラス従属等価性帰納的交差リストオブジェクトメタオブジェクトオプションタイプ製品レコードまたは構造改良セット結合タグ付き
その他	任意のタイプブール型下位型コレクション列挙型例外関数型不透明データ型再帰データ型セマフォストリーム強く型付けされた識別子型クラス空タイプユニットタイプ無効
関連トピック	値抽象データ型ボクシングデータ構造ジェネリック種類メタクラスパラメトリック多態性プリミティブデータ型インターフェースサブタイプ型コンストラクタ型変換型システム型理論変数