1. 概要

このチュートリアルでは、分布を表すグラフの線形スケールを選択する方法を学習します。

2. 分布を表す

LaTeX でのチャートの描画に関する記事で、分布を表すための一般的な手法を学習しました。 また、グラフの自動レイアウトに関するチュートリアルでは、読者による理解のプロセスをサポートする表現の生成の問題について説明しました。 その文脈で、すべての表現が等しいわけではなく、一部の表現が他の表現よりもうまく機能することに注意しました

この記事では、代わりに、チャートの正しい線形スケールを決定することに焦点を当てます。 具体的には、チャートの下限と上限、およびその目盛りの位置を特定する手順を研究します

まず、問題の性質を明らかにする例を取り上げ、次にその解決策について説明します。

3. 間違った表現

分布を表すことから始め、軸に5つの目盛りを割り当てることから始めましょう。

直感的には、に使用しているスケールに問題があることがわかります。 実際、散布図は上部だけでなく、平面の大部分をカバーすると予想されます。

また、観測値がないチャートの領域では、目盛りが密集していることがわかります。 一方、インターバルなどの観測が密集している地域では、ダニはほとんどありません。

さらに、 1つのティックは、他のすべてのとは明らかに異なります。これは、2桁の精度に従うのに対し、他のすべてのティックは最も近い整数に丸められるためです。

この考察から、のスケールを選択するために従った基準はおそらく間違っていると言うことができます。

3. より良い表現

前のチャートを、同じ観測値と同じティック数を含むが、異なるスケールを使用する新しいチャートと比較してみましょう。

これははるかに良く見えます。 一目で、どの観測が他のどの観測よりも高いか、そしておおよそどのくらいかをすぐに理解できます。 目盛りは適切に丸められ、すべてが分布の最小値と最大値の間に均一に分布する整数値を保持します

4. 線形スケールを選択するための基準

したがって、分布と目盛りの数を考えると、チャートの最適な線形スケールを見つけるためのいくつかの種類の基準が存在するようです

これらの基準は次のとおりです。

  • 軸は、下限の少し下から上限の少し上まで伸びている必要があります
  • ティックは、下限と上限の間に均一に分散されている必要があります
  • ティックの値を丸めることを優先する必要があります

上記の最初のグラフはこれらの基準のいずれにも従わず、2番目のグラフはに準拠していることがわかります。 結果として、それは良く見えます。

5. スケールとダニを識別するための手順

一連のステップで、分布の軸にティックを割り当てることができる手順を形式化できます。

まず、分布の下限と上限を取得し、その範囲を計算します。

次に、分布の範囲を目的のティック数で除算し、ティックの範囲を取得します。

目盛りの範囲が不快な値、たとえば6.7に対応する場合は、最も近い適切な丸め値に切り上げることができます。 もちろん、「いい」の意味は主に主観的です。 原則として、この優先順位で25、10、5、2、または1の倍数に対応すると言えます。

さらに、計算したばかりの丸められたティック範囲に従って、新しい下限と上限を識別できます。 下限は次のように計算できます。

同様の方法で上限を計算することもできます。

下限と上限が対応するエッジケースを回避するために、ceiling演算子内に1を追加していることに注意してください。

最後に、各ティックの位置を計算できます。 これを行うには、下限から始めて、それを繰り返し追加します。

6. 結論

このチュートリアルでは、チャートの軸の適切なスケールを決定する方法を学習しました。