Linéarité repensée

Révolution au pays de « Daddy Linn-éarité »
démolition d'erreur officielle
(Par A.Bol, 02-03 OCT 2015)

ENGLISH TRANSLATION
Historique
Bases
1- Fautes
2- Mise en perspective
3- Réserves
Bilan
(Complément)
(Détail 2019)

Contexte semi-familial
  La « Linéarité » d’une technique de mesure (notamment chromato-spectrophotométrique) est un sujet qui me trouble depuis des décennies (1984-2015). Indépendamment de cela, je me suis marié en 2002 et mon beau-frère étasunien se prénomme Lynn, toute ma belle-famille philippine l’appelant Daddy Lynn (Papa Lynn). Je propose ici d’effectuer « à la maison » une synthèse approfondie, inventive et argumentée, pour clarifier positivement la question de la linéarité, et cela présente un intérêt mondial – je demanderai à Lynn de vérifier/corriger la version anglaise de ce site, ou d’essayer tout au moins (mon beau-père était matheux, comme mon grand-père et moi, mais pas mon beau-frère ni mon père).

Etape 1 : années 1980-90
  Quand j’ai professionnellement commencé à mesurer des concentrations d’antibiotiques par chromatographie (HPLC : High-Performances Liquid-Chromatography), j’ai rapidement été choqué (vers 1985-86 ?) par les publications « scientifiques » clamant leurs techniques « prouvées » linéaires par un coefficient de corrélation linéaire R 0,9+ ou R² 0,99+, extrêmement significatif. Avec des exemples, j’ai prouvé que c’était inadapté à nos mesures, employant la calibration monopoint façon Loi de Beer-Lambert.
  Pour contourner ce problème, j’ai ensuite inventé l’indice L de linéarité, approchant bien mieux le sujet, et formaté pour ressembler au coefficient de corrélation linéaire R (parfait à 1, sinon inférieur à 1, bon très proche de 1). En le normant à ≥0,95 par référence au classique risque ≤5% (autrement dit : risque ≤0,05, confiance ≥0,95).
  J’ai écrit un article sur le sujet pour le magazine BioTop (journal des anciens élèves de l’IUT Biologie de Montpellier), mais il n’a jamais été publié je crois, ce journal disparaissant faute de volontaires pour en assurer la gestion pérenne.

Etape 2 : années 1990-2000
  Pour clarifier mon indice L méconnu, invention-maison, je l’ai en 1995 renommé IL « Indice de Linéarité » puis relié à une grandeur aussi inventée par moi-même : l’EMNL « Erreur-Maximale pour cause de Non-Linéarité », comprenant que ce pourrait être elle que l’on pourrait vouloir normer à ≤5% (IL 95% signifie EMNL 5,26% et EMNL 5% signifie IL 95,24%).
  Acceptant un jour un indice IL 0,948 s’arrondissant à 0,95 j’ai clarifié la tolérance ≥0,95 en >0,9450 mais dans un autre service une stagiaire a publié un texte officiel exigeant IL ≥0,9400, par malentendu. Nullement corrigé (selon les grands principes de la « Qualité » : tout ce qui compte est d’avoir administrativement quelque chose à montrer aux auditeurs, rigoristes en circuits-paperasse, dates et signatures, mais techniquement et mathématiquement incompétents).

Etape 3 : années 2010
  L’arrivée de nouveaux cadres pharmaciens a fait balayer mes inventions-maison pour réappliquer les standards officiels de l’industrie pharmaceutique, plus lourds en pratique (impossibles en routine quotidienne), plus complexes (requérant assistance d’un service BioMathématiques), et que je les prouve erronés n’intéressait personne, n’attirant qu’hostilité profonde (conduisant à me court-circuiter en ne m’invitant plus aux réunions sur le sujet).
  En un sens, cela me rend ma liberté personnelle sur le sujet et, à la maison, je peux passer des heures (de loisirs) à compléter cette thèse. Dans trois directions :
1- Prouver avec des exemples chiffrés l’erreur lourde de la procédure officielle, dans 4 directions (A : erreur en calibration monopoint, B : erreur de validation par non-significativité, C : erreur par moindres carrés minimisant le point bas, D : erreur par alliance aux aléas multiples).
2- Créer le lien avec le besoin en capabilité de mesure.
3- Emettre des réserves, exprimant l’imperfection résiduelle de mon système.

0 : Bases
  La procédure officielle, à appliquer lors de la création d’une méthode de mesure chromatographique consiste à répliquer au minimum 5 concentrations 3 fois, puis énoncer la droite des moindres carrés (calculée à partir des mesures obtenues) et effectuer un test statistique F « lack of fit » qui doit être non-significatif au seuil 5% ou 1%.
  Ma procédure, applicable tous les jours (par exemple pour valider un emploi de hauteurs de pics à la place de surfaces de pics) consiste à répliquer 2 concentrations 3 fois, puis calculer le ratio IL = facteur de réponse minimum/facteur de réponse maximum. (Le facteur de réponse est le rapport Concentration/Mesure moyenne, qui sert usuellement de multiplicateur à la Beer-Lambert : C = k × A : Concentration = Facteur de Réponse × Mesure). Et on peut ajouter EMNL = (1/IL) – 1 : IL = 96% donne 1/IL = 104,2% donc EMNL 4,2%.

1A : L’erreur en calibration monopoint
  Puisque la loi de fond est la proportionnalité de Beer Lambert (Absorbance = E × Concentration), les logiciels de chromatographie des années 1980 incluaient un multiplicateur à fixer par calibration avec 1 étalon (« monopoint »). C’est la linéarité au sens « proportionnalité » y = ax, de fonction « linéaire », droite passant par l’origine, par opposition au sens « rectitude » y = ax + b, de fonction « affine », droite quelconque.
  Mais la droite des moindres carrés est automatiquement calculée comme y = ax + b (requérant en pratique une calibration bipoint, et un tableur de calcul car une calculatrice simple, mono-mémoire, ne suffit pas).
  Donc… si en routine on pratique la calibration monopoint, il est totalement faux de prétendre cela validé par la corrélation à la droite des moindres carrés. Illustration :
. Exemple 1 façon officielle : y = 2x + 0,5 parfaitement (hors aléa de répétabilité) sur x de 1 à 10 000 avec étalon à 1000 --> (x;y) : (1;2,5), (10;20,5), (100;200,5), (1000;2000,5), (10000;20000,5) --> étalonnage : facteur de réponse = 1000/2000,5 --> mesure d’inconnu au niveau du point bas (en fait x = 1) : y = 2,5 interprété comme x = 2,5 × 1000/2000,5 = 1,2497 : cela fait +25% d’erreur pour un cas dit parfait !
. Exemple 1 façon maison : les couples (x;y) ci-dessus donnent les facteurs de réponse RF : 0,4 ; 0,4878 ; 0,4988 ; 0,49988 ; 0,499988 (et plus simplement, il suffisait des points haut et bas, donc 2 points et non 5) --> IL = 0,4/0,499988 = 0,80 refusé comme non-linéaire (et pas du tout déclaré parfaitement linéaire), avec erreur EMNL = (1/0,80)-1 = 25%.
  Bref, au lieu de s’en remettre aux calculs mystérieux d’un lointain service BioMaths, il s’agit d’aller droit au but technique, et c’est effectuable en routine sans aucune analyse statistique ni lourd passage de 5 étalons.

1B : L’erreur de validation par non-significativité
  Le test lack of fit sera dit gagné si on obtient une p-value 6% (car non < 5%) ou éventuellement 2% (car non < 1%), alors qu’on conclura à un échec, une non linéarité, s’il donne la p-value 0,5% (ou encore pire atroce : 0,002%).
  C’est faux. En effet, si on prenait la non-significativité à 1% comme preuve de linéarité à 1% de chances de se tromper, alors il serait encore mieux de pouvoir invoquer un risque 0,001% (de se tromper), mais du coup l’atroce p-value 0,002% deviendrait validée ! Super-validée avec même un risque mille fois plus faible ! C’est simplement absurde, et mathématiquement incorrect : les statistiques ne valident que des significativités (rejetant des hypothèses précises montrées improbables), la non-significativité ne vaut nullement validation (de qualité) mais vaut non-réponse (au risque choisi).
  Autrement dit : les statistiques peuvent réfuter (avec petit risque) une prétendue linéarité, mais si ce n’est pas mauvais, elles ne donnent absolument aucune conclusion, ne valident en rien une linéarité.
  Même si on n’abaisse pas le risque prétendu vers 0% (en montrant l’aberration tendant vers 100% d’erreur), on n’est en rien sauvé : puisqu’on se focalise sur le risque de rejet alors que l’on accepte, le risque invoqué est totalement hors sujet (et le risque d’acceptation à tort n’est pas chiffré faute de formuler l’hypothèse alternative concurrente). Quand on prétend ainsi (en validation par non-significativité) à un risque <5%, le risque est en fait environ <95% (et peut être par exemple 70% – il n’y a pas de calcul universel simple car tout dépend de l’hypothèse précise en concurrence avec l’hypothèse nulle), et quand on prétend à risque <1% il est en fait environ <99% (et peut être par exemple 96%). Inavouable, donc pas avoué. Mais le mensonge est avéré, prouvé.

1C : L’erreur par moindre carrés minimisant le point bas
  Le principe de Droite des moindres carrés pondère les carrés de réponse et non les réponses relatives, donc ce qui se passe au niveau des petites concentrations compte beaucoup moins que ce qui se passe au niveau des très grandes concentrations, d’où erreur relative possiblement énorme au niveau des faibles concentrations.
. Exemple 2 façon officielle : y = 2x sur x de 1 à 10 000, plafonné à y = 19950 pour 20000 requis (hors aléa de répétabilité) --> (x;y) : (1;2), (10;20), (100;200), (1000;2000), (10000;19950) --> calcul des moindres carrés : (avec C pour Concentration et A pour Réponse genre Surface/Area de pic)

  Cette droite des moindres carrés (très parfaite selon R) est totalement biaisée par le fait de se baser sur les carrés, et l’employer comme calibration serait source d’erreur colossale : -66% sur la faible concentration.
. Exemple 2 façon maison : les couples (x;y) ci-dessus donnent les facteurs de réponse RF : 0,5 ; 0,5 ; 0,5 ; 0,5 ; 0,50125 (et plus simplement, il suffisait des points haut et bas, donc 2 points et non 5) --> IL = 0,5/050125 = 0,9975 (et erreur EMNL = 0,25%) accepté comme linéaire, avec simplement y = 0,50x comme droite de calibration et non le très compliqué et incorrect y = 0,50128x -0,663.

1D : L’erreur par alliance aux aléas multiples
  Puisque la non-linéarité se distingue en général clairement en comparant concentrations basses et concentrations hautes (si la droite les reliant passe loin de zéro, on n’est pas proportionnel), pourquoi commander 5 points au lieu de se limiter aux 2 extrêmes ? (Usuellement, en chromatographie, les hautes concentrations peuvent être sous-dosées par saturation partielle du détecteur, ou parfois les faibles concentrations peuvent être sous-dosées par adsorbtion partielle, voire si les 2 intervenaient à la fois : un 3e point milieu éviterait la fausse convergence entre deux modes de sous-dosage, mais passer à 5 points ne se justifie techniquement en rien). Je pense que c’est pour noyer le poisson, indirectement grâce à la (fausse) validation par non-significativité : en multipliant les variabilités cumulées, moins de différences seront jugées significatives, donc plus souvent on prétendra (à tort) avoir validé.
  C’est illustré, quoique différemment, par l’influence de la variabilité (ou CV : coefficient de variation). Ainsi, avec une même courbe moyenne, incorrecte, c’est très mauvais refusé si la variabilité est faible, alors que c’est accepté « validé » (à tort) si la variabilité est nettement plus grande :


2 : Lien avec la capabilité
  La capabilité d’une mesure est le ratio tolérance/incertitude exprimant la qualité de mesure relative. Une capabilité K = 5 ou 10 est considérée comme de la sur-qualité (employant un moyen de mesure plus précis que nécessaire, inutilement cher), une capabilté K = 2 ou 1 ou <1 est considérée comme de la sous-qualité (employant un moyen de mesure moins précis que nécessaire, conduisant à des taux graves d’acceptation à tort, faute qualité, et à des taux aberrants de rejet à tort, gaspillage coûteux). L’usage industriel consiste à choisir K = 3 ou 4 quand cela est possible – et si c’est par hasard 5 ou 10, c’est bien sûr accepté (« mieux que nécessaire ») ; si on ne peut pas faire mieux que 2 ou 1, c’est accepté avec regret et vigilance (« hélas accepté faute de mieux »).
  Pour des dosages d’antibiotiques, quelle est la tolérance ? La « tradition » commande des chiffres bizarres, mais j’ai inventé mieux, logique, sans intéresser personne hélas. Le contexte étant des dilutions géométriques d’ordre 2 centrées sur 1mg/l (donc 0,25 ; 0,5 ; 1 ; 2 ; 4 etc. en pratique 0,03125 à 1024mg/l par exemple), la tolérance « logique » est ± 1 demi-dilution, soit un facteur multiplicateur 2^(-0,5) à 2^(0,5), autrement dit 1/racine(2) [=racine(2)/2] à racine(2), soir 70,7% à 141,4%. Artificiellement symétrisé au pire, ce « -29,3% à +41,4% » donne ±29.3% comme tolérance donc ±9,8% comme incertitude maximale (avec K=3). Et… avoir choisi une Erreur Maximale pour cause de Non-Linéarité inférieure à ± 5,82% (pour IL > 0,945) n’est pas aberrant, « consommant 60% » de l’incertitude permise (35% en contexte quadratique genre « additivité des variances »). Et s’il n’y avait que cette source d’erreur, la capabilité serait de 5, pas du tout insuffisante donc correcte.

  Ce genre de préoccupation de cohérence est totalement exempt de l’approche officielle, estimant à tort avoir prouvé la linéarité quasi-parfaite.

3 : Réserves
3A) Capabilité multi-source
  En fait, la non-linéarité de la technique chromatographique proprement dite n’est qu’un des facteurs contributifs à l’erreur totale, avec aussi : le titre exact de l’étalon (initial d’une part, un peu vieilli jusqu’à emploi effectif d’autre part), la justesse de la pesée (erreur systématique et erreur aléatoire), l’erreur volumique de dissolvant/diluant pour la reprise de poudre étalon (erreur systématique et erreur aléatoire, intrinsèque et sur verrerie usagée), l’erreur asymétrique par possible dissolution incomplète de la poudre (au-delà du OK visuel), l’erreur de pipetage (erreur systématique et erreur aléatoire), l’erreur asymétrique par évaporation de solution avant injection chromatographique, l’erreur asymétrique inverse par dégradation de solution avant injection (, etc ?).
  Hélas, une bonne partie de ces éléments ne sont pas quantifiables, et justifier l’EMNL chromato à 5,82% (ou bien 5% ou bien 1%) ne paraît pas possible dans ce contexte. Les bonnes questions ont été posées, contrairement à l’approche officielle, mais sans parvenir jusqu’à la résolution idéale de A à Z.

3B) Biais
  Inspirée en partie du point précédent, cette seconde analyse personnelle dément que l’on a effectivement mesuré « de manière pure » l’erreur pour cause de non-linéarité. Ainsi, si la dilution 1/100 a donné un facteur de réponse 96% par rapport à la solution-mère (« dilution 1/1 »), ce n’est pas forcément imputable à un défaut de linéarité de la méthode, il se peut que le pipetage de 1,000ml en fiole jaugée de 100ml ait été imparfait, prélevant en fait 0,960ml au lieu de 1,000ml, quand la linéarité chromatographique est en fait parfaite. Ou bien, dans cette erreur de 4% (ou 4,2% en EMNL exactement), 2% sont imputables au pipetage (sans qu’on le sache, et sans qu’on puisse le savoir, à cause de la part d’erreur aléatoire du pipetage) et seulement 2% sont imputables à la non-linéarité chromatographique (ou 2,1% exactement car on est en contexte multiplicatif et non additif) :


Bilan
  La très lourde procédure officielle est prouvée gravement fausse, pour au moins 4 raisons majeures.
  La procédure que j’ai inventée n’affirme pas à tort démontrée une linéarité parfaite mais quantifie l’erreur de non-linéarité, de manière ultra-simple applicable en routine quotidienne. A 2 réserves près : il n’est pas totalement possible de justifier sa capabilité (compte tenu des multiples paramètres techniques entrant en jeu), elle peut être partiellement biaisée (compte tenu des aléas de pipetage notamment, inaccessibles).

----
Complément et demi-confirmation (17/10/2015)
  Dans une publication scientifique de 2014, sur un dosage médico-biologique d’antibiotique, par une équipe de l’Université du Queensland en Australie, disant avoir validé en plein accord avec « CDER Bioanalytical Guidance » (de la FDA étasunienne semble-t-il), j’ai été surpris par l’allure de la courbe incurvée dite droite de manière fort peu convaincante. L’équation de la droite était donnée, et le coefficient de détermination R², mais pas les valeurs précises – empêchant de vérifier par soi-même pour en avoir le cœur net. Toutefois, en imprimant agrandi le graphe, et en mesurant au double-décimètre le centre des gros points, il était possible d’en avoir une assez correcte estimation. Et calculer à partir de là est instructif :

  Comment se lisent ces chiffres ?
– Ce qui a été obtenu pour dire « validé linéaire » officiellement, c’est R²>0,98 (R>0.99)
– Ce qu’oublie la procédure officielle, c’est de rétro-mesurer l’erreur que commet cette pseudo-calibration sur les points étalons : ici, le point bas est sous-estimé de 62% ! horreur (en prétendue méthode de mesure quantitative) ! Cela correspond à l’erreur 1C que je signalais : le point bas compte pour presque rien dans une droite des moindres carrés, multipliant l’impact des grandes valeurs.
– Visuellement, une portion ascendante de parabole me semblait bien mieux convenir et les chiffres le prouvent : on passe d’un R² > 0,980 (erreur -62%) avec droite des moindres carrés à R² > 0,999 (erreur 11%) avec parabole des moindres carrés ; la droite était donc une mauvaise approximation de la vérité, mais « validée » officiellement, aveuglément.
– Comme la droite des moindres carrés, la parabole des moindres carrés tend à négliger les petites valeurs, sur lesquelles on retrouve la pire erreur. Je préfère donc une autre voie, le but étant de minimiser l’erreur, non de réciter ce que les biomathématiciens ont appris à l’école : calculer la parabole passant exactement par les points extrêmes et le point milieu (ainsi automatiquement à 0% d’erreur) et voir l’erreur sur les 2 points qui restent. Cela abaisse certes le coefficient R² > 0,997 (au lieu de >0,999) mais il y a moins d’erreur : 8% (au lieu de 11%).
– Bref, même sans test lack-of-fit commettant l’erreur 1B, on a vu là de manière éclatante l’erreur 1C minimisant le point bas. Pour voir, on peut certes effectuer aussi ici le test lack-of-fit « français » :

La très peu droite courbe de calibration aurait été rejetée comme non-linéaire (avec risque 1% comme 5%) si le CV de répétabilité était de 1% mais aurait été acceptée (avec risque ≤1%, certes pas avec risque ≤5%) si le CV de répétabilité était de 10%. Cela illustre l’erreur 1D. Et l’erreur 1B aussi, puisqu’entre les conclusions contradictoires avec des risques différents, l’intuition fait choisir le risque d’erreur le plus faible, sans comprendre qu’avec risque ≤0,000 000 000 001% on accepterait n’importe quoi même à déclarer « prouvée correcte » la moche droite avec CV 1% (et à risque ≤1E-99, on accepterait une courbe descendante ou en montagne russe, toutes les erreurs étant imputées au hasard même si c’est immensément improbable. C’est totalement aberrant (si on accepte l'hypothèse émise, ce n'est pas le risque de rejet à tort qu'il faut mentionner mais le risque d'acceptation à tort).
– Finalement, on peut être publié et vendre, avec appui officiel, si on commet les bourdes mathématiques entérinées par les dominants, idiots ou malhonnêtes. Réfléchir casse cela, menu, réfléchir lucidement est donc interdit et/ou condamné.
----
Ajout (22-23/10/2015)
  L'erreur 1A se référait au mode le plus habituel de calcul de la droite des moindres carrés, mais les logiciels modernes savent aussi calculer la doite des moindres carrés "passant par l'origine". Toutefois, quand la situation n'est pas linéaire, cela ne résout rien. Sur l'exemple pris plus haut, cela fait commettre une erreur de 19%, certes moindre que le 62% initial mais bien moins satisfaisante que le 8% obtenu avec mon approche.

  Même en imposant le passage par zéro (si c'est nécessaire pour une calibration monopoint), on peut facilement faire bien mieux que la mystérieuse "droite des moindres carrés", en moyennant les pentes par exemple : erreur de 12% au lieu de 19%. Et on peut encore optimiser un peu si l'on cherche à minimiser l'erreur : 11%.

  Il y a donc plein de façons possibles de faire, en réalisant bien mieux que la recette dite "des moindres carrés", le but en fait étant différent : la moindre erreur (relative) de calibrage. La procédure officielle est simplement "classique et fausse".

----
Détail 2019 = souvenir « test de corrélation linéaire » (31/07/2019)
  Concernant la démonstration de linéarité, j’ai un souvenir universitaire qui me revient, que je n’ai jamais employé en entreprise mais qui me semble intéressant (d’autant que j’ai retrouvé sur Internet avec Copainsdavant mon professeur de Maths de l’époque, que j’appréciais beaucoup).
  Cette voie consistait à calculer le coefficient de corrélation linéaire R à partir des valeurs d’un échantillon, puis comme dans un test statistique classique (écart-réduit, Khi², analyse de variance, etc.) on se reportait à une table de valeurs théoriques :
- si R calculé < R théorique au risque alfa, il n’y a pas significativité, pas de conclusion avec ce risque-là ;
- si R calculé > R théorique au risque alfa, la conclusion est que c’est significatif, linéaire, avec ce risque-là.
- Le professeur avertissait toutefois « pour ce test-ci, n’employez pas le risque classique 5% qui donne des conclusions aberrantes, mais employez le risque 1% ». J’étais étonné, je ne voyais pas pourquoi mais ça ne semblait pas grave, ce n’était pas expliqué/démontré, enfin ça m’a frappé et je m’en souviens très bien (tandis que mes confrères étudiants, en biologie, détestaient les Maths et oubliaient au fur et à mesure ce qui leur était dit par le prof de Maths).
  Dans la vie professionnelle ensuite (après la période d’apprentissage du travail de routine pour les mesures), si je n’ai pas utilisé ce test de R, c’est que l’ai prouvé inadapté très rapidement, à son premier emploi quand j’ai voulu « valider » une méthode biochimique créée par moi-même (ou plutôt : invalider la version provisoire simple mais fausse) : même avec le risque à 1%, ce test me démontrait linéaire (donc satisfaisant) ce qui ne l’était clairement pas (donc à rejeter/améliorer techniquement avant re-test statistique valideur). Bien sûr, puisque j’ai été diplômé/embauché en 1984, je ne m’en souviens plu’ précisément en 2019, mais je peux le réinventer sur valeurs fictives. Il s’agissait de développer une méthode de dosage HPLC-RP-UV d’antibiotique en solution aqueuse avec colle (et impuretés, produits de dégradation), le but étant une proportionnalité entre concentration (connue pour les étalons, à déterminer pour les inconnus) et surface ou hauteur (de pic chromatographique, mesuré après injection/séparation/détection).

  J’ai pris ici un exemple de saturation de la détection (trop faibles hauteurs et même surfaces pour les grandes concentrations) requérant dilution pour ne pas sortir du domaine de linéarité, d’autres causes classiques de non-linéarité étant l’adsorption sur les parois de flacons d’injection (trop faibles hauteurs ou surfaces pour les petites concentrations) et le signal accru à cause du bruit de fond (trop fortes surfaces pour les petites concentrations).
  Les valeurs imaginaires que j’ai prises ci-dessus donnent : très linéaire au risque 5% à ne pas prendre en compte, et juste linéaire acceptable avec risque 1% recommandé. Or non, c’est faux : ce n’est plus du tout linéaire pour les concentrations 4 à 8 (qui auraient dû donner surfaces 40 à 80), avec détecteur ici en saturation. Comment s’explique cette conclusion totalement erronée (prétendue statistiquement prouvée avec moins de 1% de risque d’erreur) ? C’est simple, ce test de corrélation linéaire n’est nullement une validation de linéarité, il est un test (avec hypothèse linéaire en secours) de rejet significatif de l’hypothèse « nuage de points totalement quelconque, normal gaussien ». Bien sûr qu’une ligne ascendante butant sur un plateau n’est pas un nuage de points quelconques, ce test ne fait que démontrer ça. « Ça ressemble davantage à une droite qu’à un nuage de points quelconques », et pas du tout « ça suit correctement, quantitativement, une droite, obéissant à une loi y=ax+b gouvernant le phénomène » (cette loi devant créer un moyen de mesure y d’après x mesuré sur un échantillon inconnu).
  Dans des publications, ce test était souvent pratiqué sans invoquer de risque, en marquant comme qualité/perfection : R > 0,99, or je n’étais pas d’accord, c’est pour ça que j’ai inventé le test « maison » L (ou IL) >=0,95 (ratio des facteurs de réponse), bien plus difficile à atteindre et directement lié à l’erreur de mesure pour cause de non-linéarité (ENL ou EMNL, invention à moi aussi). J’ai appris plus tard qu’était pratiqué officiellement le test R² > 0,995, plus difficile à atteindre que R> 0,99 (autrement dit R²>0,98) mais passant également à côté du sujet « minimiser l’erreur de mesure en calibration 2-points ».

  Je compare plusieurs cas de saturation pour montrer la gradation du problème selon les indicateurs/tests : (A parfait idéal, test R 5% acceptant A-B-C-D-E, test R 1% acceptant A-C-D-E, test R² 0,995 ou 0,999 acceptant A-D-E, test L 0,95 acceptant A-E):

  Prétendre validé un moyen de mesure faisant 27% d’ampleur d’erreur (en annonçant risque < 5%) n’était guère pire que 17% d’ampleur d’erreur (en annonçant risque < 1%). Le test de corrélation linéaire est donc totalement hors-sujet pour valider la linéarité d’une méthode de mesure.
  Et au passage, on voit que se centrer sur R² (sans plu’ parler de risque) est aussi mauvais : la fabuleuse valeur > 0,999 donnant ici plus de 5% d’ampleur d’erreur, alors qu’en se centrant sur ce qui mesure l’erreur, on peut la normer facilement, c’est ce que faisait mon indice L ou IL (qui a sans doute disparu avec ma mise en invalidité jusqu’à la retraite ou mort prématurée).
  [note : la table du R de Pearson est sur Internet à http://www.chups.jussieu.fr/polys/biostats/poly/POLY.Anx.A.5.html et les instructions quantitatives de prétendue linéarité à http://applis.cermav.cnrs.fr/ANGD_qualite_en_chimie/Blanchin2.pdf ].

===============================================================================
ENGLISH TRANSLATION

In the universe of "Daddy Linn-earity"
Breaking down an official mistake
(by Bye, 10/02-03/2015, translated 10/05-06.../2015)

Historic
Bases
1- Mistakes
2- In perspective
3- Reserves
Summary

Semi-family context
The "linearity" of a measurement technique (as a chromato-spectrophotometric one) is a subject that has been annoying me for decades (1984-2015). Regardless of this, I got married in 2002 and my US brother-in-law has Lynn for first name, my Filipino family in law calling him Daddy Lynn. Here "at home", I will try to build a thorough synthesis, inventive and argued to positively clarify the issue of linearity, and this is of world significance - I'll ask Lynn to verify/correct the English version of this site, or try at least (my father in law had a talent in mathematics like my grandfather and me, but not my brother-in-law I think nor my father).

Step 1: 1980-1990 years
When I started to professionally measure concentrations of antibiotics by chromatography (HPLC: High-Performance Liquid Chromatography), I was soon shocked (circa 1985-1986?). By the "scientific" publications claiming their measures "proven" linear thanks to a linear correlation coefficient R 0.9+ or R² 0,99+ which was extremely significant. With examples, I proved that this was unsuited to our measurements based on single-point calibration (according to Beer-Lambert law).
To work despite this problem, I invented the L linearity index, better approaching the subject, and formatted to look like the linear correlation coefficient R (perfect value 1, otherwise less than 1, very good close to 1). I required a value ≥0,95 by reference to the classic risk ≤5% (ie: risk ≤0,05, ≥0,95 confidence).
I wrote an article about it for the BioTop magazine (newspaper of former students from the Montpellier Biology Institute of Technology), but I think it was never published, this journal disappearing by lack of volunteers to ensure sustainable management.

Step 2: 1990-2000
To clarify my unknown index L, I renamed it in 1995 IL "Index of Linearity" and then I connected it to a calculation I invented by myself, the MMNL "Maximum-Mistake because of Non-Linearity" (in French EMNL). This one could be required ≤5% (IL 95% means MMNL 5.26% and MMNL 5% means IL 95.24%).
Accepting one day a 0.948 IL index, rounded at 0.95, I clarified the ≥0,95 tolerance as >0.9450 but in another department a trainee issued an official statement demanding IL ≥0,9400 by misunderstanding. This was never fixed (alas by principle of "Quality": all that matters is administratively having something to show to the auditors, very severe about paperwork, dates and signatures, but technically and mathematically incompetent).

Step 3: 2010s
The arrival of new pharmacist department leaders rejected my inventions to reapply the official standards of the pharmaceutical industry, less easy in practice (impossible in daily routine), complex (requiring assistance of a biomathematics department), and I did not interest anyone when I proved that it was incorrect, I got only anger in return (then I was no more invited to meetings on the subject).
In a sense, this gives me freedom on the subject and, at home, I can spend hours (of leisure) to complete this thesis. In three directions:
1- Prove with numerical examples the serious mistake of the official procedure, in 4 directions (A: single-point calibration error, B: validation error by non-significance, C: Error of least squares minimizing effects at the low point, D: error enjoying variability).
2. Create a link with the need for capability control.
3- Issuing reserves, expressing the residual imperfection of my system.

0: Bases
The official procedure (to be applied when creating of a chromatographic method of measurement) is to replicate at least 3 times 5 concentrations, then write the least squares equation (calculated from the measured data) and perform a statistical "Lack of fit" F-test, to be non-significant with 5% or 1% risk.
My procedure, applicable every day (for example to enable the use of peak heights instead of peak areas), is to replicate 2 concentrations three times and then calculate the IL ratio = minimum response factor/maximum response factor. (The response factor is the relative concentration/Average measurement, which usually serves as a multiplier to the Beer-Lambert: C = k × A: Concentration = Response Factor × Measurement). And we can add MMNL = (1/IL) - 1: IL = 96% gives 1/IL = 104.2% thus MMNL 4.2%.

1A: The single point calibration error
Since the substantive law is Beer Lambert's proportionality (Absorbance = E × Concentration), the chromatography softwares of the 1980s included a multiplier to be determined by calibration with 1 standard ("single point"). This linearity is the meaning "proportionality" y = ax, a "linear" function, straight line passing through the origin, as opposed to the "straightness" direction y = ax + b, "affine" function, any straight-line.
But the least squares line is automatically calculated as y = ax + b (requiring in practice 2-standards calibration and a spreadsheet calculation as a simple calculator with single-memory is not enough).
So ... when routine practice is single point calibration, it is completely false to claim it validated by correlation to the least squares line. Illustration:
. Example 1 officially: y = 2x + 0.5 perfectly (apart of variability effect) with x from 1 to 10,000 and a standard at 1,000 --> (x;y): (1;2.5), (10;20.5), (100;200.5), (1,000;2,000.5), (10,000;20,000.5) --> Calibration: Response factor = 1,000/2,000.5 --> measurement of unknown at the low concentration (actually x = 1): y = 2.5 is read as x = 2.5 × 1,000/2,000.5 = 1.2497: this means 25% error for a perfect case!
. Example 1 in my way: the pairs (x;y) above give the RF response factor: 0.4, 0.4878, 0.4988, 0.49988, 0.499988 (and more simply, it was enough to get only the high and low points, so 2 points and not 5) --> IL = 0.4/0.499988 = 0.80 refused as non-linear (not at all "perfectly linear"), with error MMNL = (1/0.80)- 1 = 25%.
In short, instead of relying on a distant mysterious calculating Biomaths department, it is better going straight to the technical aim, and that is possible routinely without any complicated statistical analysis of too many standards.

1B: The error of validation by non-significance
The lack of fit test will be successful if a 6% p-value is obtained (because not <5%) or possibly 2% (because not <1%), whereas we fail concluding as non-linearity if it gives the p-value 0.5% (or even worse atrocious: 0.002%).
It's wrong. Indeed, if we took the non-significance at 1% as evidence of linearity with 1% chance of being wrong, then it would be even better to be able to invoke a risk 0.001% (of being wrong), but then the atrocious p-value 0.002% becomes Approved! And even Super-validated with a risk even a thousand times weaker! This is simply absurd, and mathematically incorrect: the statistics do validate significances (rejecting specific assumptions shown improbable), non-significance is not at all validation (quality) but it is only non-response (at the chosen risk).
In other words, the statistics can refute (with small risk) alleged linearity, but if that is not bad, they give absolutely no conclusion, they do nothing to validate linearity.
Even if we would not lower the pretended risk to 0% (showing aberration tending towards 100% error), we would not be saved at all: because this is focusing on the risk of rejection while the conclusion is Accepting, so the risk invoked is totally irrelevant (and the risk of wrongly accepting cannot be calculated because no alternative hypothesis has been chosen). Thus, when is claimed (in validation by non-significance) a risk <5%, the true risk is actually about <95% (and can be 70% - there is no simple universal calculation because it depends on the specific hypothesis in competition with the null hypothesis), and when it is claimed <1% it is actually about <99% (and may be for example 96%). This is shameful, so this is not confessed. But the lie turned out, proved.

1C: The least squares error by minimizing the low point
The principle of least squares line weights the square of raw measurements responses, not relative measurements, so what happens in small concentrations counts very little compared to what happens at very high concentrations, resulting in potentially huge relative error at low concentrations.
. Example 2, official way: y = 2x, with x between 1 and 10,000, truncated at y = 19,950 for 20,000 required (excluding variability effect) --> (x;y): (1;2), (10;20), (100;200), (1,000;2,000), (10,000;19,950) --> Calculation of least squares (with C Concentration and A Response like Area):

The least squares (very perfect according to R) is completely biased by the fact of being based on the square, and use it as calibration would create huge error: -66% on the low concentration.
. Example 2, my way: the pairs (x;y) above give the RF response factor: 0.5; 0.5; 0.5; 0.5; 0.50125 (and more simply, it was enough to get high and low points, so 2 points and not 5) --> IL = 0.5/0.50125 = 0.9975 (and MMNL error = 0.25%) accepted as linear with just y = 0,50x calibration line (not the very complicated and incorrect y = 0,50128x -0.663).

1D: The error enjoying variability
Since the nonlinearity is distinguished in general clearly by comparing low concentrations and high concentrations (if the line connecting them does not pass very near zero-zero, it is not proportional), why order 5 points instead of just two extremes? (Usually, in chromatography, high concentrations can be under-estimated by partial saturation of the detector, or sometimes low concentrations can be under-estimated by partial adsorption, and if the two phenomenons happen together: a third midpoint would show this, but 5 points are not justified). I think that's connected to the (fake) validation by non-significance: multiplying the cumulative variability, fewer differences are considered significant, so often it will be claimed (wrongly) validated.
This is illustrated, although differently, by the influence of variability (or CV: coefficient of variation). Thus, with the same incorrect mean curve, this is very bad and refused if the variability is low, but this is accepted and "validated" (wrongly) if the variability is significantly larger:


2: Relation to capability
The capability of a measure is the ratio tolerance/confidence interval expressing the relative quality of measure. A capability K = 5 or 10 is regarded as over-quality (using a more accurate measuring than necessary, unnecessarily expensive), a capabilty K = 2 or 1 or <1 is considered as sub-quality (using less accurate than necessary, accepting many bad things, which is a quality issue, and refusing good things, which is an expensive waste). The industrial use is to choose K = 3 or 4 when possible - and if it is by chance 5 or 10, it is of course accepted ("better than necessary"); if it is impossible to have better than 2 or 1, this is accepted with regret and vigilance ("alas accepted lacking better").
For dosages of antibiotics, what is the tolerance? 'Tradition' commands odd numbers, but I made better, without interesting anyone alas. The context being geometric dilutions of order 2, centered on 1mg/L (ie 0.25; 0.5; 1; 2; 4; etc. 0.03125 to 1,024mg/L for example), the "logical" tolerance is ± one half dilution, with a multiplier factor of 2^(- 0.5) and 2^(0.5), ie 1/sq.root(2) [= sq.root(2)/2] to sq.root(2) meaning 70.7% to 141.4%. Artificially symmetrized at the worst "-29.3% to +41.4%" becomes ±29.3% so ±9.8% tolerance as maximum confidance interval (with K = 3). And... having chosen a Maximum Mistake because of Non-linearity below ±5.82% (for IL>0.945) is not aberrant, "consuming 60%" of the permitted interval (35% in quadratic context like for "additivity of variances"). And if it was the only source of error, the capability would be 5, correct.

This kind of concern for coherence is very different from the official approach falsely claiming to have proved almost perfect linearity.

3: Reserves
3A) Multi-Source Capability
In fact, the non-linearity of the actual chromatographic technique is only one of the factors contributing to the total error, also with: the exact titration of standard powder (initial value, and value on aged after previous employment), the accuracy of the weighing (systematic error and random error), the volumetric error of dissolvant/diluent (systematic error and random error, intrinsic and on used glassware), the asymmetric error by incomplete dissolution of the powder (beyond "visually OK"), pipetting errors (systematic error and random error), asymmetric error by evaporating solution before chromatographic injection, the opposite asymmetric error by self-degrading solution before injection (etc?).
Unfortunately, a good portion of these are not quantifiable so justifying a chromatograph MMNL of 5.82% (or 5% or 1%) does not seem possible. Good questions were asked, unlike in the official approach, but that failed to solve all issues.

3B) Bias
The related second point denies that all the measured error is due to non-linearity. For instance, if the 1/100 dilution gave a response factor of 96% compared to the stock solution ("dilution 1/1"), it is not necessarily due to a linearity error of the method, it is perhaps the pipetting of 1.000mL into the 100mL volumetric flask that failed, with in fact 0.960mL pipetted instead of 1.000mL, while the chromatographic linearity is perfect. Or, in this 4% error (or 4.2% MMNL exactly), 2% are attributable to pipetting (without knowing it and without being able to know, because part of it is random error) and only 2% are attributable to the chromatographic non-linearity (or 2.1% precisely because it is multiplicative not additive):


Summary
The uneasy official procedure is proven seriously wrong, with at least four major mistakes.
The procedure that I have invented does not wrongly assert a perfect linearity but quantifies the error of non-linearity, in an ultra-simple way applicable in daily routine. With 2 little remaining problems: it is not possible to fully justify its capability (because several technical parameters contribute to overall error), and this can be partly biased (considering inaccessible pipetting variability).