Kontrolní Seznam úplnosti ML

Obsah:

Kontrolní Seznam úplnosti ML
Kontrolní Seznam úplnosti ML

Video: Kontrolní Seznam úplnosti ML

Video: Kontrolní Seznam úplnosti ML
Video: Technický kontrolní seznam / před zahájením jízdy / vizuální kontrola (Fixemer) 2024, Listopad
Anonim

S cílem zvýšit reprodukovatelnost a umožnit ostatním snadněji stavět na publikované práci představujeme kontrolní seznam úplnosti kódu ML. Kontrolní seznam úplnosti kódu ML vyhodnotí úložiště kódů na základě skriptů a artefaktů v něm uvedených.

Kontrolní seznam úplnosti kódu ML
Kontrolní seznam úplnosti kódu ML

Úvod

V loňském roce Joel Pino vydal kontrolní seznam reprodukovatelnosti, který má usnadnit reprodukovatelný výzkum představený na významných OA konferencích (NeurIPS, ICML,…). Většina položek v kontrolním seznamu se zaměřuje na součásti papíru. Jedna položka v tomto kontrolním seznamu je „poskytnout odkaz na zdrojový kód“, ale kromě toho bylo učiněno několik doporučení.

Osvědčené postupy byly shrnuty v kontrolním seznamu úplnosti kódu ML, který je nyní součástí oficiálního procesu odesílání kódu NeurIPS 2020 a bude k dispozici pro použití recenzenty, jak uznají za vhodné.

Kontrolní seznam úplnosti ML

Kontrolní seznam úplnosti kódu M kontroluje v úložišti kódů:

  1. Závislosti - Má úložiště informace o závislostech nebo pokyny, jak nastavit prostředí?
  2. Scénáře školení - Obsahuje úložiště způsob, jak trénovat / přizpůsobit modely popsané v dokumentu?
  3. Scénáře hodnocení - Obsahuje úložiště skript pro výpočet výkonu trénovaných modelů nebo provádění experimentů na modelech?
  4. Předtrénované modely - Poskytuje úložiště bezplatný přístup k váhám předtrénovaných modelů?
  5. Výsledky - obsahuje úložiště tabulku / graf hlavních výsledků a skript pro reprodukci těchto výsledků?

Každé úložiště může přijímat od 0 (nemá žádné) do 5 (má všechny) klíšťata. Další informace o kritériích pro každou položku najdete v úložišti Github.

Jaký je důkaz, že položky kontrolního seznamu přispívají k užitečnějším úložištím?

Komunita obecně používá hvězdy GitHub jako proxy pro užitečnost úložiště. Očekává se proto, že repo s vyšším skóre na kontrolním seznamu úplnosti ML budou mít také více hvězd GitHubu. K testování této hypotézy bylo v dokumentech NeurIPS 2019 odesláno jako oficiální implementace 884 repozitů GitHub. 25% podmnožina těchto 884 repozitářů byla náhodně vybrána a ručně zkontrolována v kontrolním seznamu úplnosti ML. Seskupili tato ukázková repozitáře NeurIPS 2019 GitHub podle počtu klíšťat, která mají v kontrolním seznamu úplnosti kódu ML, a mapovali mediánové hvězdy GitHubu v každé skupině. Výsledek je níže:

obraz
obraz

Repozice NeurIPS 2019 s 0 zaškrtávacími políčky měly na GitHub medián 1,5 hvězdičky. Naproti tomu repo s 5 zaškrtávacími políčky měla medián 196,5 hvězd GitHub. Pouze 9% repo operací mělo 5 klíšťat a většina repo operací (70%) měla 3 nebo méně klíšťat. Byl proveden Wilcoxonův test součtu hodnot a zjistil, že počet hvězd ve třídě 5 ticků je významně (p.hodnota <1e-4) vyšší než ve všech ostatních třídách kromě 5 versus 4 (kde p.value je hranice). při 0,015). Data a kód tohoto obrázku můžete vidět v úložišti Github.

K otestování, zda se tento vztah rozšiřuje širší, byl vytvořen skript, který automatizuje výpočet kontrolního seznamu z úložiště README a přidruženého kódu. Poté jsme znovu analyzovali celou sadu úložišť 884 NeurIPS 2019, stejně jako širší sadu úložišť 8926 kódů pro všechny články ML publikované v roce 2019. V obou případech získali specialisté kvalitativně identický výsledek s mediánem hvězd monotónně rostoucích z klíšťat statisticky významným způsobem (p. Hodnota <1e-4). Nakonec jsme pomocí robustní lineární regrese zjistili, že předcvičené modely a výsledky mají největší pozitivní dopad na hvězdy GitHubu.

Toto je analytiky považováno za užitečný důkaz, že podpora výzkumných pracovníků, aby zahrnuli všechny komponenty vyžadované v kontrolním seznamu úplnosti ML, povede k užitečnějším úložištím a že skóre v kontrolním seznamu naznačuje lepší kvalitu podání.

V současné době odborníci netvrdí, že navrhovaných 5 položek kontrolního seznamu je jediným nebo dokonce nejvýznamnějším faktorem popularity úložiště. Popularitu mohou ovlivnit další faktory, například: velikost vědeckého příspěvku, marketing (např. Příspěvky na blogu a příspěvky na Twitteru), dokumentace (komplexní README, výukové programy a dokumentace API), kvalita kódu a předchozí práce.

Některé příklady úložišť NeurIPS 2019 s 5 zaškrtávacími políčky:

Odborníci uznávají, že ačkoli se pokusili vytvořit kontrolní seznam co nejobecnější, nemusí být plně použitelný pro všechny typy dokumentů, například pro teoretické nebo sady dokumentů. I když však hlavním účelem článku je představit datovou sadu, může stále těžit z vydání základních modelů, včetně scénářů školení, scénářů hodnocení a výsledků.

Začněte používat

Aby recenzentům a uživatelům usnadnilo pochopení toho, co je v úložišti, a odborníkům to správně vyhodnotit, je k dispozici kolekce osvědčených postupů pro psaní souborů README.md, definování závislostí a uvolnění předem připravených modelů, datových sad a výsledků. Doporučuje se jasně definovat těchto 5 prvků ve vašem úložišti a propojit je s jakýmikoli externími prostředky, jako jsou dokumenty a výsledkové tabulky, aby uživatelé měli větší kontext a jasnost. Toto jsou oficiální pokyny pro odesílání kódu do systému NeurIPS 2020.

Doporučuje: