Python io

.
.
.
.
.
.
.
Python
Zaawansowane IO
przetwarzanie tekstu, input, output
Robert Zaremba
Scale it
Wrocław 2011 listopad 10
. . . . . .

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
4 Formatowanie tesktu
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.
8 Projektowanie bibliotek
Robert Zaremba (Scale it) Python Zaawansowane IO Wrocław 2011 listopad 10 2 / 91

. . . . . .
Po co tekst i I/O
Większość programów komunikują się ze światem za pomocą
czytelnego tekstu.

. . . . . .
Po co tekst i I/O
czytelnego tekstu.
odczytują i zapisują tekst z pliku
odczytują i zapisują tekst do bazy danych
odbierają i wysyłają po tekst po sieci.

. . . . . .
Po co tekst i I/O
czytelnego tekstu.
I/O jest “corem” tego do czego używamy Pythona (skrypty,
przetwarzanie danych, sklejanie programów ...)

. . . . . .
Po co tekst i I/O
czytelnego tekstu.
I/O jest “corem” tego do czego używamy Pythona (skrypty,
przetwarzanie danych, sklejanie programów ...)
Co się pojawiło? Python 3

. . . . . .
Python 3
W Python 3 na nowo zaimplementowano biblioteki powiązane z I/O.

. . . . . .
Python 3
Mamy nowe typy danych

. . . . . .
Python 3
Python 3 dostarcza wprowadza w ogóle dużo zmian (nowe biblioteki,
część starych bibliotek pod nowymi nazwami - eg urllib …)
Większość starego kodu (z Pythona 2) da się przenieść do Pythona 3 za
pomocą narzędzia 2to3

. . . . . .
Python 3
Python 3 dostarcza wprowadza w ogóle dużo zmian (nowe biblioteki,
część starych bibliotek pod nowymi nazwami - eg urllib …)
Większość starego kodu (z Pythona 2) da się przenieść do Pythona 3 za
pomocą narzędzia 2to3
Ale nie operacje I/O

. . . . . .
Pojęcia
str vs unicode

. . . . . .
Pojęcia
str vs unicode
print statement (i domyślne użycie __str__() metody call)

. . . . . .
Pojęcia
str vs unicode
metody dostępu do plików

. . . . . .
Pojęcia
str vs unicode
metody dostępu do plików
std

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
Python 3
składnia
print

. . . . . .
Python 3
składnia
print
wyjątki:
try:
...
except Exception as e: # "as" wymagane
...

. . . . . .
Python 3
built-ins
zmieniono wiele wbudowanych operatorów
range tworzą teraz generator, a nie listy
wiele kolekcji zwracają iteratory zamiast list
ogólnie Python 3 preferuje iteratory / generatory

. . . . . .
Python 3
Porządek w bibliotece
Python2:
urllib, urllib2 - dwie biblioteki? gdzie co jest i po co?
from urllib2 import urlopen
u = urlopen("http://www.example.com")
Queue, SocketServer
anydbm, dbhash, dbm, dumbdbm, gdbm ...
Python3
urllib - jedna biblioteka z poukładaną funkcjonalnością
from urllib.request import urlopen
u = urlopen("http://www.example.com")
queue, socketserver
dbm.{anydbm, dbhash, dbm, dumbdbm, gdbm ...}

. . . . . .
Python 3
2to3
Przykładowy kod dla Python2.7
# printlinks.py
import urllib
import sys
from HTMLParser import HTMLParser
class LinkPrinter(HTMLParser):
def handle_starttag(self,tag,attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href': print value
data = urllib.urlopen(sys.argv[1]).read()
LinkPrinter().feed(data)

. . . . . .
Python 3
2to3
użycie narzędzia 2to3.
Pokazuje co i jak zamienić
bash % 2to3 printlinks.py
...
--- printlinks.py (original)
+++ printlinks.py (refactored)
@@ -1,12 +1,12 @@
-import urllib
+import urllib.request, urllib.parse, urllib.error
-from HTMLParser import HTMLParser
+from html.parser import HTMLParser
-if name == 'href': print value
+if name == 'href': print(value)

. . . . . .
Python 3
2to3
użycie narzędzia 2to3.
Pokazuje co i jak zamienić
bash % 2to3 printlinks.py
...
--- printlinks.py (original)
+++ printlinks.py (refactored)
@@ -1,12 +1,12 @@
-import urllib
+import urllib.request, urllib.parse, urllib.error
-from HTMLParser import HTMLParser
+from html.parser import HTMLParser
-if name == 'href': print value
+if name == 'href': print(value)
Ale dalej nie działa, czemu?

. . . . . .
Python 3
2to3
bash % python3 printlinks.py http://www.python.org
Traceback (most recent call last):
File "printlinks.py", line 12, in <module>
File "/Users/beazley/Software/lib/python3.1/html/parser.py",
line 107, in feed
self.rawdata = self.rawdata + data
TypeError: Can't␣convert␣'bytes'␣object␣to␣str␣implicitly
Jak widzimy błąd jest w obsłudze napisów.
2to3 nie może zgadnąć o jakie napisy nam chodzi

. . . . . .
Python 3
2to3
bash % python3 printlinks.py http://www.python.org
File "printlinks.py", line 12, in <module>
File "/Users/beazley/Software/lib/python3.1/html/parser.py",
line 107, in feed
self.rawdata = self.rawdata + data
TypeError: Can't␣convert␣'bytes'␣object␣to␣str␣implicitly
Jak widzimy błąd jest w obsłudze napisów.
2to3 nie może zgadnąć o jakie napisy nam chodzi
Fix:
LinkPrinter().feed(data.decode(′
utf − 8′
))

. . . . . .
Python 3
I/O
Po co to wszytko?
Wiele “prawdziwych” programów polegają na I/O

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
Tekst
Problemy
kodowanie - koszmar
Zależności między bibliotekami
biblioteki operują na stringach
trzeba konﬁgurować klasy aby wiedziały jak stringi są kodowane
znak → ile bajtów go koduje?
tłumaczenie tekstów
niektóre biblioteki nie obsługują wielu kodowań automatycznie
trzeba samemu przekodowywać tekst
wczytywanie plików.

. . . . . .
Tekst
Problemy
kodowanie - koszmar
Zależności między bibliotekami
biblioteki operują na stringach
trzeba konﬁgurować klasy aby wiedziały jak stringi są kodowane
znak → ile bajtów go koduje?
tłumaczenie tekstów
niektóre biblioteki nie obsługują wielu kodowań automatycznie
trzeba samemu przekodowywać tekst
wczytywanie plików.
Python ma być w prosty i intuicyjny

. . . . . .
Tekst
co poukładano
W Python 3 tekst jest unicode
przetwarzanie tekstu także odbywa się na podstawie unicode

. . . . . .
Tekst
Unicode
każdy znak ma swój unikalny kod (w lokalne kodowania są
przystosowane do lokalnych alfabetów)

. . . . . .
Tekst
Unicode
większa “pojemność znaku”
tekst więcej zajmuje :(

. . . . . .
Tekst
Unicode
tekst więcej zajmuje :( )
największy numer znaku: U+10FFF
http://www.unicode.org/charts

. . . . . .
Tekst
Unicode
tekst więcej zajmuje :( )
największy numer znaku: U+10FFF
http://www.unicode.org/charts
unicode literals:
"xf1" # standard ascii 'ñ'
"u2191": # ↑
"U0001d122"

. . . . . .
Tekst
testy z konsolą
testowanie znaków w python2 i python3
methody repr, ascii, chr
ascii('ś') # nowa metoda w python3
repr('ś')
chr(0x15b)

. . . . . .
Tekst
Unicode
Unicod jest przechowywany jako “C” int
sprawdzenie:
>>> sys.maxunicode
65535
# 16-bits
>>> sys.maxunicode
1114111
# 32-bits

. . . . . .
Tekst
Unicode
Tekst w Python3 zajmuje 2 lub 4 razy więcej niż w Python2
z tego powodu operacje na tekście wykonują się dłużej:
praca z konsolą
timeit("text[:-1]","text='x'*100000")
timeit("text.upper()","text='x'*1000")

. . . . . .
Tekst
Unicode - zalety
Bez względu na kodowanie tekstu w pliku, w pythonie dany tekst jest
zawsze tak samo reprezentowany (jako unicode)
Biblioteki nie muszą martwić się o kodowanie
użytkownik nie musi martwić się komunikację z bibliotekami i
wyświetlanie

. . . . . .
Tekst
Unicode - zalety
Bez względu na kodowanie tekstu w pliku, w pythonie dany tekst jest
zawsze tak samo reprezentowany (jako unicode)
Biblioteki nie muszą martwić się o kodowanie
użytkownik nie musi martwić się komunikację z bibliotekami i
wyświetlanie
przy czytaniu strumienia od razu musimy zadeklarować kodowanie →
mniej błędów
Wbudowana funkcja open() przyjmuje teraz argument encoding z
domyślną wartością "utf-8"
w pythonie 2 wszystko to było ukryte, co mogło powodować błędy w
przyszłości

. . . . . .
Tekst
Unicode - konsekwencje
unicode to wewnętrzna struktura pythona
inne programy mogą jej nie rozumieć
Aby przesyłać unicode trzeba używać metod encode, decode
>>> s = "Jalapeño"
>>> data = s.encode('utf-8')
>>> data
b'Jalapexc3xb1o'
>>> data.decode('utf-8')
'Jalapeño'

. . . . . .
Tekst
Unicode - Python3, podsumowanie
Python3 używa unicode do reprezentacji “stringów”
unicode to inty
Jeśli nie zaznaczysz inaczej, każdy unicode będzie zakładał kodowanie
UTF-8
strumienie bajtów to (bytes)
bytes nie “zna” kodowań
bytes to ciągi bajtów
byets wspiera operacje na ciągach (teracja, slices...)

. . . . . .
Tekst
Unicode - błędy na jakie można się natraﬁć
Błąd używania złego kodowania
>>> f = open('foo',encoding='ascii')
>>> data = f.read()
File "<stdin>", line 1, in <module>
File "/usr/local/lib/python3.2/encodings/
ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)
[0]
UnicodeDecodeError: 'ascii' codec can't␣decode␣byte
0xc3␣in␣position␣6:␣ordinal␣not␣in␣range(128)
>>>
>>>␣f␣=␣open('foo',encoding='utf-8')
>>>␣data␣=␣f.read()

. . . . . .
Tekst
Uwagi
unicode to potężny standard. Niektóre znaki są prezentowane jako
różne kody
>>> s = "Jalapexf1o"
>>> t = "Jalapenu0303o" # 'n' + ' '
>>> s
'Jalapeño'
>>> t
'Jalapeño'
>>> s == t
False
>>> len(s), len(t)
(8, 9)
mimo to tekst powinien być jednoznaczny - jako że kody klawiatury
są ustandaryzowane.

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
Print
nowe użycie
deﬁniowanie separatora
>>> print(1,2,3,sep=':')
1:2:3
# python2
>>> print("Hello","World",sep='')
HelloWorld
deﬁniowanie końca linii
>>> print("What?",end="!?!n")
What?!?!
Pytanie: jak w python2 wydrukować coś na ekran bez znaku nowej
linii na końcu

. . . . . .
Print
nowe użycie
deﬁniowanie separatora
>>> print(1,2,3,sep=':')
1:2:3
# python2
>>> print("Hello","World",sep='')
HelloWorld
deﬁniowanie końca linii
>>> print("What?",end="!?!n")
What?!?!
Pytanie: jak w python2 wydrukować coś na ekran bez znaku nowej
linii na końcu
>>> sys.stdout.write()

. . . . . .
Formatowanie tekstu
python2
s = "%10.2f" % price
python3
s = format(price,"10.2f")

. . . . . .
Formatowanie tekstu
funkcje str, repr, format
funkcje str, repr, format wywołują odpowiednio metody obiektu:
__str__, __repr__, __format__

. . . . . .
Formatowanie tekstu
funkcje str, repr, format
funkcje str, repr, format wywołują odpowiednio metody obiektu:
__str__, __repr__, __format__
format bierze dodatkowy argument - “code formaters”, analogiczny
do % z python2
>>> x = 1/3
>>> format(x,"0.4f")
'0.3333'
>>> format(x,"20.2f")
'␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣␣0.33'

. . . . . .
Formatowanie tekstu
code formaters
“code formaters”
”d” - decimal integer
”f” - ﬂoating point
”s” - stringach
”e” - notacja wykładnicza
”x” - hexadecimal
”o” - octal
”b” - binary
”%” - procentowa wartość

. . . . . .
Formatowanie tekstu
code formaters
modyﬁkatory precyzji i wyrównania:
[fill][<|>|^][width][thousands sep][.precision]code

. . . . . .
Formatowanie tekstu
code formaters
modyﬁkatory precyzji i wyrównania:
[fill][<|>|^][width][thousands sep][.precision]code
[fill] [znak wypełnienia, domyślnie “ ”]
[<|>|^] [do lewej| do prawej| centruj ]
[width] [szerokość]
[thousands sep] [separator tysięcznych części liczby]
[.precision]code [.ilość cyfr znaczących] typ kodu

. . . . . .
Formatowanie tekstu
code formaters
>>> format(1/2., "0.3f")
'0.500'
>>> format(1/2., "5.3")
'␣␣0.5'
>>> format(1/2., "^5")
'␣0.5␣'
>>> format(1/2., "=^5")
'=0.5='
>>> format(1e8., ",.0")
'1+e08'
>>> format(1e8., ",.0f")
'100,000,000'
>>> format(1e8., ",")
'100,000,000.0'

. . . . . .
Formatowanie tekstu
code formaters
metodę __format__(self, fmt) można nadpisać.
Wtedy sami możemy interpretować “code formaters” oraz dodawać swoje
kody.

. . . . . .
Formatowanie tekstu
string format
Metoda format dla napisów pozwala na tworzenie “koszyków” w tekście.
Koszyki później są zastępowane odpowiednimi wartościami.
Koszyki te mogą zawiertać formatery i argumenty:
pozycyjne
"{0}␣has␣{1}␣messages".format("Dave",37)
pozycyjne
"{name}␣has␣{n}␣messages".format(name="Dave",n=37)
pozycyjne
"{}␣has␣{}␣messages".format("Dave",37)
indeksowe
record = {'name' : 'Dave', 'n' : 37}
'{r[name]}␣has␣{r[n]}␣messages'.format(r=record)

. . . . . .
Formatowanie tekstu
string format
Jak tworzona jest wartość obiektu który “wkładamy” do koszyka
formatera?
{item} # Replaced by str(item)
{item!r} # Replaced by repr(item)
{item:fmt} # Replaced by format(item, fmt)

. . . . . .
Formatowanie tekstu
string format
Jak tworzona jest wartość obiektu który “wkładamy” do koszyka
formatera?
{item} # Replaced by str(item)
{item!r} # Replaced by repr(item)
{item:fmt} # Replaced by format(item, fmt)
foramt pozwala na pojedyncze zagnieżdżenie {}
>>> s = ('ACME',50,91.10)
>>> "{0:{width}s}␣{2:{width}.2f}".format(*s,width=12)
'ACME␣␣␣␣␣␣␣␣91.10'

. . . . . .
Formatowanie tekstu
string format
Jak stworzyć znak ’{’ w formaterze?
Trzeba użyć ’{{’

. . . . . .
Formatowanie tekstu
format_map
Metoda format może korzystać z nazwanych argumentów podczas
formatowania tekstu. Jeśli już mamy słownik i nie chcemy nadmiernie
tworzyć ekspansji słownika, możemy skorzystać z metody format_map,
która oczekuje słownika, a nie listy argumentów.
"{name}␣has␣{n}␣messages".format_map({
'name': 'Robert'
'n': 'Hello'
})

. . . . . .
Szablony tekstu
string.Templates
Podobną funkcjonalność do formatowania napisów daje klasa
string.Template:
from string import Template
msg = Template("namehasn messages")
print(msg.substitute(name="Dave",n=37)

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
Bytes
deﬁniowanie
Deﬁniowanie “bytes”
a = b"ACME␣50␣91.10" # Byte string literal
b = bytes([1,2,3,4,5]) # From a list of integers
c = bytes(10) # An array of 10 zero-bytes
d = bytes("Jalapeño","utf-8") # Encoded from string

. . . . . .
Bytes
deﬁniowanie
Deﬁniowanie “bytes”
a = b"ACME␣50␣91.10" # Byte string literal
b = bytes([1,2,3,4,5]) # From a list of integers
c = bytes(10) # An array of 10 zero-bytes
d = bytes("Jalapeño","utf-8") # Encoded from string
Tworzenie z stringu zawierającego liczbę hexadecimal
e = bytes.fromhex("48656c6c6f")

. . . . . .
Bytes
właściwości
Bytes posiada standardowe metody napisów
>>> s = b"ACME␣50␣91.10"
>>> s.split()
[b'ACME', b'50', b'91.10']
>>> s.lower()
b'acme␣50␣91.10'
>>> s[5:7]
b'50'

. . . . . .
Bytes
właściwości
Bytes posiada standardowe metody napisów
>>> s = b"ACME␣50␣91.10"
>>> s.split()
[b'ACME', b'50', b'91.10']
>>> s.lower()
b'acme␣50␣91.10'
>>> s[5:7]
b'50'
Bytes tak samo jak napisy są niemutowalne

. . . . . .
Bytes
właściwości
bytes to tablica int-ów
>>> s = b"ACME␣50␣91.10"
>>> s[0]
65
>>> s[1]
67

. . . . . .
Bytes
właściwości
bytes to tablica int-ów
>>> s = b"ACME␣50␣91.10"
>>> s[0]
65
>>> s[1]
67
bytes to standardowa struktura operacji I/O

. . . . . .
Bytes
Problemy
Portowanie kodu z Python2 do Python3
data = s.recv(1024)
if data[0] == b'+': # ERROR!
...
# fix
data = s.recv(1024)
if data[0] == 0x2b: # CORRECT
...

. . . . . .
Bytes
Portowanie
Nie potrzeba używać metody ord

. . . . . .
Bytes
Portowanie
Nie potrzeba używać metody ord
konwersja obiektów do “bytes” - postać binarna obiektów:
>>> x = 7
>>> bytes(x)
b'x00x00x00x00x00x00x00'
>>> str(x).encode('ascii')
b'7'

. . . . . .
bytearray
bytearray to mutowalne “bytes”
>>> s = bytearray(b"ACME␣50␣91.10")
>>> s[:4] = b"PYTHON"
>>> s
bytearray(b"PYTHON␣50␣91.10")
>>> s[0] = 0x70 # Must assign integers
>>> s
bytearray(b'pYTHON␣50␣91.10")

. . . . . .
bytearray
bytearray to mutowalne “bytes”
>>> s = bytearray(b"ACME␣50␣91.10")
>>> s[:4] = b"PYTHON"
>>> s
bytearray(b"PYTHON␣50␣91.10")
>>> s[0] = 0x70 # Must assign integers
>>> s
bytearray(b'pYTHON␣50␣91.10")
zawiera wiele operacji “listowych”
>>> s.append(23)
>>> s.append(45)
>>> s.extend([1,2,3,4])
>>> s
bytearray(b'ACME␣50␣91.10x17-x01x02x03x04')

. . . . . .
Bytes a Unicode
bytes nie służy do przetwarzania tekstu

. . . . . .
Bytes a Unicode
można użyć ich do tekstu - grozi to strasznym problemom (s[1] to nie
litera, a część kodu litery)

. . . . . .
Bytes a Unicode
Python3 jasno oddziela tekst od ciągu bajtów (unicode vs bytes)

. . . . . .
Bytes a Unicode
>>> s = b"ACME␣50␣91.10"
>>> 'ACME' in s
TypeError: Type str doesn't␣support␣the␣buffer␣API

. . . . . .
Bytes a Unicode
>>> s = b"ACME␣50␣91.10"
>>> 'ACME' in s
print() powiniena być tylko używana z tekstem (unicode)

. . . . . .
Bytes a Unicode
>>> s = b"ACME␣50␣91.10"
>>> 'ACME' in s
Bytes nie wspierają metody format

. . . . . .
Bytes a Unicode
>>> s = b"ACME␣50␣91.10"
>>> 'ACME' in s
Bytes nie wspierają metody format
Wiele funkcji operujących na tekście nie akcepują bytes (np:
time.strptime)

. . . . . .
Gdzie używać bytes
bytes nadają się do niskopoziomowych operacji I/O. (przekazywanie
wiadomości, systemy wbudowane, obliczenia rozproszone …)

. . . . . .
Użycie bytes
konkatenacja ciągu w Python2
chunks = []
while True:
chunk = s.recv(BUFSIZE)
if not chunk:
break
chunks.append(chunk)
msg = b"".join(chunks)

. . . . . .
Użycie bytes
chunks = []
while True:
if not chunk:
break
msg = bytearray()
while True:
if not chunk:
break
msg.extend(chunk)

. . . . . .
Użycie bytes
chunks = []
while True:
if not chunk:
break
msg = bytearray()
while True:
if not chunk:
break
msg.extend(chunk)
wielka wydajność operacji na bytes i bytearray

. . . . . .
Użycie bytes
przekazywanie wiadomości
Przekazywanie wiadomości.
objs = [ ... ] # List of tuples to pack
msg = bytearray() # Empty message
# First pack the number of objects
msg.extend(struct.pack("<I",len(objs)))
for x in objs: # Incrementally pack each object
msg.extend(struct.pack(fmt, *x))
f.write(msg) # Do something with the message

. . . . . .
Użycie bytes
XOR - cipher
kodowanie XOR
>>> s = b"Hello␣World"
>>> t = bytes(x^42 for x in s)
>>> t
b'bOFFEn}EXFN'
>>> bytes(x^42 for x in t)
b'Hello␣World'

. . . . . .
Użycie bytes
suma kontrolna
dołączanie sumy kontrolnej
chk = 0
for n in msg:
chk ^= n
msg.append(chk)

. . . . . .
Bufory
podobieństwa bytearray buﬀers
bufor to ciągły obszar pamięci
buﬀerarray() jest przykładem buforu

. . . . . .
Bufory
przykład:
array.array("i", [1,2,3,4,5])
numpy.array([1,2,3,4,5])
ctypes.ARRAY(ctypes.c_int,5)(1,2,3,4,5)

. . . . . .
Bufory
przykład:
array.array("i", [1,2,3,4,5])
numpy.array([1,2,3,4,5])
ctypes.ARRAY(ctypes.c_int,5)(1,2,3,4,5)
można powiedzieć że powyższe struktury są zamienne z typem bytes

. . . . . .
Memory View
memoryview to “nakładka na bufor” - patrz help()
>>> a = bytearray(b'Hello␣World')
>>> b = memoryview(a)
>>> b
<memory at 0x1007014d0>
>>> b[-5:] = b'There'
>>> a
bytearray(b'Hello␣There')

. . . . . .
Memory View
memoryview to “nakładka na bufor” - patrz help()
>>> a = bytearray(b'Hello␣World')
>>> b = memoryview(a)
>>> b
<memory at 0x1007014d0>
>>> b[-5:] = b'There'
>>> a
bytearray(b'Hello␣There')
jest bardzo niskopoziomową strukturą

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
implementacja I/O
w Pytonie2 I/O jest oparte o c I/O
python “ﬁle” to tylko cienka nakładka na C “FILE”

. . . . . .
implementacja I/O
w Pytonie2 I/O jest oparte o c I/O
python “ﬁle” to tylko cienka nakładka na C “FILE”
Python3 wprowadza swoją strukturę
jak było już powiedziane Python3 przeimplementował system I/O

. . . . . .
funkcja open()
użycie podobnie jak wcześniej
obiekt zwracany przez open różni się w zależności o ustawionego
argumentu file mode

. . . . . .
funkcja open()
argumentu file mode
przykład poniżej
>>> open("foo.txt","rt")
<_io.TextIOWrapper name='foo.txt' encoding='UTF-8'>
>>> open("foo.txt","rb")
<_io.BufferedReader name='foo.txt'>
>>> open("foo.txt","rb",buffering=0)
<_io.FileIO name='foo.txt' mode='rb'>

. . . . . .
funkcja open()
argumentu file mode
przykład poniżej
>>> open("foo.txt","rt")
<_io.TextIOWrapper name='foo.txt' encoding='UTF-8'>
>>> open("foo.txt","rb")
<_io.BufferedReader name='foo.txt'>
>>> open("foo.txt","rb",buffering=0)
<_io.FileIO name='foo.txt' mode='rb'>
task: uruchomienie tego w python2

. . . . . .
Moduł I/O
moduł io składa się z różny klas:
FileIO
BufferedReader
BufferedWriter
BufferedRWPair
BufferedRandom
TextIOWrapper
BytesIO
StringIO
każda klasa implementuje inny rodzaj I/O
każda klasa dodaje pewien zbiór właściwości

. . . . . .
Moduł I/O
warstwy I/O
otwarcie pliku powoduje kolejno tworzenie obiektów
open("foo.txt", "rt")
(TextIOWrapper → BufferedReader → FileIO
w Javie jest podobnie

. . . . . .
Moduł I/O
FileIO
obiekt reprezentujący surowy niebuforowany obiekt binary
(FileIO(name [, mode [, closefd]])
name nazwa pliku lub numer fd
mode ’r’, ’w’, ’a’, ’r+’, …
closefd ﬂaga kontrolująca czy metoda close() była wywołana.

. . . . . .
Moduł I/O
FileIO
mode ’r’, ’w’, ’a’, ’r+’, …
FileIO jest bezpośrednio zaimplemenowany na podstawie
systemowych funkcji read(), write()
bezpośrednio daje dostęp do niskopoziomowych wywołań
systemowych na deskryptorze pliku

. . . . . .
Moduł I/O
FileIO
mode ’r’, ’w’, ’a’, ’r+’, …
FileIO jest bezpośrednio zaimplemenowany na podstawie
systemowych funkcji read(), write()
bezpośrednio daje dostęp do niskopoziomowych wywołań
systemowych na deskryptorze pliku
w tym: częściowy odczyt / zapis, zwracanie systemowych kodów
błędów, dostęp blokowany, nieblokowany (asynchroniczny)

. . . . . .
FileIO
używanie
Python2 - moduł os
fd = os.open("somefile",os.O_RDONLY)
data = os.read(fd,4096)
os.lseek(fd,16384,os.SEEK_SET)
Python3 - obiekt FileIO
f = io.FileIO("somefile","r")
data = f.read(4096)
f.seek(16384,os.SEEK_SET)

. . . . . .
BuﬀeredIO
klasy implementujące buforowany I/O
BufferedReader(f [, buffer_size])
BufferedWriter(f [, buffer_size [, max_buffer_size]])
BufferedRWPair(f_read, f_write
[, buffer_size [, max_buffer_size]])
BufferedRandom(f [, buffer_size [, max_buffer_size]])

. . . . . .
BuﬀeredIO
klasy implementujące buforowany I/O
BufferedReader(f [, buffer_size])
BufferedWriter(f [, buffer_size [, max_buffer_size]])
BufferedRWPair(f_read, f_write
[, buffer_size [, max_buffer_size]])
BufferedRandom(f [, buffer_size [, max_buffer_size]])
każda z poniższych klas jest implementacją opartą o FileIO
f = io.FileIO("foo.txt") # Open the file (raw I/O)
g = io.BufferedReader(f) # Put buffering around it
f = io.BufferedReader(io.FileIO("foo.txt")) # Alternative

. . . . . .
Bufory
Bufory są kontrolowane przez dwa parametry:
buffer_size, max_buffer_size
buffer_size - ilość danych jaką bufor może przechować zanim “opróżni
się” do I/O
max_buffer_size - pojemność jaką posiada bufor zanim się zablokuje
(domyślnie 2x buffer_size)
Aby bufor zaakceptował więcej danych, należy wcześniej go opróżnić.

. . . . . .
Bufory
operacje na buforach
buﬀer readers:
f.peek([n]) # Return up to n bytes of data without
# advancing the file pointer
f.read([n]) # Return n bytes of data as bytes
f.read1([n]) # Read up to n bytes using a single
# read() system call

. . . . . .
Bufory
buﬀer readers:
buﬀer writers
f.write(bytes) # Write bytes
f.flush() # Flush output buffers

. . . . . .
Bufory
buﬀer readers:
buﬀer writers
f.write(bytes) # Write bytes
f.flush() # Flush output buffers
inne operacje:
seek, tell, close

. . . . . .
UWAGA
dla obiektów “pliko podobnych”
Jeśli używamy obiektów “pliko podobnych” powinniśmy używać
metody
readl()
jeśli pominiemy tą uwagę nasz program może się rozpaść jeśli inny
wątek / program będzie chciał się odwołać do tego samego pliku

. . . . . .
TextIOWrapper
obiekt implementujący text-based I/O
TextIOWrapper(buffered [, encoding [, errors
[, newline [, line_buffering]]]])
buffered - A buffered file object
encoding - Text encoding (e.g., 'utf-8')
errors - Error handling policy (e.g. 'strict')
newline - '', 'n', 'r', 'rn', or None
line_buffering - Flush output after each line (False)
jest jedną z warstw buforowanych strumieni I/O
f = io.FileIO("foo.txt") # Open the file (raw I/O)
g = io.BufferedReader(f) # Put buffering around it
h = io.TextIOWrapper(g,"utf-8") # Text I/O wrapper

. . . . . .
Text
obsługa znaku nowej linii
Domyślnie pliki są otwierane w trybie ”‘universal newline”’ - znaki
nowej linii są mapowane do znaku n

. . . . . .
Text
aby pozostawić oryginalny znak nowej linii, należy użyć funkcji open z
dodatkowym argumentem newline=''

. . . . . .
Text
aby pozostawić oryginalny znak nowej linii, należy użyć funkcji open z
dodatkowym argumentem newline=''
jeśli nie wymusimy formatu znaku nowej linii (poprzez użycie
argumentu newline w funkcji open), wtedy podczas zapisu używany
jest os.linesep jako znak nowej linii.

. . . . . .
Text
obsługa kodowań
w Python2 aby automatycznie zdekodować zawartość pliku podczas
czytania używany jest moduł codecs

. . . . . .
Text
obsługa kodowań
w Python3 nie ma potrzeby używania codecs.
W pełni zastępuje go TextIOWrapper

. . . . . .
Text
obsługa kodowań
w Python3 nie ma potrzeby używania codecs.
W pełni zastępuje go TextIOWrapper
TextIOWrapper jest znacznie szybszy niż codecs
for line in open("biglog.txt",encoding="utf-8"): # 3.8 sec
pass
f = codecs.open("biglog.txt",encoding="utf-8")
for line in f: # 53.3 sec
pass

. . . . . .
open()
Porównanie
typ obiektu zwracanego przez funkcję open zależy od parametrów.
mode buffering Result
any binary 0 FileIO
”rb” != 0 BufferedReader
”wb”, ”ab” != 0 BufferedWriter
”rb”, ”wb+”, ”ab+” != 0 BufferedRandom
any text != 0 TextIOWrapper

. . . . . .
open()
Porównanie
typ obiektu zwracanego przez funkcję open zależy od parametrów.
mode buffering Result
any binary 0 FileIO
”rb” != 0 BufferedReader
”wb”, ”ab” != 0 BufferedWriter
”rb”, ”wb+”, ”ab+” != 0 BufferedRandom
any text != 0 TextIOWrapper
Uwaga: niektóre kombinacje są nielegalne, a ich użycie spowoduje
rzucenie wyjątku (np: unbuffered text)

. . . . . .
I/O Stack
przechodzenie po stosie I/O
Scenariusz: mamy plik otwarty w text-mode, ale chcemy go czytać w
binary-mode.

. . . . . .
I/O Stack
przechodzenie po stosie I/O
Scenariusz: mamy plik otwarty w text-mode, ale chcemy go czytać w
binary-mode.
warstwy wyższe zawierają warstwy niższe. Czyli do bardziej natywnych
obiektów i/o możemy się dostać przez pola obiektów wyższych:
?
?
TextIOWrapper
BuﬀeredReader
FileIO
.buffer
.raw

. . . . . .
I/O Stack
przechodzenie po stosie I/O - przykład
Pisanie danych binarnych do sys.stdout.
Pomysły?

. . . . . .
I/O Stack
przechodzenie po stosie I/O - przykład
Pisanie danych binarnych do sys.stdout.
Pomysły?
>>> import sys
>>> sys.stdout.write(b"Hello␣Worldn")
TypeError: must be str, not bytes
>>> sys.stdout.buffer.write(b"Hello␣Worldn")
Hello World
12

. . . . . .
I/O Stack
UWAGA - warstwy!
Przechodzenie po warstwach może powodować błędy gdy pracujemy z
objektami typu pliki.
>>> import io
>>> from urllib.request import urlopen
>>> u = io.TextIOWrapper(
urlopen("http://www.python.org"),
encoding='latin1')
>>> text = u.read()
>>> u = io.TextIOWrapper(
urlopen("http://www.python.org"),
encoding='latin1')
>>> line = u.readline()
AttributeError: 'HTTPResponse' object has no
attribute 'read1'

. . . . . .
I/O Performance
odczyt
odczyt 100 Mb tekstu z pliku data = open("big.txt").read()
Python 2.7.1: 0.14s
Python 3.2 (UCS-2, UTF-8) : 0.90s
Python 3.2 (UCS-4, UTF-8) : 1.56s

. . . . . .
I/O Performance
odczyt
odczyt 100 Mb tekstu z pliku data = open("big.txt").read()
Python 2.7.1: 0.14s
Python 3.2 (UCS-2, UTF-8) : 0.90s
Python 3.2 (UCS-4, UTF-8) : 1.56s
odczyt 100 Mb danych binarnych
data = open("big.bin","rb").read()
Python 2.7.1 : 0.16s
Python 3.2 (binary) : 0.14s

. . . . . .
I/O Performance
zapis
zapis 100 Mb tekstu do pliku open("foo.txt","wt").write(text)
Python 2.7.1 : 1.73s
Python 3.2 (UTF-8) : 1.85s

. . . . . .
I/O Performance
zapis
zapis 100 Mb tekstu do pliku open("foo.txt","wt").write(text)
Python 2.7.1 : 1.73s
Python 3.2 (UTF-8) : 1.85s
zapis 100 Mb danych binarnych
data = open("big.bin","wb").write(data)
Python 2.7.1 : 1.79s

. . . . . .
I/O Performance
iteracja
zapis 100 Mb tekstu do pliku
for line in open("biglog.txt"): pass
Python 2.7.1 : 0.25s
Python 3.2 (UCS-2, UTF-8) : 0.57s
Python 3.2 (UCS-4, UTF-8) : 0.82s

. . . . . .
I/O Performance
iteracja
zapis 100 Mb tekstu do pliku
for line in open("biglog.txt"): pass
Python 2.7.1 : 0.25s
Python 3.2 (UCS-2, UTF-8) : 0.57s
Python 3.2 (UCS-4, UTF-8) : 0.82s
zapis 100 Mb danych binarnych
for line in open("biglog.txt","rb"): pass
Python 2.7.1 : 0.25s

. . . . . .
I/O - komentarze
odczyt zapis tak czy siak sprowadza się do zapisu bajtów

. . . . . .
I/O - komentarze
aby odczytać tekst, każdy znak musi zostać skopiowany do ”‘intów”’

. . . . . .
I/O - komentarze
aby uniknąć tych kopiowań należy nie korzystać z trybu tekstowego
(nie konwertować bytes do unicode).
Jednak nie zawsze oznacza to praktycznie rozwiązanie.

. . . . . .
I/O - komentarze
aby uniknąć tych kopiowań należy nie korzystać z trybu tekstowego
(nie konwertować bytes do unicode).
Jednak nie zawsze oznacza to praktycznie rozwiązanie.
TEKST ZAWSZE POWINIEN BYĆ PRZETWARZANY ZA
POMOCĄ UNICODE

. . . . . .
I/O, optymalizacja pracy z unicode
Jeśli mamy do czynienia z olbrzymią ilością TEKSTU jednobajtowego
(ASCII, Latin-x, ...), a mammy małą ilość dostępnej pamięci można użyć
paru optymalizacji
Odłożyć konwersje do Unicode jak najpóźniej się da

. . . . . .
paru optymalizacji
parsowanie tekstu jednobajtowego można dokonać na poziomie bytes.

. . . . . .
paru optymalizacji
parsowanie tekstu jednobajtowego można dokonać na poziomie bytes.
Przykład: parsowanie logów

. . . . . .
Przykład
Znaleźć wszystkie URL, które spowodowały status 404 w logach Apache.
Pomysły?

. . . . . .
Przykład
Znaleźć wszystkie URL, które spowodowały status 404 w logach Apache.
Pomysły?
error_404_urls = set()
for line in open("biglog.txt","rb"):
fields = line.split()
if fields[-2] == b'404':
error_404_urls.add(fields[-4])
error_404_urls = {n.decode('latin-1')
for n in error_404_urls }
for name in error_404_urls:
print(name)

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
operacje systemowe
Do obsługi operacji systemowych Python wykorzystuje zapytania
systemowe z biblioteki C

. . . . . .
operacje systemowe
Przykład wywołania zapytania systemowe w POSIX na Unixie:
int fd = open(filename, O_RDONLY);

. . . . . .
operacje systemowe
atrybuty są przekazywane do zapytań systemowych (nazwy plików,
programów, …) jako ciągi znaków (w C - char*, Python - bytes)

. . . . . .
operacje systemowe
Bytes są używane w zmiennych środowiskowych, argumentach
wywołania (command line arguments)

. . . . . .
operacje systemowe
Bytes są używane w zmiennych środowiskowych, argumentach
wywołania (command line arguments)
Jak Python integruje swoje stringi (Unicode) z byte-oriented
interfejsem systemowym?

. . . . . .
operacje systemowe
kodowanie argumentów
Standardowo python3 koduje wszystkie parametry ”‘tekstowe”’ w
UTF-8

. . . . . .
operacje systemowe
UTF-8
ogólnie jest to bezpieczne założenie.

. . . . . .
operacje systemowe
UTF-8
podobnie z argumentami wywołania i zmiennymi środowiskowymi -
Python3 dekoduje je za pomocą UTF-8.

. . . . . .
operacje systemowe
UTF-8
Jest to dość subtelne zachowanie - gdyż zakłada że wszystkie opcje
parametry systemowe są kodowane w UTF-8

. . . . . .
operacje systemowe
UTF-8
Jest to dość subtelne zachowanie - gdyż zakłada że wszystkie opcje
parametry systemowe są kodowane w UTF-8
ale niekoniecznie tak musi być

. . . . . .
operacje systemowe - kodowanie nazw
Przykład - błąd w nazwie pliku
Za pomocą Python2 stworzymy plik w systemie Linux, którego nazwa
będzie zawierać jeden znak spoza ASCII:
>>> f = open("jalapexf1o.txt","w")
>>> f.write("Bwahahahaha!n")
>>> f.close()

. . . . . .
>>> f.close()
Python3 nie będzie w stanie otworzyć tego pliku.
>>> f = open("jalapexf1o.txt")
...
IOError: [Errno 2] No such file or directory: 'jalapeño.txt'
Powód: nazwa pliku po zakodowaniu w UTF-8 nie odpowiada nazwie
pliku w systemie:
”jalapexf1o.txt” → UTF-8 coder → b”jalapec3xb1o.txt”

. . . . . .
>>> f.close()
Python3 nie będzie w stanie otworzyć tego pliku.
>>> f = open("jalapexf1o.txt")
...
IOError: [Errno 2] No such file or directory: 'jalapeño.txt'
Powód: nazwa pliku po zakodowaniu w UTF-8 nie odpowiada nazwie
pliku w systemie:
”jalapexf1o.txt” → UTF-8 coder → b”jalapec3xb1o.txt”
Co się stanie gdy w directory listing będzie nazwa pliku nie
UTF-8?

. . . . . .
argumenty jako Bytes
Można użyć bytes zamiast unicode jako argumenty do wywołań
systemowych.
>>> f = open(b"jalapexf1o.txt")
>>> files = glob.glob(b"*.txt")
>>> files
[b'jalapexf1o.txt', b'spam.txt']

. . . . . .
argumenty jako Bytes
Można użyć bytes zamiast unicode jako argumenty do wywołań
systemowych.
>>> f = open(b"jalapexf1o.txt")
>>> files = glob.glob(b"*.txt")
>>> files
[b'jalapexf1o.txt', b'spam.txt']
Jeśli użyjemy bytes do wywołania systemowego, wtedy ciąg ten nie
będzie w ogóle kodowany, oraz zwracane wyniki będą podawane jako
bytes.

. . . . . .
Surrogate Encoding
W Pythonie3.1 każdy nie dekodowalny (nie ASCII) znak w nazwie
pliku lub parametrze interfejsu systemowego jest tłumaczony przez
Surrogate Encoding
Jest to specyﬁczny dla Pythona trik, który zapobiega błędom podczas
wywołań systemowych przy obsłudze argumentów które nie są
poprawnymi ciągami UTF-8.

. . . . . .
Surrogate Encoding
deﬁnicja
Każdy bajt ∈ [0x80; 0xff] zamieniany jest na znak unicode
∈ [U + DC80; U + DCFF]

. . . . . .
Surrogate Encoding
deﬁnicja
∈ [U + DC80; U + DCFF]
Przykład:
”jalapexf1o.txt” → b”jalapeudcf1o.txt”

. . . . . .
Surrogate Encoding
deﬁnicja
∈ [U + DC80; U + DCFF]
Przykład:
”jalapexf1o.txt” → b”jalapeudcf1o.txt”
Podobnie znaki unicode ∈ [U + DC80; U + DCFF] są zamieniane na
bajty ∈ [0x80; 0xff] kiedy występuję w argumentach funkcji interfejsu
systemowego

. . . . . .
Surrogate Encoding
Przykład
Jeśli w wywołaniu systemowy widać znak rodzaju udcxx znaczy to że
znak nie ASCII został przesłany do interfejsu systemowego
>>> glob.glob("*.txt")
[ 'jalapeudcf1o.txt', 'spam.txt']
>>> f = open("jalapeudcf1o.txt")

. . . . . .
Surrogate Encoding
integracja z Unicode
Czy Surrogate Encoding jest kompatybilne z Unicode?

. . . . . .
Surrogate Encoding
Nie do końca

. . . . . .
Surrogate Encoding
Nie do końca
Poprawny unicode nie zawiera znaków ∈ [U + DC80; U + DCFF]

. . . . . .
Surrogate Encoding
Nie do końca
Poprawny unicode nie zawiera znaków ∈ [U + DC80; U + DCFF]
na przykład używanie napisów z surrogate encoding powoduje wyjątki
w funkcji print()
>>> files = glob.glob("*.txt")
>>> files
[ 'jalapeudcf1o.txt', 'spam.txt']
>>> for name in files:
print(name)
...
UnicodeEncodeError: 'utf-8' codec can't␣encode␣character
'udcf1'␣in␣position␣6:␣surrogates␣not␣allowed

. . . . . .
Surrogate Encoding
Implementacja
Surrogate encoding zaimplementowane jest jako error handler dla
metod encode(), decode() - patrz help(encode)
>>> s = b"jalapexf1o.txt"
>>> t = s.decode('utf-8','surrogateescape')
>>> t
'jalapeudcf1o.txt'
>>> t.encode('utf-8','surrogateescape')
b'jalapexf1o.txt'

. . . . . .
Surrogate Encoding
Implementacja
Surrogate encoding zaimplementowane jest jako error handler dla
metod encode(), decode() - patrz help(encode)
>>> s = b"jalapexf1o.txt"
>>> t = s.decode('utf-8','surrogateescape')
>>> t
'jalapeudcf1o.txt'
>>> t.encode('utf-8','surrogateescape')
b'jalapexf1o.txt'
Jeśli rozważamy pisanie kodu, który ma do czynienia z interfejsem
systemowy, i chcemy żeby kod był przenośny, wtedy będziemy
potrzebować powyższych rozwiązań.

. . . . . .
Table of Contents
.
.
.
1 Wstęp
.
.
.
2 Python 3
.
.
.
3 Tekst
.
.
.
.
.
.
5 Dane binarne
.
.
.
6 Moduł I/O
.
.
.
7 System Interface
.
.
.

. . . . . .
Unicode i Bytes a biblioteki
W Pyhon2 mogliśmy pomijać różnice między tekstem a ciągiem
bajtów. Wiele bibliotek pomijało tą sprawę (moduły sieciowe, moduły
przetwarzania danych …)

. . . . . .
W Pyhon2 mogliśmy pomijać różnice między tekstem a ciągiem
bajtów. Wiele bibliotek pomijało tą sprawę (moduły sieciowe, moduły
przetwarzania danych …)
Python3 traktuje tą sprawę poważnie i musimy być precyzyjni w
obsłudze I/O

. . . . . .
Przykład
Niepoprawna funkcja:
def send_response(s,code,msg):
s.sendall("HTTP/1.0␣%s␣%srn" % (code,msg))
send_response(s,"200","OK")

. . . . . .
Przykład
Niepoprawna funkcja:
s.sendall("HTTP/1.0␣%s␣%srn" % (code,msg))
Funkcja jest niepoprawna ponieważ socket operuje tylko na danych
binarnych (bytes, bytearray).
Czyli nie możemy wysyłać tekstu (np: ”‘Hello!”’)

. . . . . .
Przykład
W Python3 trzeba podać dokładnie kodowanie tekstu:
resp = "HTTP/1.0␣%s␣%srn" % (code,msg)
s.sendall(resp.encode('ascii'))

. . . . . .
Przykład
Zasady wysyłania danych:

. . . . . .
Przykład
Każdy tekst wysyłany musi być najpierw kodowany do bytes

. . . . . .
Przykład
Każdy tekst wysyłany musi być najpierw kodowany do bytes
Każdy tekst odbierany musi być najpierw dekodowany do unicode (jeśli
chcemy nim operować jako tekst)

Python io

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (16)

Semelhante a Python io

Semelhante a Python io (20)

Python io